Im Rahmen einer Varianzanalyse werden mehr als zwei Gruppen auf Lageunterschiede untersucht. Wenn hier ein signifikanter p-Wert resultiert, bedeutet das, dass es einen signifikanten Unterschied zwischen den Gruppen gibt. Um herauszufinden, wo genau dieser Unterschied liegt, müssen so genannte Post-Hoc-Tests durchgeführt werden.

Das gleiche gilt auch, wenn mehrere nicht-normalverteilte Gruppen mit einem Kruskal-Wallis-Test oder mehrere Messwiederholungen mit einem Friedman-Test verglichen werden. Auch dann sind Post-Hoc-Tests notwendig, um mit diesen Paarvergleichen den Unterschied lokalisieren zu können.

Als Methode für die Post-Hoc-Tests kann der den Daten entsprechende Paarvergleichstest eingesetzt werden.

Bei all diesen Fällen handelt es sich um multiples Testen, das heißt, eine einzige Nullhypothese wird mit mehreren Tests untersucht. Multiples Testen kann auch bei anderen Untersuchungsszenarien vorkommen, wenn beispielsweise mehrere Variablen das gleiche messen und mittels Tests analysiert werden, um eine einzige Forschungsfrage zu beantworten.

Beim multiplen Testen gibt es eine Besonderheit zu beachten: der Fehler erster Art (alpha-Fehler, Signifikanzniveau) muss angepasst werden. Das nennt man auch Fehlerkorrektur.

Der Grund ist folgender: Würde man beispielsweise 100 Mal testen und den Fehler erster Art nicht anpassen, so würde man 100 Mal zum Signifikanzniveau von 5 % testen. Das heißt, man erlaubt sich 100 Mal mit der Wahrscheinlichkeit von 5 % ein signifikantes Ergebnis zu beschreiben, obwohl es gar keinen Unterschied gibt. Bei diesen 100 Tests macht man also im Mittel 5 Mal diesen Fehler. Man hat also insgesamt einen deutlich höheren Fehler erster Art. Das nennt man auch Alphafehler-Kumulierung.

Um dieses Problem zu umgehen, passt man das Signifikanzniveau für die einzelnen Tests an, so dass man insgesamt sein gewünschtes Signifikanzniveau von beispielsweise 5 % halten kann. Für diese Anpassung gibt es zahlreiche Methoden. Eine einfache und nicht zu konservative ist die Bonferroni-Holm-Korrektur, bei der den sortierten p-Werten der einzelnen Tests in aufsteigender Rangfolge aufsteigende Signifikanzniveaus zugeordnet werden. Wenn der einzelne p-Wert sein eigenes Signifikanzniveau nicht überschreitet, gilt der Test als signifikant. Sobald der erste p-Wert nicht mehr signifikant ist, wird die Prozedur abgebrochen. Dieser und alle größeren p-Werte gelten dann als nicht signifikant.

Eine Schritt-für-Schritt Anleitung der Bonferroni-Holm-Prozedur mit Formeln findet sich bei Wikipedia.

Einen Überblick über die verschiedenen Post-Hoc Tests, die SPSS zur ANOVA bereit stellt, findest du in diesem Blogbeitrag.