Welcher Post-Hoc-Test ist der Richtige?

von Daniela Keller | Jan 14, 2015 | Analyse von Unterschieden, Blog, Statistisches Testen | 35 Kommentare

Wird die Varianzanalyse (ANOVA) signifikant, so interessieren in Anschluss oft noch die Paarvergleiche zwischen den einzelnen Gruppen, um herauszufinden, wo genau der Unterschied liegt. SPSS stellt hier im Menü eine Vielzahl von Tests zur Verfügung. Welchen davon sollen Sie verwenden? Welche Methode passt wann?

Wozu sind überhaupt besondere Methoden notwendig?

Warum hier überhaupt besondere Methoden notwendig sind und nicht einfach mit den „normalen“ Tests die Paarvergleiche gerechnet werden dürfen, lesen Sie in diesem Artikel nach. Kurz hier zusammengefasst: Wenn nach der ANOVA noch Paarvergleiche gerechnet werden, handelt es sich um multiples Testen. Dadurch erhöht sich der Fehler und dies muss korrigiert werden.

3 Kriterien für Post-Hoc-Tests

Nach folgenden drei Kriterien wird ein Post-Hoc-Test beurteilt:

Wie streng wird der Fehler 1. Art kontrolliert?
Wie streng wird der Fehler 2. Art kontrolliert?
Ist der Test robust (z.B. auf Verletzung der Normalverteilung, auf ungleiche Varianzen, ungleiche Stichprobengrößen usw.)?

Je nachdem, wie die Tests diese Kriterien erfüllen, werden sie für die jeweilige Situation ausgewählt.

Post-Hoc-Tests zur Auswahl in SPSS

In SPSS (Version 22) stehen aktuell für die ANOVA die hier abgebildeten Post-Hoc-Tests zur Verfügung (Screenshot aus dem Menü EINFAKTORIELLE VARIANZANALYSE, die Auflistung über das Menü UNIVARIAT enthält die gleichen Methoden):

Einige Methoden aus SPSS und deren Kriterien

Hier möchte ich zu ein paar dieser Methoden die Kriterien nennen. Aufgrund der Vielzahl der Methoden wähle ich nur ein paar wenige aus.

LSD (Least significant difference) und S-N-K (Studentized Newman-Keuls): keine Kontrolle des Fehlers 1. Art, deshalb zu liberal.

Bonferroni und Tukey: sehr strenge Kontrolle des Fehlers 1. Art, zu geringe Teststärke, deshalb zu konservativ. Bei wenigen Paarvergleichen hat Bonferroni mehr Teststärke, bei vielen Paarvergleichen hat Tukey mehr Teststärke.

Tamhane-T2, Dunnett-T3, Dunnett-C: robust bei ungleichen Varianzen, aber zu konservativ.

Vereinfachte Empfehlungen

Aufgrund der Vielfalt der Methoden und deren Eigenschaften fasse ich hier vereinfacht Empfehlungen zur Verwendung der Post-Hoc-Tests zusammen. Sie basieren auf den Empfehlungen von Andy Field (2013).

Gleiche Varianzen und gleiche Fallzahl: Q nach R-E-G-W
Gleiche Varianzen und leicht unterschiedliche Fallzahl: Gabriel
Gleiche Varianzen und stark unterschiedliche Fallzahl: GT2 nach Hochberg
Ungleiche Varianzen (gleiche oder ungleiche Fallzahl): Games-Howell

Post-Hoc-Tests und Normalverteilung

Alle diese Tests sind als Post-Hoc Analysen bei der ANOVA gedacht. Das heißt, sie setzten damit auch Normalverteilung voraus. Allerdings haben Simulationen gezeigt, dass sie – genauso wie die ANOVA – robust auf die Verletzung der Normalverteilung reagieren.

Als Paarvergleichstests nach nichtparametrischen Methoden sind sie trotzdem nicht geeignet. Hier stellt SPSS keine automatischen Post-Hoc-Tests zur Verfügung. Stattdessen müssen die Paarvergleiche mit „herkömmlichen“ Tests (Mann-Whitney U, Wilcoxon) durchgeführt werden und die Fehlerkorrektur von Hand berechnet werden, zum Beispiel mit der Bonferroni-Holm-Methode, siehe Blogbeitrag dazu.

Literatur: Andy Field, Discovering Statistics Using SPSS, Sage, 2013

Daniela Keller

Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.

35 Kommentare

Yvonne Jesse am 2. Juni 2015 um 16:46

Hallo Frau Keller,

ich sitze gerade an meine Masterarbeit und bin mir unsicher bezüglich Post-hoc Verfahren. Wie kann es sein, dass meine ANOVA signifikant wird, allerings keine der Post-hoc Verfahren (außer LSD, der ja zu liberal ist, ich vergleiche 4 Gruppen) signifikante Unterschiede zwischen den Gruppen aufweist?

Vielen Dank schon im Voraus!

Lg YJ
- Daniela Keller am 5. Juni 2015 um 23:41
  
  Hm, kann ich so auf die Entfernung auch nicht beantworten. Ist die Fallzahl sehr klein?
  Schöne Grüße
  Daniela
- Christoph Riederich am 18. Juni 2015 um 09:21
  
  Hallo Yvonne, bei mir ist das selbe Phänomen aufgetreten. Ich vermute mal, es liegt an der unterschiedlichen Stichprobengröße der jeweiligen Gruppen. Hast du dir den Levene-Test angesehen?
  
  LG Christoph
Stephan Zaehringer am 23. Juni 2015 um 18:44

Guten Tag Frau Keller,

Wir untersuchen im Rahmen unseres Masterstudiums, ob die Verwendung eines automatischen Detektionssystem zu signifikant besseren Leistungen in der Detektion führt. Uns interessiert nun, welchen Einfluss die Arbeitserfahrung zudem hat.
Unsere Versuchsgruppen sind balanciert. Keine der Versuchsgruppen absolviert den Test unter beiden Bedingungen.

Wir haben deshalb die folgende Hypothese aufgestellt:
Unerfahrene Arbeiter erziehlen mit automatischem Detektionssystem erziehlen signifikant bessere Leistungen als Erfahrene Arbeiter.

WIr haben dazu eine univariate mehrfaktiorielle (Mit/ohne automatischer Detektion und Unerfahren/Erfahren) Anova.

Wir sind aber nun der Meinung, dass wir damit nicht die Zunahme der Leistung prüfen sondern lediglich die Unterschiedlichkeit der Mittelwerte.

Wir sind nun nicht sicher, wie wir genau vorgehen müssen. Können Sie uns allenfalls einen Tipp geben.

Besten Dank im Voraus und Freundliche Grüsse
Stephan Zähringer
- Daniela Keller am 23. Juni 2015 um 19:57
  
  Hallo Stephan,
  die Methode ist schon die richtige. Ihr seht im Ergebnis der ANOVA, ob der Faktor „mit/ohne“ einen signifikanten Effekt hat (wobei für die Erfahrung kontrolliert wird, denn die ist auch als Faktor im Modell). Wenn dem so ist (signifikanter Effekt), betrachtet ihr die Mittelwerte (z.B. indem ihr euch die Profil-Plots ausgeben lasst) und seht dann, in welche Richtung dieser Effekt geht, also ob die Leistungen besser oder schlechter sind mit der Detektion. Wenn laut Mittelwerten die Leistungen besser sind, habt ihr nachgewiesen, dass die Leistungen mit automatischem Detektionssystem signifikant besser sind.
  Schöne Grüße
  Daniela
  - Stephan Zähringer am 23. Juni 2015 um 21:34
    
    Hallo Daniela,
    
    Dass ging ja super schnell, danke vielmals. Aber ich hab gerade gesehen, dass ich die falsche Hypothese einkopiert hab, Wie gehen wir vor wenn wir den Detektionsleistungszuwachs untersuchen wollen? Die Hypothese dazu wäre Unerfahrene Arbeiter erziehlen mit automatischem Detektionssystem eine signifikant höheren Zuwachs an Detektionsleistung als Erfahrene Arbeiter.
    
    Danke für deine Hilfe
    Gruss
    Stephan
    - Daniela Keller am 6. Juli 2015 um 20:17
      
      Hallo Stephan,
      ihr wollt also zeigen, dass sich der Leistungszuwachs in der Gruppe der unerfahrenen Arbeiter deutlicher verbessert (durch das automatische Detektionssystem) als bei den erfahrenen Arbeitern? Und ihr messt Leistung einmal mit und einmal ohne automatisches Detektionssystem bei erfahrenen und unerfahrenen Arbeitern?
      Dass würdet ihr diese unterschiedliche Änderung in einer signifikanten Interaktion zwischen Erfahrung und Detektionssystem nachweisen. Dass die Steigerung in der einen Gruppe höher ist als in der anderen (also die Richtung der Interaktion) seht ihr dann wieder an den deskriptiven Werten.
      Gruß
      Daniela
katharina am 7. September 2015 um 17:52

Liebe Frau Keller,

Meine ANOVA mit Messwiederholung (3 Faktoren, 2 Gruppen) habe ich post hoc mit t-tests aufgelöst, um zu sehen wo die Unterschiede genau bestehen.

Nun habe ich in meiner Arbeit jedoch ein Kommentar vom Betreuer, dass t-tests hier nicht die richtige Vorgehensweise ist, sondern andere post-hocs wie z.B. tukey. meines Wissens funktioniert Tukey jedoch nur bei mehr als 3 Gruppen. Nun meine Frage: Gäbe es noch andere Möglichkeiten eines post-hoc tests für meinen Fall?

Danke und freundlichste Grüße,

K
- Daniela Keller am 16. September 2015 um 20:23
  
  Hallo,
  um welche Post-Hoc Tests geht es hier genau? Feste Faktoren und Vergleich der Messzeitpunkte? Oder fester Messzeitpunkt und Vergleich der Gruppen oder …?
  Schöne Grüße
  Daniela
dehan am 15. September 2015 um 10:40

„Bei all diesen Fällen handelt es sich um multiples Testen, das heißt, eine einzige Nullhypothese wird mit mehreren Tests untersucht. Multiples Testen kann auch bei anderen Untersuchungsszenarien vorkommen, wenn beispielsweise mehrere Variablen das gleiche messen und mittels Tests analysiert werden, um eine einzige Forschungsfrage zu beantworten.“

Und wenn ich mehrere unabhängige Nullhypothesen habe?
Also z.B.:
1) Gruppe a schneidet besser als b in x ab
1) Gruppe a schneidet besser als b in y ab
1) Gruppe a schneidet besser als b in z ab
…..
Und was ist, wenn ich auf die gleiche Variable mehrere unabhängige Hypothesen habe?
z.B:
Gruppe a schneidet besser als Gruppe b in X ab
Gruppe a schneidet besser als Gruppe c in X ab
…..
das sind ja alles neue Hypothesen.
dann habe ich also keine Fehlerkumulation?

Danke schon mal
- Daniela Keller am 16. September 2015 um 20:43
  
  Ja. Das sind alles eigene Nullhypothesen, also keine Fehlerkorrektur notwending.
  Schöne Grüße
  Daniela
Sarah am 21. September 2015 um 20:51

Liebe Frau Keller,

ich habe ein 2×2 Between-Subjects-Design mit insgesamt fünf abhängigen Variablen und einer Kovariable. Zur Auswertung werde ich ANCOVAS durchführen. Ich habe gerichtete Hypothesen formuliert, also z.B. „Ein hohes Rating bei einer Kundenbewertung führt zu einer positiveren Einstellung gegenüber dem Produkt als ein niedriges Rating“. Die ANCOVA testet ja aber lediglich auf Unterschiede in den Mittelwerten, sind daher nur ungerichtete Hypothesen zulässig? Oder kann ich bei einem signifikanten Ergebnis mit den (deskriptiven) Mittelwerten argumentieren (im Fall einer gerichteten Hypothese)? Worin unterscheidet sich dies von Kontrasten oder Post-hoc Tests?

Über eine Antwort würde ich mich sehr freuen!
- Daniela Keller am 2. Oktober 2015 um 21:35
  
  Hallo Sarah,
  die Kontraste und Post-Hoc Tests untersuchen spezielle Hypothesen bzw. Paarvergleiche, die im komplexeren Gesamtmodell nicht genau so abgedeckt sind. Die Beschreibungen mit deskriptiven Maßzahlen sollten in jedem Fall gemacht werden und kann – genau wie von dir vorgeschlagen – bei einem signifikanten Ergebnis die Richtung zeigen.
  Schöne Grüße
  Daniela
Sabine am 18. November 2015 um 16:40

Hallo Daniela,
vielen Dank für diese tolle Seite und das Gratis Statistik Buch. Dennoch habe ich bei der Alpha-Fehlerkorrektur noch eine Frage. Ich bin immer unsicher, welche Korrektur man anwendet. Es geht um folgendes: ich habe einen Fragebogen (16 Skalen und 4 Faktoren), wo ich in zwei verschiedenen Gruppen nach Unterschieden geschaut habe (klinische Gruppe/ Vergleichsgruppe). Da die beiden Gruppen gematcht sind, habe ich einen T-Test für abhängige Stichproben gerechnet. Soweit so gut. Jetzt habe ich mir aber auch noch verschiedene Altersgruppen angesehen. (8 Gruppen). Was nehme ich jetzt als Teiler für die Bonferroni Korrektur? (also Signifikanzniveau/ Anzahl der Testungen) – teile ich durch 20 (Anzahl Skalen und Faktoren), teile ich durch 8 (Anzahl der Altersgruppen) oder durch 16 (Altersgruppe in jeweils der beiden Stichproben?) Oder mache ich es ganz anders?
Über eine Antwort würde ich mich sehr freuen!

Herzliche Grüße
Sabine
- Daniela Keller am 26. November 2015 um 12:11
  
  Hallo Sabine,
  
  wenn du diese ganzen Analysen wirklich auf einer Nullhypothese rechnest, müsstest du so streng korrigieren. Allerdings denke ich, dass du für die einzelnen Analysen (teilweise) eigene Hypothesen formulieren kannst (Bei den jüngsten Probanden gibt es keinen Unterschied. usw.). Dann musst du weniger korrigieren und erhälst wohl eher signifikant Ergebnisse. Für weitere spezielle Fragen kannst du meine Facebookgruppe Statistikfragen nutzen: https://www.facebook.com/groups/785900308158525/
  
  Schöne Grüße
  Daniela
Franziska Lohmaier am 26. November 2015 um 15:29

Sehr geehrte Frau Keller,

erst einmal herzlichen Dank für die tollen und sehr verständlichen Informationen auf Ihrer Website.

Ich habe eine Frage zu folgender Aussage: „Alle diese Tests sind als Post-Hoc Analysen bei der ANOVA gedacht. Das heißt, sie setzten damit auch Normalverteilung voraus. Allerdings haben Simulationen gezeigt, dass sie – genauso wie die ANOVA – robust auf die Verletzung der Normalverteilung reagieren.“

Auf welche Simulationen beziehen Sie sich dabei? Könnten Sie mir die Quelle nennen? Kennen Sie zufälligerweise noch eine Quelle, die zeigt, dass die ANOVA sich robust bei Verletzung der Normalverteilung verhält?

Ich würde mich sehr über eine Rückmeldung freuen. Vielen Dank schon jetzt.

Beste Grüße,
Franziska
- Daniela Keller am 7. Dezember 2015 um 14:00
  
  Hallo Franziska,
  Bortz (Statistik für Human- und Sozialwissenschaftler, 6. Auflage, Seite 286 f) beschreibt die Voraussetzungen der ANOVA und wann sie wie robust reagiert.
  Schöne Grüße
  Daniela
Jana am 2. Dezember 2015 um 12:24

Hallo,

ich habe einen Post Hoc Test (Gabriel) mit 4 Gruppen durchgeführt. Es wird mir von SPSS zwischen Gruppe 2 und 4 sowie zwischen 3 und 4 ein signifikantes Ergebnis (0,05) angezeigt. Bei diesem Test werden dann ja auch die homogenen Untergruppen angezeigt, hier wurde aber nur eine homogene Untergruppe angezeigt. Wie kann das trotz signifikanter Unterschiede sein?

Liebe Grüße
JAna
- Daniela Keller am 8. Dezember 2015 um 09:51
  
  Hallo Jana,
  wie genau sind die p-Werte? Sind sie knapp? Wie ist die Stichprobengröße?
  Schöne Grüße
  Daniela
Lukas am 7. Dezember 2015 um 19:27

Hallo Frau Keller,

ich habe auch eine Frage zu den Post-hoc Tests:
Welchen Post-hoc Test wähle ich in SPSS, wenn meine beiden unabhängigen Variablen jeweils nur zwei Faktorstufen aufweisen? SPSS meldet in diesem Fall, dass hier keine Post-hoc Tests angewendet werden können. Ich möchte aber natürlich trotzdem wissen, welche Gruppen sich jeweils unterscheiden hinsichtlich der Mittelwerte. Kann ich im Nachgang zur ANOVA einfach entsprechende T-Tests durchführen mit Bonferroni-Korrektur?

Über eine Antwort bin ich sehr dankbar! 🙂

Viele Grüße
Lukas
- Daniela Keller am 8. Dezember 2015 um 09:55
  
  Hallo Lukas,
  deine unabhängigen Variablen haben jeweils nur zwei Stufen. Das heißt, wenn die UV im Modell signifikant wird weißt du, dass es einen signifikanten Untershcied zwishen den beiden Stufen gibt. Wenn nicht, dann nicht. Das gilt für beide unabhängigen Variablen jeweils für sich. Wenn es dir um die Kombination der beiden unabhängigen Variablen geht solltest du wohl eher die Interaktion betrachten oder eine neue Gruppierungsvariable als Kombination der beiden Variablen untersuchen.
  Schöne Grüße
  Daniela
  - Lukas am 8. Dezember 2015 um 11:21
    
    Hallo Daniela,
    
    vielen Dank für deine schnelle Antwort, die mir schon sehr geholfen hat!
    
    Um sicherzugehen:
    (1) Heißt das, dass bei UVs mit nur zwei Faktorstufen Post-Hoc Tests bzgl. Mittelwertsunterschieden generell überflüssig sind?
    
    (2) Darf ich außerdem die Mittelwerte der Tabelle „Geschätzte Randmittel“ verwenden, um Aussagen zu signifikanten Unterschieden zu machen (z. B. „A wirkt bei B signifikant besser als bei C.“).
    
    (3) Wenn der Interaktionseffekt signifikant wurde für bestimmte AVs, heißt das, dass alle vier Kombinationsmöglichkeiten der beiden UVs ebenfalls signifikant wurden?
    
    Erneut vielen Dank für deine Hilfe!
    - Daniela Keller am 10. Dezember 2015 um 13:59
      
      Hallo Lukas,
      
      1) ja.
      2) Ja.
      3) Wenn die Interaktion signifikant ist, darfst du nicht einfach die Haupteffekte (einzelne Effekte der beiden UVs) interpretieren, da diese von der Interaktion gestört sein könnten. Um das herauszufinden siehst du dir am besten die Profilplots an.
      Schöne Grüße
      Daniela
Anna am 8. Januar 2016 um 15:10

Hallo Daniela!
Ich habe einen Chi-Quadrat Test für 2 ordinalskalierte Variablen (die erste hat drei Ausprägungen (kein Frühstück/ 200kcal) und die zweite 4 (Bmi > 18, 19-22, 22-25 und >25 ) berechnet. Das Ergebnis des Tests war signifikant. Nun weiß ich nicht wie ich weiter mache… Welchen Post-Hoc-Test würdest Du mir empfehlen?
- Daniela Keller am 21. Januar 2016 um 16:42
  
  Hallo Anna,
  Du kannst mit Fishers Exaktem Test jeweils 2 BMI-Gruppen genauer untersuchen.
  Schöne Grüße
  Daniela
Janina Frömmert am 22. Januar 2016 um 14:22

Hallo Frau Keller,

können Sie uns beantworten wie wir die Objektivität in SPSS bei einer multiplen Regressionsanalyse prüfen?

Sie haben uns mit Ihrer Seite bisher SUPER weitergeholfen und alle sind begeistert!

Viele Grüße
Janina
- Daniela Keller am 25. Januar 2016 um 08:21
  
  Hallo Janina,
  Objektivität wird normalerweise durch die Art der Durchführung der Erhebung sichergestellt (z.B. alle Interviewer gehen gleich vor) und die Durchführung der Auswertung (standardisierte statistische Verfahren) sichergestellt. Wirklich messen kann man die nicht.
  
  Schöne Grüße
  Daniela
Martin am 11. Februar 2016 um 17:03

Hallo Frau Keller,

im Rahmen einer 2-fakt. ANOVA (SPSS wurde verwendet) wurde ein signifikanter Unterschied auf einem Faktor (mit 3 Stufen) festgestellt, welcher mittels Post-Hoc Analyse genauer untersucht werden sollte. Getestet wurde der Effekt jeder Stufe, innerhalb des Faktors, auf eine Bakterienkonzentration. Die Stufen stellen sich wie folgt zusammen: Blindprobe; Antibiotikum A; Antibiotikum B. Es war zu erwarten, dass die Applikation von Antibiotikum A und B die Bakterienkonzentration verringern (einseitiger Test). Jedoch war nicht bekannt, ob es einen Unterschied zwischen der Verwendung von Antibiotikum A und B gibt (zweiseitiger Test). Daher würden sich zwei Unterschiedliche Signifikanzniveaus ergeben, im Blindprobe gegen Antibiotikum A und B jeweils eine alpha 0.05 und zwischen den Antibiotika eine alpha von 0.025.

Nun weiß ich leider nicht, ob ich einfach den jeweilig errechneten p-Wert gegen verschiedene alpha Niveau‘s vergleichen kann oder ob das alpha Niveau einheitlich bleiben muss bzw welches Niveau ich festlegen muss?

Über Ihre Hilfe würde ich mich sehr freuen:)
- Daniela Keller am 27. März 2016 um 21:49
  
  Hallo Martin,
  warum willst Du unterschiedliche Alphas verwenden?
  Schöne Grüße
  Daniela
Victoria H. am 3. März 2016 um 13:47

Hallo Daniela,

ich sitze an meiner Bachelorarbeit und muss mit SPSS einen Post-Hoc Test machen. Bei der ANOVA habe ich mit dem Modell Mixed Between-Within Subjects gearbeitet, habe also eine univariate Varianzanalyse durchgeführt. Ich habe zwei Gruppen mit 161 und 168 Leuten zum Vergleich. Ist der Gabriel Test der Richtige?

Vielen Dank im Voraus!

Liebe Grüße
Victoria
- Daniela Keller am 24. März 2016 um 22:57
  
  Hallo Victoria,
  wie genau sieht das komplette Modell aus? Hast Du noch einen Messwiederholungsfaktor? Wie war das Ergebnis des ANOVA-Modells für die Faktoren? Sind die Varianzen gleich?…
  Schöne Grüße
  Daniela
Franziska am 23. März 2016 um 12:25

Hallo Daniela,
es geht um a priori Test und post hoc Tests. Genauer gesagt um Simple Contrasts und Paarweise Vergleiche (Bonferroni). Geben die beiden Tests mir nicht genau das gleiche Ergebnis, da sie beide den Mittelwert einer Gruppe mit dem einer anderen Vergleichen oder wo ist der genaue Unterschied?
- Daniela Keller am 24. März 2016 um 22:18
  
  Hallo Franziska,
  bei Bonferroni werden alle Gruppen jeweils paarweise miteinander verglichen und das Signifikanzniveau wird angepasst (eben nach der Bonferroni-Methode). Bei den Kontrasten werden eigene Hypothesen geprüft (meist ausgewählte Paare) und das Signifikanzniveau wird nicht angepasst.
  Weitere Fragen könnt Ihr gern in meiner Facebook-Gruppe Statistikfragen https://www.facebook.com/groups/785900308158525/ diskutieren.
  
  Schöne Grüße
  Daniela
stocker am 9. Juni 2016 um 09:32

Wie heißt der post hoc Test, der multiple Vergleiche ignoriert?? ist das der Bonferroni oder Least Significance Test (LSD)? ich bitte um Rückmeldung, danke!
- Daniela Keller am 9. Juni 2016 um 20:10
  
  Hallo,
  der LSD führt keine Korrektur durch (also ignoriert er, dass man multipel testet). Bonferroni korrigiert sehr streng.
  Schöne Grüße
  Daniela