Post-Hoc Tests und Fehlerkorrektur

von Daniela Keller | Aug 12, 2013 | Statistisches Testen | 107 Kommentare

Im Rahmen einer Varianzanalyse werden mehr als zwei Gruppen auf Lageunterschiede untersucht. Wenn hier ein signifikanter p-Wert resultiert, bedeutet das, dass es einen signifikanten Unterschied zwischen den Gruppen gibt. Um herauszufinden, wo genau dieser Unterschied liegt, müssen so genannte Post-Hoc-Tests durchgeführt werden.

Das gleiche gilt auch, wenn mehrere nicht-normalverteilte Gruppen mit einem Kruskal-Wallis-Test oder mehrere Messwiederholungen mit einem Friedman-Test verglichen werden. Auch dann sind Post-Hoc-Tests notwendig, um mit diesen Paarvergleichen den Unterschied lokalisieren zu können.

Als Methode für die Post-Hoc-Tests kann der den Daten entsprechende Paarvergleichstest eingesetzt werden.

Bei all diesen Fällen handelt es sich um multiples Testen, das heißt, eine einzige Nullhypothese wird mit mehreren Tests untersucht. Multiples Testen kann auch bei anderen Untersuchungsszenarien vorkommen, wenn beispielsweise mehrere Variablen das gleiche messen und mittels Tests analysiert werden, um eine einzige Forschungsfrage zu beantworten.

Beim multiplen Testen gibt es eine Besonderheit zu beachten: der Fehler erster Art (alpha-Fehler, Signifikanzniveau) muss angepasst werden. Das nennt man auch Fehlerkorrektur.

Der Grund ist folgender: Würde man beispielsweise 100 Mal testen und den Fehler erster Art nicht anpassen, so würde man 100 Mal zum Signifikanzniveau von 5 % testen. Das heißt, man erlaubt sich 100 Mal mit der Wahrscheinlichkeit von 5 % ein signifikantes Ergebnis zu beschreiben, obwohl es gar keinen Unterschied gibt. Bei diesen 100 Tests macht man also im Mittel 5 Mal diesen Fehler. Man hat also insgesamt einen deutlich höheren Fehler erster Art. Das nennt man auch Alphafehler-Kumulierung.

Um dieses Problem zu umgehen, passt man das Signifikanzniveau für die einzelnen Tests an, so dass man insgesamt sein gewünschtes Signifikanzniveau von beispielsweise 5 % halten kann. Für diese Anpassung gibt es zahlreiche Methoden. Eine einfache und nicht zu konservative ist die Bonferroni-Holm-Korrektur, bei der den sortierten p-Werten der einzelnen Tests in aufsteigender Rangfolge aufsteigende Signifikanzniveaus zugeordnet werden. Wenn der einzelne p-Wert sein eigenes Signifikanzniveau nicht überschreitet, gilt der Test als signifikant. Sobald der erste p-Wert nicht mehr signifikant ist, wird die Prozedur abgebrochen. Dieser und alle größeren p-Werte gelten dann als nicht signifikant.

Eine Schritt-für-Schritt Anleitung der Bonferroni-Holm-Prozedur mit Formeln findet sich bei Wikipedia.

Einen Überblick über die verschiedenen Post-Hoc Tests, die SPSS zur ANOVA bereit stellt, findest du in diesem Blogbeitrag.

Daniela Keller

Ich bin Statistik-Expertin aus Leidenschaft und bringe Dir auf leicht verständliche Weise und anwendungsorientiert die statistische Datenanalyse bei. Mit meinen praxisrelevanten Inhalten und hilfreichen Tipps wirst Du statistisch kompetenter und bringst Dein Projekt einen großen Schritt voran.

107 Kommentare

Thomas am 23. Februar 2015 um 16:26

Hallo liebe Daniela,
ich habe eine Frage zum Post-hoc-Test nach sig. Friedman-Test.
In SPSS 22 kann ich unter Analysieren, nicht parametrische Tests, verbundene Stichproben in den Einstellungen unter Test Anpassen „Friedmans zweifaktorielle ANOVA nach Rang (k-verbundene Stichproben) auswählen und dann bei „Mehrfachvergleiche“ „alle paarweise“ auswählen. Wenn man sich dann die Ausgabe ansieht, kann man im Model-viewer sich einen Post-hocTest mit Angepasster Signifikanz anzeigen lassen.
Nun meine Fragen:
Was ist das für ein Test?
Welche Anpassung liegt dem zugrunde?

Liebe Grüße,
thomas

PS: danke für diesen tollen Blog und das tolle Buch „Wie schreibe ich eine Doktorarbeit“!
- Daniela Keller am 24. Februar 2015 um 09:31
  
  Hallo Thomas,
  
  als paarweise Vergleiche rechnet SPSS da mehrere Wilcoxon-Tests, die man auch sonst verwenden würde, wenn man die Paarvergleiche „von Hand“ macht. Zur Art der Korrektur habe ich nichts gefunden. Ich vermute aber stark, dass das die klassische Bonferroni-Korrektur ist, bei der das globale Signifikanzniveau durch die Anzahl der Tests geteilt wird. Jeder p-Wert muss dann dieses neue Signifikanzniveau unterschreiten, um signifikant zu sein. Umgekehrt kann man auch jeden p-Wert mit der Anzahl der Tests multiplizieren und dann schaun, ob die angepassten Werte unter 0,05 sind. Das ist das, was SPSS wohl macht. Die Bonferroni-Korrektur ist übrigens sehr konservativ. Das Ergebnis würde ich also mit Vorsicht genießen und vielleicht lieber per Hand ein weniger konservatives Verfahren, wie z.B. die Bonferronie-Holm-Methode anwenden.
  Übrigens schön, dass du in der Facebook-Gruppe dabei bist!
  Es freut mich sehr, dass du mein Buch kennst und schätzt! Ganz toll ist, wenn du es weiterempfehlen kannst, vielleicht auch auf Amazon eine Bewertung abgibst. 🙂
  Schöne Grüße
  Daniela
Mel am 24. Februar 2015 um 09:11

Hallo, ich habe eine Frage bezüglich der Post-Hoc Test. Ich habe mittels Kruskal Wallis 4 Stichproben verglichen auf 13 Variablen. Anschließend habe ich mittels Mann Whitney U Test Stichprobe 1 und 2 , 3 und 4, 2 und 3 verglichen auf 13 Variablen. Zählt das dann als multiples Testen?

Falls ja, wollte ich die Bonferroni-Holm-Korrektur anwenden. Muss ich dann denn P-Wert von 0,05 durch 39 teilen oder …?

DANKE für eine kurze Rückantwort.

Gruß
Mel
- Daniela Keller am 24. Februar 2015 um 09:35
  
  Hallo Mel,
  
  das ist multiples Testen für jede Variable für sich. Es sind also keine 39 Tests, sondern 3 pro Variable. Bei Bonferroni müsste dann der p-Wert durch 3 geteilt werden. Bei Bonferroni-Holm werden die p-Werte sortiert und dann unterschiedliche Signifikanzniveaus vergeben. Das ist etwas komplizierter, dafür aber nicht so konservativ. Den Link zur Erklärung bei Wikipedia findest du im Beitrag.
  Komm doch auch in unsere Facebook-Gruppe Statistikfragen: https://www.facebook.com/groups/785900308158525/
  Dort kannst du weitere Fragen stellen und mit mir und den anderen Teilnehmern darüber diskutieren.
  
  Schöne Grüße
  Daniela
  - Mel am 24. Februar 2015 um 10:05
    
    Sie haben mir sehr weiter geholfen 🙂 10000 Dank!
    
    Viele Grüße
    Mel
  - André am 3. September 2015 um 12:25
    
    Hallo Daniela,
    
    ich muss mich auch gerade mit dem multiplen Testen beschäftigen. Allerdings habe ich die Literatur anders interpretiert als Du. Z. B. schreiben Sedlmeier & Renkewitz (2013) in ihrem Buch „Forschungsmethoden und Statistik für Psychologen und Sozialwissenschaftler“ auf Seite 422: „Das Problem einer erhöhten Wahrscheinlichkeit für einen Alpha-Fehler […] ergibt sich auch dann, wenn zwei Gruppen hinsichtlich ihrer Mittelwerte auf mehreren Variablen verglichen werden – oder ganz allgemein bei der Durchführung zahlreicher Signifikanztests in einer Untersuchung.“
    
    Macht auch Sinn. Wenn man z. B. einer Stichprobe eine bestimmte Bonbon-Sorte gibt und 100 verschiedene Parameter zu 2 Zeitpunkten misst (hypothetisch), dann wären allein aufgrund von Zufall einige davon signifikant.
    
    Falls Du mal einen Blogbeitrag allgemein zur Thematik des multiplen Testens aufsetzen würdest, fände ich das prima. 😉
    
    Wie ich den Literatur ferner entnommen habe, stellt sich das Problem ebenso bei Subgruppen-Analysen (was bei genauerem Nachdenken ebenfalls Sinn macht). Und wenn, wie in dem vorliegenden Fall meiner Masterarbeit, t-Tests auf mehreren Variablen, t-Tests in Subgruppen und Korrelationsanalysen zusammenkommen, weiß ich nicht mehr, was ich wie adjustieren soll. 😐
    
    Viele Grüße,
    André
    - Daniela Keller am 15. September 2015 um 09:52
      
      Hallo André,
      ja, das ist wirklich ein diskussionswürdiges Thema 🙂
      Grundsätzlich ist wichtig sich zu überlegen, welche Hypothese man mit dem Test untersucht. Zu deinem Beispiel: Wenn deine Hypothese ist: „Der Geschmack unterscheidet sich zwischen den Bonbon-Sorten“ und du dann „Geschmack“ mit den 100 Parametern misst und damit 100 Tests durchführst, dann handelt es sich um multiples Testen und es muss korrigiert werden.
      Wenn du aber für jeden Geschmacksparameter eine eigene Hypothese hast. Z.B. ist Parameter 1 „Süße“ und die Hypothese dazu lautet „Die Süße unterscheidet sich“, dann ist das eine Hypothese und 1 Test und es muss nicht korrigiert werden.
      Schöne Grüße
      Daniela
Mel am 24. Februar 2015 um 12:48

Hallo,

ich muss Sie leider nochmal etwas diesbezüglich fragen:

Ich habe 2 Stichproben miteinander verglichen M/W mittels Mann Whitney U Test auf 10 Variablen. ( Hier habe ich dann keine Alpha Fehler Kumulierung vorgenommen)

Anschließend habe ich einen Kurskal Wallis Test beim dem 4 Stichproben verglichen wurden durchgeführt und dann als Post Hoc die Mann Whitney U Tests wo dann Stichprobe 1 und 2 , 3 und 4, 2 und 3 auf die 10 Variablen miteinander verglichen wurden. Für die drei Tests würde ich dann eine Kumulierung pro Variabel vornehmen.
Muss ich dann die p-Werte von dem ersten Vergleich m/w mit hinzu ziehen weil es ja die gleichen Variablen sind und alle aus einer Grundgesamtheit stammen?!?

Danke und Gruß
Meli
- Daniela Keller am 24. Februar 2015 um 14:30
  
  Hallo Meli,
  nein, die p-Werte vom esten Vergleich müssen da wohl nicht hinzu gezogen werden. Es müssen immer nur die p-Werte gemeinsam korrigiert werden, die für die gleiche Nullhypothese gelten. Ich weiß nicht genau, welche Hypothesen du da getestet hast, aber ich vermute stark, dass das unterschiedliche Nullhypothesen waren.
  Schöne Grüße
  Daniela
Johannes am 25. Februar 2015 um 12:09

Liebe Frau Keller, Ihre Homepage ist interessant und ich frage mich, wie Sie zu einer grundsätzlicheren Frage stehen:

Sind Post-Hoc Tests nur für ungerichtete explorative Fragestellungen das Mittel der Wahl?

Wenn ich beispielsweise mehrere Gruppen untersuche und begründete Hypothesen für Unterschiede formuliert habe (und nicht alle Gruppen miteinander vergleichen möchte, aber die meisten). Kann es dann richtig sein, Post-Hoc Tests für diese einseitig formulierte Hypothesen heranzuziehen? Könnte ich die p-Werte der post-Hoc-Tests dann halbieren?

Danke und viele Grüße
- Daniela Keller am 25. Februar 2015 um 13:16
  
  Hallo Johannes,
  ob die Hypothese ungerichtet ist oder nicht, ist hier nicht relevant. Für die Entscheidung, ob Post-Hoc Tests (mit Korrektur) oder einfache Paarvergleiche (ohne Korrektur) verwendet werden, ist nur wichtig, ob die Tests für eine gemeinsame Nullyhpothese gerechnet werden (dann Post-Hoc Tests mit Korrektur), oder ob es für jeden Test eine eigene Nullhypothese gibt (dann einfache Paarvergleiche ohne Korrektur).
  Wenn Sie, wie in Ihrem Beispiel, begründete Hypothesen für jeden einzelnen Paarvergleich haben, dann brauchen Sie keine Korrektur.
  Schöne Grüße
  Daniela Keller
  - Isabell am 18. März 2015 um 11:04
    
    Liebe Daniela,
    
    ich möchte dieses Thema gerne nochmal aufgreifen. Also zum Verständnis, wenn ich eine gerichtete Hypothese überprüfen möchte muss ich dann das ausgegebene p bei dem Post-Hoc-Test halbieren?
    
    Liebe Grüße
    Isabell
    - Daniela Keller am 18. März 2015 um 12:04
      
      Hallo Isabell,
      meinst du, dass du einseitig testest? Einseitiges Testen ist nur in sehr wenigen Fällen sinnvoll und hat nichts direkt mit multiplem Testen und der Fehlerkorrektur zu tun.
      Schöne Grüße
      Daniela
Roland am 6. März 2015 um 16:16

Liebe Frau Keller,

ich führe statistische Auswertungen in SPSS 22 und habe eine Frage bzgl. Post-Hoc-Tests: Meine Datengrundlage besteht aus 2 Stichproben zu jeweils mehr als 5000 Werten, keine Normalverteilung und keine Varianzengleichheit. Ich habe die 2 Stichproben mit 6 Variablen mittels Kruskal-Wallis Test verglichen, wobei sich die Gruppen signifikant unterscheiden.

Ich habe dann den „eingebauten“ Post-Hoc-Test (im Modellviewer, Ansicht: Paarweise Vergleiche) gemacht, um zu lokalisieren wo genau die Unterschiede liegen. Zusätzlich habe ich in SPSS einen Post-Hoc-Test nach Games-Howell durchgeführt. Zwischen den Ergebnissen der beiden Post-Hoc-Tests gibt es nun Unterschiede – Welches Verfahren liefert für meine Zwecke die zuverlässigen Ergebnisse, bzw. welches Verfahren hat welche Schwächen? Welches Verfahren wird beim „eingebauten“ Post-Hoc-Test in SPSS verwendet?

Ich freue mich sehr, wenn Sie mir weiterhelfen können!

Beste Grüße

Roland
- Daniela Keller am 6. März 2015 um 20:00
  
  Hallo Roland,
  die Post-Hoc Tests im Model-Viewer machen die Bonferroni-Korrektur. Die ist sehr streng. Deshalb wäre z.B. Bonferroni-Holm besser, allerdings gibt es die nicht in SPSS, die muss man „von Hand“ machen.
  Games-Howell ist neben anderen Methoden für die Post-Hoc Tests nach der ANOVA vorgehsehen. Da sollte also Normalverteilung vorliegen, was ja nicht der Fall ist.
  Also, meine Emfpehlung: Bonferroni-Holm, die Methode ist nicht zu konservativ und hat keine Voraussetzungen an die Verteilung der Daten. Eine Anleitung dazu ist z.B. hier: http://de.wikipedia.org/wiki/Alphafehler-Kumulierung#Bonferroni-Holm-Prozedur
  Schöne Grüße
  Daniela Keller
Thorsten am 10. März 2015 um 12:04

Hallo,

wie formuliere ich in meinem Bericht, wenn ich in der ANOVA zwar das Ergebnis erhalte, dass sich mind. zwei Gruppen signifikant unterscheiden (p=0,04), im Post-Hoc-Test aufgrund der Fehlerkorrektur aber keine der 4 Gruppen einen signifikanten Unterschied aufweisen p(min)=0,08?

Kann ich die H0 dann verwerfen und weiß dennoch nicht, wie der Unterschied im Detail aussieht und beschreibe nur die Mittelwerte? Oder bleibe ich bei der H0?

Kontraste dürfte ich ja in diesem Fall nicht heranziehen, weil ich in der Hypothese ja nach globalen Unterschieden frage und nicht bereits einzelne Gruppen berücksichtige.

Vielen Dank!
- Daniela Keller am 10. März 2015 um 12:20
  
  Hallo Thorsten,
  du kannst die H0 (es gibt keinen Effekt) verwerfen. Allerdings formulierst du nicht, dass sich „mind. zwei“ Gruppen unterscheiden, sondern, dass es insgesamt einen Unterschied gibt.
  Dein Vorschlag also passt: H0 verwerfen, lokalisiert werden kann der Unterschied aber nicht signifikant aufgrund der Fehlerkorrektur. Deskriptiv solltest du das in jedem Fall beschreiben (mit Mittelwerten) und ruhig auch diskutieren, dass das an der Fehlerkorrektur liegen kann, die vielleicht zu streng ist. Welche hast du denn verwendet?
  
  Schöne Grüße
  Daniela
  - Thorsten am 10. März 2015 um 13:27
    
    Das ging ja schnell – vielen Dank!
    
    Jetzt weiß ich zumindest, dass ich auf dem richtigen Weg war. 🙂
    
    Ich habe bei gegebener Varianzhomogenität (p=0,06 beim Levene-Test) und den Gruppengrößen n=21; n=37; n=61; n=71) Tukey sowie GH versucht, die beide relativ identische Ergebnisse liefern (Abweichungen auf der 2. Nachkommastelle).
    
    Zu dem „mind. zwei“: Das wird ja so im Bortz beschrieben:
    „Die entsprechende Alternativhypothese lautet, dass sich mindestens zwei μ-Parameter voneinander unterscheiden“ (S. 207, 7. Auflage).
    - Daniela Keller am 10. März 2015 um 21:01
      
      Gut 🙂
      Stimmt, das formuliert Bortz so. An einer anderen Stelle (bei mir, 6. Auflage, Seite 263, Einzelvergleiche) nennt er es so „dass sich die p Mittelwerte in irgendeiner Weise signifikatn unterscheiden“. Das gefällt mir besser, ist aber wohl Geschmacksache. 🙂
Micaela am 21. März 2015 um 12:15

Liebe Frau Keller,

ich habe eine One-Way Anova durchgeführt mit 3 Gruppen (die ich geordnet habe: negative Info, keine Info, positive Info zu Produkt und herauskommen sollte eine aufsteigende Kaufabsicht als abhängige Variable). Optimal sollten sich alle Gruppen signifikant unterscheiden, das ist aber leider nicht der Fall, da das Produkt generell sehr schlecht bewertet wurde (negativ und neutral unterscheiden sich kaum, aber positiv ist schon etwas höher (auf einer skala von 1 bis 7 die Mittelwerte: negativ=2.68 neutral=2.79 und positiv=3.23). Wichtig ist mir vor allem, dass sich die negative und positive Gruppe unterscheiden. Ich habe daher einen einzigen Contrast eingepflegt um diese zwei Gruppen zu vergleichen. Jetzt kommt raus:

Anova nicht signifikant p=.104 (oder könnte ich bei dem Wert noch sagen marginal signifikant?).

Kann ich dann aber trotzdem folgende Aussagen treffen:

Es ist ein signifikanter linearer Trend erkennbar (wie gewünscht): Linearer Term (habe Polynomial: linear aktiviert) p=.046

Es liegt ein signifikanter Unterschied vor zwischen der positiven und der negativen Gruppe, da Contrast p=.044

Was muss ich bei der Dokumentation beachten?

Vielen Dank im Voraus!
- Daniela Keller am 23. März 2015 um 14:15
  
  Hallo,
  ja, so kannst du die Ergebnisse beschreiben. Von einem marginalen signifikanten Effekt bei der ANOVA (p=.104) würde ich nicht sprechen, aber das ist auch Geschmacksache. Solange du die p-Werte angibst, ist es ja transparent und der Leser kann sich selbst ein Bild machen. Was ich als Leser eher sehen möchte ist, ob die Voraussetzungen der ANOVA erfüllt waren. Bei einer Skala von 1 bis 7: sind die Daten da normalverteilt? Varianzhomogen?…
  Schöne Grüße
  Daniela
  - Micaela am 26. März 2015 um 11:18
    
    vielen dank!
christina am 10. April 2015 um 12:21

Sehr geehrte Frau Keller,

Ich rechne in meiner Masterarbeit den Kruskal-Wallis Test und Varianzanalysen. Der Kruskal-Wallis Test macht bei Spss in seinen Post-Hoc Paarvergleichen selbstständig die Bonferroni Korrektur oder? Also ich müsste dann nicht mehr die Korrekturformel nach Bonferroni (Signifikanzniveau durch die Anzahl der Tests rechnen, oder?

Kann ich sowohl bei der Varianzanalyse als auch bei dem Kruskal-Wallis und Post hoc paarvergleiche das Signifikanzniveau halbieren, wenn ich gerichtet getestet habe? Hat die Bonferroni Korrektur (ob manual oder von Spss gerechnet) darauf irgendeinen Einfluss?

Vielen Dank im Vorraus
mit lieben Gruss
Christina
- christina am 10. April 2015 um 12:26
  
  PS: wenn das Signifkanzniveau halbiert wurde, gibt man dann das halbierte Signifikanzniveau an oder das was man tatsächlich rausgefunden hat Bsp: 0.04 ist tatsächlich rausgekommen und 0.02 wird nach der Halbierung angegeben?
  - Daniela Keller am 13. April 2015 um 11:09
    
    Hallo Christina, ja, der Post-Hoc Test, den SPSS beim Kruskal-Wallis Test durchführt, ist schon korrigiert mit der Bonferroni-Korrektur. Einseitiges Testen empfehle ich grundsätzlich nicht. Es kann gut sein, dass deine Forschungsfrage gerichtet ist. Das ist völlig in Ordnung. Trotzdem solltest du zweiseitig Testen und die Richtung dann anhand der deskriptiven Statistik interpretieren. Der Hintergrund ist der: beim einseitigen Testen wird davon ausgegangen, dass ein Unterschied in die andere Richtung völlig ausgeschlossen ist (Wahrscheinlichkeit = 0 %). Das ist in den wenigsten Fällen so. Deshalb immer zweiseitig testen!
Jürgen M. am 11. April 2015 um 16:12

Sehr geehrte Frau Keller,

ich beschäftige mich zur Zeit im Rahmen einer Studienarbeit mit ANOVA und Post-Hoc-Tests. Im Zuge meiner Recherchen bin ich auf diesen Artikel gestoßen und hätte eine Frage.

In meinem konkreten Anwendungsfall geht es darum, verschiedene Vorhersagemodelle nach ihrer Vorhersagequalität zu beurteilen, als Vergleichskriterium wird hier ein mittels Kreuzvalidierung ermittelter Fehlerwert herangezogen (beispielsweise root mean squared error oder der relative Fehlerwert).
Ich habe nun z.B. fünf verschiedene Modelle, hier soll jetzt der Einfachheit halber Modell 1 den kleinsten Fehler aufweisen und dann die anderen Modelle aufsteigend größere Fehlerwerte, bis hin zu Modell 5 mit dem größten Fehlerwert. Diese ermittelten Stichproben mit den Fehlerwerten der Modelle schmeiße ich in eine Anova und es ergibt sich ein signifikantes Ergebnis. Anschließend führe ich einen Post-Hoc-Test durch, beispielsweise den Tukey HSD über MATLAB und ich kann sehen, dass sich bspw. Modell 1 von allen anderen signifikant unterscheidet, ebenso Gruppe 5 von allen anderen signifikant unterscheidet und sich die Modelle 2,3 und 4 jeweils immer nur von Modell 1 und 5 signifikant unterscheiden. D.h. es ergeben sich quasi drei „Gruppen“: Modell 1, Modelle 2+3+4 und Modell 5.

Kann ich aus diesem Ergebnis nun in irgendeiner Art folgern, welches der Modelle tatsächlich „das Beste ist?“ Wenn ich schlussfolgere, dass Modell 1 aufgrund des signifikanten Unterschiedes das beste Modell ist würde das ja zwangsläufig bedeuten, dass ich mich bei einem Modellvergleich immer für das Modell mit dem kleinsten Fehler entscheiden würde, sofern es sich signifikant von allen anderen unterscheidet. Mein Betreuer hingegen stellte die These auf, er würde im oben eingetretenen Fall Modell 1 und 5 als „Ausreißer“ werten und würde sich für eines der Modelle 2,3 oder 4 entscheiden, da diese ja gewissermaßen Gemeinsamkeiten haben und daher die Wahrscheinlichkeit, dass diese Modelle näher an der Realität sind und nicht over- oder underfitted sind höher einzuschätzen ist.

Was halten Sie von diesen Gedankengängen? Oder bin ich komplett auf dem Holzweg? Dazu muss ich sagen, dass ich noch recht neu in der Statistik-Welt bin und sich mein Detailwissen noch recht stark in Grenzen hält.
Über Literaturhinweise würde ich mich sehr freuen, denn am Ende muss ich ja auch eine entsprechende „offizielle“ Quelle benennen können.

Mein Problem bisher war, dass bei ANOVA oder Post-Hoc-Tests in der Literatur immer nur gesagt wurde „es lassen sich so Unterschiede zwischen den getesteten Gruppen finden“, aber nirgendwo stand konkret, ob und wie man diese gefundenen Unterschiede deuten kann/darf.

Um das vielleicht nochmal an einem anderen Beispiel zu verdeutlichen: Habe ich beispielsweise drei Gruppen von Probanden, die unterschiedlich viel Traubenzucker gegessen haben und sich anschließend Wärter merken sollen und stelle fest, dass mit steigender Zuckermenge auch die Anzahl der gemerkten Wörter steigt und mir ANOVA+Post-Hoc Tests signifikante Unterschiede zwischen den drei Gruppen anzeigt, darf ich dann z.B. folgern „Mehr Zucker führt zu mehr gemerkten Wörtern“? Falls ja könnte man ja auch analog bei den Vorhersagemodellen sagen „das Modell mit dem kleineren Fehler ist auch entsprechend das bessere Modell, da es laut Tests nicht nur zufällig einen kleineren Fehlerwert aufweist“

Bitte entschuldigen Sie die längliche Fragestellung, ich hoffe Sie können mir ein paar Tipps oder Hinweise geben, wie ich weiter vorgehen kann und wo ich mich am besten dazu informieren kann.

Mit freundlichen Grüßen,
Jürgen M.
- Daniela Keller am 13. April 2015 um 11:17
  
  Hallo, wenn „höhere Werte“ „besseres Modell“ bedeuten, und Modell 1 hat die höchsten Werte (laut Mittelwert) und unterscheidet sich signifikant von allen anderen, dann ist Modell 1 das beste Modell. Es kommt also darauf an, was inhaltlich für dich „bestes Modell“ bedeutet. Es gibt die Möglichkeit, über Trendanalysen oder Kontraste in der ANOVA so spezielle Fragestellungen wie „steigt der Wert mit steigendem Fehler“ oder „Ist Modell 1 besser als alle anderen“ zu testen. Vielleicht wäre das auch was für deine Fragestellung.
  - Jürgen M. am 13. April 2015 um 17:12
    
    Vielen Dank für Ihre Antwort. Das Thema Trendanalysen und Kontraste werde ich mir näher ansehen.
    
    Das in meinem Fall „beste Modell“ ist das Modell, dass auf Basis vorhandener Daten gelernt wurde (z.B. als lineare Regression, Entscheidungsbaum, neuronales Netz etc.) und mir für unbekannte Daten die besten Ergebnisse liefert, sprich den geringsten Vorhersagefehler bei neuen Vorhersagen aufweist. Um diese Vorhersagegüte für unbekannte Werte zu bestimmen wende ich eine Kreuzvalidierung an und ermittle so Fehlerwerte wie beispielsweise den root mean squared error oder den relativen Fehler als Performanzkennzahlen zu ermitteln.
    
    Entsprechend wäre dann, wenn ich Sie richtig verstehe, das Modell mit dem kleinsten Fehlerwert „das Beste“, vorausgesetzt ein Post-hoc test liefert ein signifikantes Ergebnis für dieses Modell gegenüber allen anderen Modellen.
    
    Dürfte ich Sie vielleicht noch um eine Literaturempfehlung bitten, in der insbesondere Post-hoc Tests und deren konkrete Ergebnisinterpretation gut erläutert werden? In meinen bisherigen Quellen waren leider entweder keine wirklich guten Beispiele enthalten oder die Literatur beschränkte sich nur auf die Durchführung des Tests als Solches und ging nicht wirklich auf die Frage ein, was man denn aus eventuellen Ergebnissen eines Post-hoc Tests folgern kann/darf oder eben nicht.
    
    Vielen Dank nochmal für die Hilfe,
    mit freundlichen Grüßen,
    
    Jürgen M.
    - Daniela Keller am 14. April 2015 um 21:00
      
      Hallo Jürgen, zur Interpretation von Post-Hoc Tests gibt es eigentlich nicht viel zu sagen. Wenn er richtig ausgewählt wurde (Voraussetzungen passen, nicht zu streng und nicht zu liberal), dann wird wie bei jedem anderen Test auch mit dem p-Wert entschieden, ob der Unterschied zwischen den beiden gerade verglichenen Gruppen signifikant ist oder nicht. Sehr übersichtlich und anwendungsorientiert zeigt Field (Discovering Statistics Using SPSS, 2013) die Post-Hoc Tests.
christina am 14. April 2015 um 08:07

Sehr geehrte Frau Keller,

vielen Dank für die schnelle und hilfreiche Antwort. Field (2013) gibt an, dass beim Kruskal-Wallis Test das angepasste Signifikanzniveau interpretiert werden soll, reicht das als Quelle aus?
Wenn ich bei einer ANOVA als Post-HOC verfahren Bonferroni wähle, macht dieses doch auch automatisch die Bonferroni Korrektur oder? Wenn ja wo würde man die Quelle dafür finden?

Ich habe noch eine Frage zu Effektstärken. Es gibt ja Formeln, um Effektstärken für Post-Hoc Vergleiche bei dem Kruskal-Wallis auszurechnen wie beispielsweise z durch die Wurzel von N (auch laut Field 2013).
Wie berechnet man Effektstärken beispielsweise für eine ANOVA? Reicht eta? Wie würde man aus eta die Power errechnen?
Ich habe jetzt eine Formel von Cohens d (Mittelwert 1 – Mittelwert 2 durch die gemeinsamen Standardfehler) gefunden. Hierzu habe ich ein Programm entdeckt
(http://www.psychometrica.de/effektstaerke.html) in welchem man den niedrigsten und höchsten Mittelwert, die Gruppenanzahl und den errechneten gemeinsamen Standardfehler eingeben muss. Ich bekomme beispielsweise mit Hilfe des Programms d=3.81 heraus, wenn ich das in G-power in die Post-HOC poweranalyse eingebe kommt eine Power von 1-ß=.05 heraus. Kann das überhaupt sein ein so großer Effekt und eine so geringe Power? Habe ich irgendwo einen Rechenfehler?

VIelen Dank im Vorraus für jeden Tipp 🙂
- Daniela Keller am 14. April 2015 um 21:09
  
  Ja, Bonferroni in SPSS bei der ANOVA macht die Bonferroni-Korrektur. Eine Quelle dazu habe ich nicht parat. Vielleicht in der SPSS-Hilfe?
  Eta-Quadrat ist die passende Effektstärke für die ANOVA. Die kann man sich in SPSS mit ausgeben lassen. Wird dort „partielles Eta-Quadrat“ genannt, ist im einfaktoriellen Modell aber genau Eta-Quadrat.
  Die Berechnungen für d und Power hören sich plausibel an. Wieso machst du hier überhaupt die Post-Hoc Poweranalyse? War das Ergebnis signifikant?
  - christina am 18. April 2015 um 13:12
    
    Hallo Frau Keller,
    vielen Dank für Ihre Antwort.
    ja, das Ergebnis war signifikant. Muss man die Power nur bei Ergebnissen berechnen die nicht signifikant wurden?
    
    Wegen der Poweranalysen: Eine Posthoc Poweranalyse zeigt doch wieviel Power ich unter den gegebenen Umständen erreichen kann (N, alpha etc.) wie heisst die Poweranalyse, die man macht, wenn man das benötigte N herausfinden will, damit eine Power von .80 abgebildet werden kann?
    
    Effektstärken: wissen Sie, wie man Effektstärken nach einer ANOVA für Bonferroni Paarvergleiche berechnen kann ausser mit d? Die Effektstärken kommen mir komisch vor.
    VIelen Dank für jeden TIpp 🙂
    - Daniela Keller am 23. April 2015 um 11:16
      
      Hallo Christina,
      die Power will man oft wissen, wenn das Ergebnis nicht signifikant war. Denn dann kann man argumentieren, dass die Power zu klein war, um den Zusammenhang/Unterschied als signifikant nachzuweisen.
      Die „Poweranlayse“ vorab, heißt Fallzahlberechnung. 🙂
      Bei den Paarvergleichen passt schon Cohens d als Effektstärke. Was kommt dir denn komisch vor? Die Ergebnisse (p-Werte) sind hier ja angepasst, da ist es also schwieriger, etwas signifikantes nachzuweisen, auch bei größerer Effektstärke. Beantwortete das die Frage?
      Gruß
      Daniela
      - christina am 19. Mai 2015 um 15:36
        
        Hallo Daniela,
        
        vielen Dank für deine Antwort. Ich habe noch eine kurze Frage. Wenn sich keine signifikanten Unterschiede zeigen, aber mittlere Effektgrößen resultieren, heisst das dann, dass eigentlich Unterschiede bestehen und nur die Power nicht ausreichend war, um sie aufzudecken?
        
        Vielen Dank für deine Hilfe
        LG Christina
      - Daniela Keller am 19. Mai 2015 um 22:20
        
        Hallo Christina,
        ja, so ist es.
        Schöne Grüße
        Daniela
Melanie am 14. April 2015 um 16:45

Liebe Frau Keller,

ich habe eine Frage zur Auswertung meiner Daten. Ich habe 4 Gruppen mit unterschiedlichen Behandlungen. Jede Gruppe unterziehe ich einer Messung vor Beginn der Behandlung und einer Messung nach Ende der Behandlung.
Wenn ich prüfen möchte, ob sich die Werte zum ersten Messzeitpunkt in den Gruppen unterscheiden, nutze ich die einfaktorielle Varianzanalyse.
Wenn ich untersuchen möchte, ob sich beispielsweise die Werte in Gruppe 1 im ersten und zweiten Messzeitpunkt signifikant unterscheiden, rechne ich den T-Test für abhängige/verbundene Stichproben.

Nun aber meine Frage:
Ich möchte wissen, ob sich die Differenzen zwischen erstem und zweitem Messzeitpunkt unterscheiden zwischen Gruppe 1 und 2, Gruppe 1 und 3, Gruppe 1 und 4, Gruppe 2 und 3, Gruppe 2 und 4 und Gruppe 3 und 4.
Wie kann ich das berechnen?

Ich dachte eigentlich mit der zweifaktoriellen Varianzanalyse mit Messwiederholung (inkl. Post-hoc-Tests), wobei die Gruppenzugehörigkeit als Zwischensubjektfaktor eingeht.

Wenn ich die rechne, kommt allerdings raus, dass der Zwischensubjektfaktor Gruppe nicht signifikant ist. Rechne ich aber einzelne T-Tests für verbundene Stichproben, zeigt mir das Ergebnis, dass sowohl in Gruppe 1 als auch in Gruppe 2 die Differenz zwischen den Messzeitpunkten 1 und 2 nicht signifikant ist. Bei Gruppe 3 und 4 sind die Ergebnisse aber signifikant. Also müsste doch auch die 2-faktorielle Anova zeigen, dass der Faktor Gruppe einen Einfluss hat, oder nicht?

Gucke ich nämlich die Post-hoc-Tests an, fällt mir auch auf, dass die paarweisen Vergleiche der Gruppen untereinander nie signifikant sind. Aber wie gesagt, wenn ich die T-Tests für verbundene Stichproben einzeln rechne, sind Gruppe 3 und 4 signifikant.

Oder sagen mir diese paarweisen Vergleiche genau das, was ich eigentlich wissen möchte, nämlich ob die Behandlung in Gruppe 1 beispielsweise besser wirkt als die in Gruppe 2 (Sprich: ob die Differenz in den Messzeitpunkten bei Gruppe 1 größer ist als bei Gruppe 2))? Und das Ergebnis, dass es keine signifikanten Unterschiede im paarweisen Vergleich gibt, bedeutet eben, dass sich die einzelnen Behandlungen nicht in ihrer Wirksamkeit unterscheiden?

Ich bedanke mich schon einmal für Ihre Antwort und bitte um Verständnis für den „wall of text“.

Viele Grüße
Melanie
Daniela Keller am 14. April 2015 um 21:24

Weiterführende Fragen könnt ihr gern mit mir und den anderen Teilnehmern in der Facebook-Gruppe Statistikfragen diskutieren. Hier der Link: https://www.facebook.com/groups/785900308158525/
Ben am 29. Mai 2015 um 10:23

Liebe Frau Keller,

für ein Projekt möchte ich 3 Probandengruppen vergleichen, die sich signifikant in Alter und Geschlechtsverteilung unterscheiden. Ich habe eine lineare Regression mit den unabhängigen Variablen Alter, Geschlecht und der Gruppenvariablen und meinen jeweiligen abhängigen Variablen gerechnet.

Verstehe ich es richtig, dass ich bei einem nicht signifikanten Ergebnisse über alle 3 Gruppen in der Regression keine weitere Post-Hoc-Testung und damit auch keine Bonferroni-Korrektur anschließen muss?
Wie müsste ich weiter vorgehen, wenn die Regression ein signifikantes Ergebnis über alle 3 Gruppen ergibt, um dann Post-Hoc zu testen?!

Vielen Dank schon einmal für ihre Hilfe!

Mit freundlichen Grüßen

Ben
- Daniela Keller am 5. Juni 2015 um 23:31
  
  Hallo Ben,
  grundsätzlich ja, bei nicht signifikantem Ergebnis werden keine Post-Hoc Tests gerechnet.
  Wenn du eine Regression rechnest mit der Gruppenvariablen als Faktor, dann musst du diese Gruppenvariable als dummy-kodierte Variable eingeben. Dann bekommst du im Ergebnis schon einen Vergleich von zwei Kategorien (zwei Gruppen) jeweils zu deiner Referenzkategorie (eine der drei Gruppen, von dir als Referenz festgelegt). Insofern sind da eigentlich keine Post-Hoc Tests mehr notwendig.
  Eine andere Möglichkeit bei deinen Daten wäre es, eine ANCOVA zu rechnen (Varianzanalyse mit Kovariate). Kovariate deshalb, weil du die Variable Alter als Kontrollvariable mit einfügen willst.
  Schöne Grüße
  Daniela
Florian am 31. Mai 2015 um 13:35

Liebe Daniela,

sehr gute Erklärungen hier auf eurer Seite.

Ich habe folgende Frage:

Ich will überprüfen ob sich Leistungsveränderungen zwischen zwei Gruppen im Pre-Test-Posttest vergleich signifikant unterscheiden.

Aufgrund einer kleinen stihcprobengröße und fehlender normalverteilung kommt nur eine nichtparametrische Analyse in Frage.

Wenn ich auswertung mit mit SPSS (21) über die option >> unabhängige stichproben >> nichtparametrische Tests auswerte und unter Felder die vorher gebildeten differenzen der drei variablen auswähle und sie mittels U-test oder mediantest auswerte, sind die jeweiligen p-werte dann schon korrigiert?

oder muss ich dies noch manuell z.b. nach BFH machen ?

vielen dank im vorraus.

florian
- Florian am 31. Mai 2015 um 13:42
  
  ergänzend sollte ich folgendes erwähnen, vielleicht:
  
  ich erhalte im übersichtsfenster für 2 von drei variablen signifikante unterschiede im mediantest, für einen nicht.
  
  in der spss modellanzeige wird mir dann automatisch angezeigt: „mehrfachvergleiche wurden nicht durchgeführt da weniger als drei testfelder vorhanden sind“.
  
  bzw. für den nichtsignifikanten test wird angezeigt:
  „mehrfachvergleihe wurden nicht durchgeführt weil der gesamttest keine sig. Unterschiede zwischen den Stichproben ausweist“.
  
  wie ist das zu interpretieren ?
  - Daniela Keller am 5. Juni 2015 um 23:38
    
    Jede Variable wird hier für sich betrachtet. Post-Hoc Tests (hier genannt Mehrfachvergleiche) würden auch auf jeder Variablen einzeln gerechnet werden. Hier werden aber keine gerechnet, da du nur 2 Gruppen vergleichst. Post-Hoc Tests sind Paarvergleiche und können nur angeschlossen werden, wenn vorher mehr als 2 Gruppen verglichen wurden. Außerdem werden sie nur gerechnet, wenn das Gesamtergebnis vorher signifikant war (das ist die Meldung beim nicht signifikanten Test bei dir).
    Schöne Grüße
    Daniela
- Daniela Keller am 5. Juni 2015 um 23:35
  
  Hallo Florian,
  SPSS korrigiert die Fehlerniveaus nicht von selbst, wenn du mehrere Variablen gleichzeitig analysierst. Die Korrektur ist auch nur notwendig, wenn du mit diesen drei Tests die gleiche Nullhypothese überprüfst. Hast du jeweils eine eigene Nullhypothese, brauchst du gar nicht zu korrigieren.
  Schöne Grüße
  Daniela
Jasmin am 2. Juni 2015 um 14:57

Hallo Daniela,

ich brauche dringend deine Hilfe für einen Post-Hoc-Test nach einem signifikanten Kruskal-Wallis-Test.
Obwohl ich das Feld „Mehrfachvergleiche: alle paarweise“ auswähle, erscheinen diese im Ausgabefenster nicht. Woran kann das liegen? Gibt es alternative Post-Hoc-Tests hierfür?
Ich verwende SPSS Version 22.

Über eine Rückmeldung würde ich mich sehr freuen.

Vielen Dank!
Jasmin
- Daniela Keller am 5. Juni 2015 um 23:40
  
  Im ersten Ausgabefenster müsstes du erstmal eine kleine bunte Tabelle sehen. Wenn du auf die Doppeklickst, öffnet sich ein neues größeres Fenster mit ein paar mehr Ergebnissen. Dort kannst du unten in der Fußleiste „Mehrfachvergleiche“ auswählen und müsstest sie dann sehen. Hast du das schonmal probiert?
  - Lena am 5. August 2015 um 14:57
    
    Bei mir kommt dann die Anzeige: „Probleme bei Ansicht Paarweise Vergleiche aufgetreten. Daher wird sie nicht angezeigt.“
    Wo liegt da der Fehler?
    - Daniela Keller am 5. August 2015 um 21:17
      
      Hm, weiß ich auch nicht. Vielleicht kannst du das mal in der Facebook-Gruppe posten (https://www.facebook.com/groups/785900308158525/) Vielleicht weiß da jemand Rat.
      - Natascha am 10. Februar 2016 um 17:31
        
        Ich habe dasselbe Problem wie Lena. Gibt es da schon eine Lösung oder weiß man mittlerweile, woran es liegen könnte?
        Liebe Grüße,
        Natascha
      - Natascha am 13. Februar 2016 um 10:15
        
        Hab eine Lösung gefunden! Recherchen auf Englisch bringen einen da doch manchmacl weiter.
        Es ist ein programmseitiger Fehler, IBM selbst hat 2 Lösungsvorschläge die hier beschrieben werden:
        http://www-01.ibm.com/support/docview.wss?uid=swg1PI40127
        1) „locale“ auf Englisch umstellen –> In Syntax SET LOCALE= english. –> Analyse nochmal machen.
        2) das Ausgabe-Format ändern unter „Bearbeiten – Optionen – Ausgabe“ –>
        „Anzeigen von Ausgabe = Anzeigemethode von Modellviewer zu Pivot Tabellen und Diagramme ändern (hier ist es dann grafisch nicht mehr so hübsch aber ebenso interpretierbar).
        
        Lieben Gruß
        Natascha
      - Daniela Keller am 27. Februar 2016 um 15:02
        
        Super, danke!
        Schöne Grüße
        Daniela
      - Christine am 14. Februar 2016 um 01:15
        
        Guten Morgen Frau Keller,
        ich habe das gleiche Problem seit gestern, wie oben beschrieben. Wenn ich im Modelviewer die Verfachvergleiche anschauen will, klappt es nicht. Es kommt:
        „Probleme bei Ansicht Paarweise Vergleiche aufgetreten. Daher wird sie nicht angezeigt“
        Vielleicht hat schon jemand eine Idee seit August? Wäre toll!
      - Tina am 19. Februar 2016 um 12:17
        
        Bei mir kommt diese Fehlermeldung auch. Gibt es dazu mittlerweile eine Lösung?
        
        LG
      - Daniela Keller am 27. Februar 2016 um 14:51
        
        Ich glaube, in der FB-Gruppe wurde das mal diskutiert, ich finde es aber grade nicht:
        https://www.facebook.com/groups/785900308158525/
        Schöne Grüße
        Daniela
Steffi am 16. Juni 2015 um 11:51

Hallo Daniela,

ich finde deine Erklärungen richtig gut und würde mich freuen, wenn du mir auch weiterhelfen könntest.
Ich habe eine Gesamtstichprobe von 120 Personen. In dieser Stichprobe untersuche ich diverse physiologische Variablen (abhängige Variablen) nach Geschlechtsunterschieden.
Diese Stichprobe unterteile ich anschließend anhand des Alters und schaue nun, ob sich hier Geschlechtsunterschiede finden lassen.
Und in einer dritten Untersuchung schaue ich, ob sich in dieser jungen Stichprobe auch Mentstruationsunterschiede gibt und falls ja, würde ich post-hoc Tests machen.
Die große Frage ist nun, muss ich für die jeweilige Stichprobenunterteilungen auch den p- Wert korrigieren? Und sollte sich in der 3. Fragestellung (Menstruationsunterschiede) eine Signifikanz ergeben, müsste ich dann für 3 post-hoc Tests den p-Wert nochmals korrigieren?

Ich wäre total dankbar für einen Tipp, so richtig Bescheid wissen wir hier nämlich nicht 🙁
Vielen Dank und Grüße,
Steffi
- Daniela Keller am 17. Juni 2015 um 14:01
  
  Hallo Steffi,
  
  ob du das Signifikanzniveau korrigieren musst hängt davon ab, ob es sich um mehrere Tests für die gleiche Hypothese handelt oder nicht. Wenn ja, dann korrigieren, wenn nein, dann hast du für jeden Test eine eigene Hypothese und brauchst nicht zu korrigieren.
  
  Schöne Grüße
  Daniela
Charlotte Zimmer am 21. Juni 2015 um 14:33

Hallo Daniela,

zunächst vielen Dank für die guten Erklärungen. Das hat mir bei der Auswertung meiner Masterarbeit echt geholfen.

Ich habe jedoch noch eine Frage bezüglich der Benferroni-Holm-Anpassung. Wie gehe ich mit der Rangreihung vor, wenn ich mehrmals den selben p Wert von .00 habe? Vergebe ich dann bsp. 4 mal den ersten Rang oder jedem der p= .00 einen Rang von 1-4?

Ich wäre sehr dankbar für eine Aufklärung.

Vielen Dank und mit freundlichen Grüssen,
Charlotte Zimmer.
- Daniela Keller am 23. Juni 2015 um 19:46
  
  Hallo Charlotte,
  mit welcher Software hast du ausgewertet? Kommst du an die kompletten p-Werte mit mehr Dezimalstellen ran?
  Schöne Grüße
  Daniela
Veronica am 25. Juni 2015 um 16:42

Liebe Frau Keller,
ich würde Ihnen sehr dankbar, wenn Sie mir folgende Frage beantworten könnten:
In einer Kohorte (n=75) habe ich 1 Variable (die Konzentration eines bestimmten Proteines im Plasma) mit 9 anderen Variablen (BMI, Glucose, insulin etc) korreliert. Ist multiples Testen hier notwendig?
Für eine Antwort würde ich Ihnen sehr dankbar!

Mit besten Grüßen
Veronica
- Daniela Keller am 6. Juli 2015 um 20:30
  
  Liebe Veronica,
  
  die unterschiedlichen Tests überprüfen ja unterschiedliche Hypothesen (Gibt es einen Zusammenhant zu BMI? Gibt es einen Zusammenhang zu Glucose? …). Deshalb ist keine Anpassung des Fehlerniveaus notwendig.
  
  Schöne Grüße
  Daniela
  - Veronica am 10. Juli 2015 um 11:14
    
    Liebe Daniela,
    
    vielen Dank für die Antwort.
    
    Liebe Grüße
    Veronica
Julia am 2. Juli 2015 um 17:04

Hallo 🙂
ich habe ein Frage zum Thema Post hoc Vergleiche:
Wenn ich einen Post hoc test durchführe muss ich dann meinen Alpha Fehler selbständig adjustieren oder wird der p-Wert automatisch durch die Tests adjustiert. Wenn ja, ist dies bei allen Post-hoc Tests so?

Schon mal vielen Dank,
ich bin dazu leider nirgendwo fündig geworden.
Liebe Grüße,
Julia
- Daniela Keller am 6. Juli 2015 um 20:59
  
  Hallo Julia,
  bei den in SPSS implementierten Post-Hoc Tests sind die Korrekturen schon vorgenommen. Allerdings sind das (je nach Art des Tests) unterschiedliche Korrekturen, die unterschiedlich liberal bzw. streng sind. Ein paar Tipss zur Auswahl habe ich in diesem Blogbeitrag gegeben: https://statistik-und-beratung.de/2015/01/welcher-post-hoc-test-ist-der-richtige/
  Schöne Grüße
  Daniela
Mari am 16. Juli 2015 um 18:24

Liebe Daniela,

auch ich habe eine Frage und wäre sehr, sehr dankbar für eine Antwort.
Gegeben ist 1 AV und 15 UVs. Zunächst möchte ich bivariate Zusammenhänge (also UV1 mit AV, UV2 mit AV; … UV15 mit AV) mit Signifikanztest berechnen. Ist hier eine alpha-Fehler-Korrektur notwendig?

Im Anschluss möchte ich eine multiple Regression rechnen – mit 15 Prädiktoren und 1 AV. Spielt hier die alpha-Fehler-Inflation auch eine Rolle? Da stehe ich grad völlig auf dem Schlauch.

Zusätzlich sind die Daten noch in 3 Gruppen genestet. Wenn ich Vergleiche zwischen den Gruppen anstelle (ANOVA) und PostHoc-Tests berechne, wäre hier dann eine alpha-Fehler-Korrektur notwendig? Also z.B. unterscheiden sich die drei Gruppen hinsichtlich AV, UV1, UV2 usw.

Ich würde mich sehr über eine Antwort freuen. Deine Seite finde ich toll. Da stößt man immer wieder drauf.

Herzliche Grüße
Mari
- Daniela Keller am 19. Juli 2015 um 19:34
  
  Hallo Mari,
  bei den mehrfachen bivariaten Zusammenhängen und auch bei der multiplen Regression sind keine Anpassungen notwendig. Hier gibt es für jeden Test eine eigene Hypothese (Fragestellung: „Hängt UV1 mit AV zusammen?“ „Hängt UM2 mit AV zusammen?“usw.). Deshalb muss das Fehlerniveau nicht korrigiert werden.
  
  Bei der ANOVA ist es anders. Da ist die Fragestellung „Unterscheiden sich die drei Gruppen in AV?“. Hier rechnest du eine ANOVA und mehrer Post-Hoc Tests für diese eine Fragestellung (und deshalb für eine Hypothese). Deshalb muss hier angepasst werden.
  
  Schöne Grüße
  Daniela
  - Mari am 20. Juli 2015 um 11:54
    
    Vielen Dank!
N.willner am 18. Juli 2015 um 19:04

Hallo,

Ich finde Deine Seite Klasse! Hinsichtlich der „posthoc“ Analyse habe ich auch eine Frage:
In meinem Versuchsaufbau gibt es 4 Proben a) Kontrolle b) zellkultur hergestellt in speziellen Verfahren ohne Medikament c) zellkultur hergestellt in speziellen Verfahren mit Medikament d) zellkultur hergestellt in speziellen Verfahren mit inhibierenden Medikament
Ich habe zunächst einen einfaktoriellen Anova durchgeführt, um zu schauen ob überhaupt eine Signifikanz vorhanden ist. Dann wollte ich wissen wo die Signifikanz ist und habe manuell mittels T-Test (zweistichproben Test unter Annahme gleicher Varianzen) jeweils die Gruppen unter einander verglichen. Dabei habe ich gemäß der Bonferroni-Anpassung ein Signifikanzniveau von 5%/4 angenommen.
– Hat diese Art der Auswertung eine ausreichende „statistische Power“ bzw. Aussagekraft oder bin ich zu streng vorgegangen??

Gruss
- Daniela Keller am 19. Juli 2015 um 19:45
  
  Hallo,
  grundsätzlich ist die Bonferroni-Korrektur zu streng. Wenn du per Hand vorgehen willst, ist Bonferroni-Holm eine gute Alternative.
  Welche Software verwendest du? Oft sind schon Post-Hoc Tests mit der Fehleranpassung implementiert und du kannst dir dort eine aussuchen, die nicht zu streng und nicht zu liberal ist.
  Wenn du 4 Gruppen hast, müsstest du doch mehr als 4 Paarvergleiche haben? Wieso teilst du durch 4? Du musst durch die Anzahl der Tests teilen.
  Schöne Grüße
  Daniela
  - N.willner am 20. Juli 2015 um 19:26
    
    Wow, vielen Dank für die
    schnelle Antwort !!
    
    Ich benutze Excel zur Auswertung der Daten. Insgesamt sind 6 Paarvergleiche möglich
    ( Gruppe A und B,
    A und C
    A und D
    B und C
    B und D
    C und D
    Ich habe bei meiner Bonferroni- Auswertung durch 4 dividiert, da ich lediglich 4 der möglichen 6 Paarvergleiche mit einem t Test durchgeführt habe.
    
    Muss man unabhängig, wieviele Tests man durchführt, IMMER sich daran orientieren wieviele Paarungen bzw. Test möglich ( meinem Fall also durch 6 dividieren)?
    
    Werde, wie empfohlen wird, nun separat Bonferroni-Holm durchführen. Ich hatte mich ursprünglich für den Bonferroni entschieden, da ich eine eher geringe Fallzahl habe und somit einen strengen Test gewählt. Bin noch am Anfang meiner Auswertung, daher kann es nun natürlich sein, dass am Ende keine oder wenig signifikantes dabei rauskommt.
    
    Ist diese Art der Auswertung (bei signifikantem ANOVA und anschließendem Zweistichproben T Test mit anhängigem Bonferroni/Holms) sonst statistisch „anerkannt“ bzw. solide hinsichtlich der Power und Aussagekraft.
    
    Nochmals ein dickes Lob und Danke!
    - Daniela Keller am 21. Juli 2015 um 13:19
      
      Hallo,
      gut, dann passt das teilen durch 4! ANOVA mit anschließenden t-Tests und Bonferroni-Holm als Korrektur ist ein sehr guter Weg. Nicht zu streng und nicht zu liberal.
      Schöne Grüße
      Daniela
      - n.willner am 21. Juli 2015 um 19:12
        
        Nochmals vielen Dank,
        
        für die prägnante und kompetente Antwort! Hoffe nun, dass etwas gescheites rauskommt 🙂
        
        Gruß
M-2 am 26. Juli 2015 um 19:21

Hallo,

ich hab eine Frage zur Bonferroni-Holm-Korrektur. Ich stoße nun auf das Problem, dass ich 2 p-Werte mit dem exakten Wert (0,005) habe. Wie gehe ich nun vor? Um das Beispiel konkreter zu machen: Ich habe 6 Vergleiche. Die mittels Mann-Whitney-U ermittelten p-Werte sind wie folgt:
<0,001
0,001
0,005
0,005
0,018
0,026
Haben nun die p-Werte 0,005 beide die Signifikanzniveau-Schranke von p=0,05/4 oder der eine p=0,05/4 und der andere p=0,05/3? Und wie verhält es sich dann im Folgenden mit den letzten beiden Werten 0,018 und 0,026?

Vielen herzlichen Dank für Ihre Antwort.
- Daniela Keller am 27. Juli 2015 um 16:18
  
  Hallo,
  der eine bekommt die Schranke geteilt durch 4, der andere geteilt durch 3. Danach geht es dann mit Teilen durch 2 weiter.
  Schöne Grüße
  Daniela
  - M-2 am 28. Juli 2015 um 08:37
    
    Hallo Daniela,
    
    herzlichen Dank für die schnelle Antwort!
    
    Einen schönen Tag!
Daniel am 5. August 2015 um 09:48

Hallo,

ich habe eine Frage zur den paarweisen Vergleichen, die ich mit SPSS nach signifikantem Kruskal-Wallis-Test durchführen kann.
Welchen Test und welche Fehlerkorrektur verwendet SPSS für diese Post-hoc-Tests? Bzw. wo bei SPSS/IBM kann ich grundsätzlich die verwendeten Algorithmen einsehen?

Vielen Dank vorab und schöne Grüße
Daniel
- Daniela Keller am 5. August 2015 um 20:58
  
  Hallo Daniel,
  nach den Algorithmen könntest du in den Hilfeseiten von IBM suchen (Knowledge Center: http://www-01.ibm.com/support/knowledgecenter/SSLVMB_22.0.0/com.ibm.spss.statistics_22.kc.doc/pv_welcome.html).
  Bei den nichtparametrischen Tests auf Lageunterschiede verwendet SPSS soweit ich weiß Bonferroni, wenn man „alle paarweise“ vergleichen lässt. Alternativ gibt es noch eine Stepwise Stepdown Prozedur, die weniger konservativ ist. Hier werden ähnliche Gruppen zusammengefasst, anstatt alle miteinander zu vergleichen.
  Schöne Grüße
  Daniela
Meike am 10. August 2015 um 10:57

Hallo Daniela,

auch ich habe eine Frage zur Bonferroni Korrektur.

Ich habe einen Kruskal Wallis Test durchgeführt und 4 Typen hinsichtlich eines Merkmals (Testscore) verglichen. Der Test war signifikant mit χ2 (3, N = 64) = 17.253, p = .001. und einer Effektgröße r= .27. Als Post-Hoc Test habe ich nun paarweise U-Test durchgeführt (insgesamt 6). Hier soll ich nun eine Bonferroni Korrektur anwenden. Ich hab lange recherchiert, wie ich das bei SPSS machen kann, nichts gefunden, nur bei der ANOVA habe ich diese Funktion entdeckt. Ich hab dann also ‚per Hand‘ das neue Alpha Niveau errechnet: 0.05/6 = 0.0083. Ursprünglich waren 3 von den 6 U-Tests signifikant mit p=.000; .001 und .031.
Bei den signifikanten Test wurde ein Typ F mit allen drei anderen Typen verglichen.

Nun meine Frage: Im Hinblick auf die Bonferroni Korrekur, bedeutet das nun, dass nur die ersten beiden p-Werte= .000 und .001 auf einen Alpha Niveau von 0.008 signifikant sind?

Wenn ja, reicht dann eine Kennzeichnung mit einem *, das besagt, dass die P-Werte Bonferroni-korrigiert sind? Oder stelle ich das da?

Inhaltlich, würde das bedeuten, dass Typ F am stärksten mit der Ausprägung des Merkmal (Testscore) zusammenhängt?

Ich hoffe, das ist einigermaßen verständlich erklärt und du kannst mit weiterhelfen.

Liebe Grüße Meike
- Daniela Keller am 10. August 2015 um 18:04
  
  Hallo Meike,
  
  ja, das Vorgehen ist so richtig und wie du das darstellst, bleibt dir überlassen. Hauptsache der Leser versteht, was du hier gemacht hast.
  Eine Anmerkung: Die Bonferroni-Korrektur ist sehr streng, liefert oft zu wenige signifikante p-Werte. Besser wäre z.B. Bonferroni-Holm,
  
  Schöne Grüße
  Daniela
Jana am 15. August 2015 um 13:51

Hallo Daniela,
ich hoffe die Frage wurde noch nicht gestellt (ich habe jedenfalls nichts gefunden)
Ich möchte eine zweifaktorielle Varianzanalyse durchführen. Allerdings ist die Varianzhomogenität nicht gegeben (p = .046). An sich müsste ich jetzt einen Welch test durchführen, oder (Und Bootstrapping reicht in diesem Fall nicht?)?
Allerdings kann ich nicht herausfinden wie man dies bei einer Faktoriellen Varianzanalyse macht (hab es nur für die einfaktorielle ANOVA gefunden)

Viele Grüße und Besten Dank,
Jana
- Daniela Keller am 14. September 2015 um 05:51
  
  Hallo Jana,
  soweit ich weiß, gibt es die Welch-Anpassung für das faktorielle Design in SPSS nicht.
  Schöne Grüße
  Daniela
Anne am 19. August 2015 um 16:34

Hey Daniela,

Ich sitze gerade an meiner Bachelorarbeit und habe das mit der Halbierung des p-Werts nicht ganz verstanden. Muss ich jetzt immer, wenn in der Ausgabedatei für den p-Wert „2-seitig“ ausgewiesen wird, den p-Wert halbieren?

Vielen Grüße, Anne
- Daniela Keller am 16. September 2015 um 20:51
  
  Hallo Anne,
  das kommt darauf an, was du vorhast: einseitig oder zweiseitig testen?
  Schöne Grüße
  Daniela
Julia Schumacher am 26. August 2015 um 18:50

Hallo Daniela,

ich vergleiche drei verschiedene Gruppen hinsichtlich vierer Merkmale. Dazu führe ich zunächst einen Kruskal-Wallis-Test durch und anschließend je 3 Mann-Whitney U-Tests.
Die Fragestellung bezüglich der Variablen ist folgende: Unterscheiden sich die Gruppen hinsichtlich Variable A? Variablen B bis D könnten eventuell Variable A beeinflussen, da sie (theoretisch) unterschiedliche Aspekte eines Merkmals messen. Diese Variablen werden dann auch jeweils paarweise zwischen den Gruppen verglichen.
Vor den Gruppenvergleichen habe ich zudem Korrelationen für allen möglichen Variablenkombinationen berechnet.
Nun meine Frage: Wenn ich gegen multiples Testen korrigiere, welche der Tests muss ich dann gemeinsam korrigieren? Alle, also alle Gruppenvergleiche und die Korrelationen? Oder nur die Korrelationen miteinander und alle Gruppenvergleiche miteinander? Oder müssen nur die Gruppenvergleiche (KS und MWU) miteinander korrigiert werden, die auch nur eine Variable untersuchen?
Ich hoffe, ich habe alles verständlich dargestellt. Was mich unsicher macht, sind die Korrelationen zwischen den Variablen, die ja anzeigen, dass alle Tests irgendwie zusammenhängen, oder?

Vielen Dank im Voraus und schöne Grüße!

Julia
- Daniela Keller am 14. September 2015 um 10:24
  
  Hallo Julia,
  du musst die Fehlerkorrektur immer jeweils für eine Hypothese machen. Das ist normalerweise ein Kruskal-Wallis Test mit den zugehörigen Mann-Whitney U Tests. Die Korrelationen und die Tests für die anderen Variablen sind dann extra. Die werden auch (bei Bedarf) extra korrigiert.
  Schöne Grüße
  Daniela
Esther am 7. September 2015 um 12:26

Sehr geehrte Frau Keller,
ich würde gern überprüfen, ob sich mehrere Gruppen (Frauen/Männer) auf Grund verschiedener Pausenarten (aktive/passive Pause) voneinander unterscheiden:
Hyp 1: sich erholter fühlen (10 Variablen im Fragebogen)
Hyp 2: besser im Speed-Test abschneiden (3 Variablen)
Hyp 3: weniger körperliche Beschwerden haben (7 Variablen im Fragebogen)
Die Hypothesen sind nur beispielhaft und als UNgerichtet formuliert zu sehen.

Das entspricht:
(1) Sind Frauen mit aktiver erholter/… als Frauen mit passiver P.?
(2) Sind Männer mit aktiver P. erholter/… als Männer mit passiver P.?
(3) Sind Frauen mit aktiver P. erholter/… als Männer mit aktiver P.?
(4) Sind Frauen mit passiver P. erholter/… als Männer mit passiver P.?

Design:
Geschlecht
Weibl. Männl.
Pausenart Aktiv 20 13
Passiv 16 12

Alle Pbn werden 2x getestet: vor und nach einer Pause (Messwiederholung).
Zunächst habe ich geschaut, ob sich Frauen mit aktiver und passiver P. bereits VOR der Pause voneinander unterscheiden, sonst wäre ein Unterschied (erholter, schneller, …) nicht ausschließlich auf die Pausenart zurückzuführen. Dazu habe ich einen unabhängigen t-Test berechnet, da ich nur eine Gruppe (Frauen) und 1 UV (mit 2 Stufen: aktive, passive Pause) habe. Das Gleiche habe ich für die Männer gemacht. Es gibt keine signifikanten Gruppenunterschiede.

Frage 1: Ist es korrekt, dass ich für
Hyp 1: eine 2-faktorielle (Geschlecht, Pausenart) multivariate (10 AVs) Varianzanalyse mit Messwiederholung
Hyp 2: eine 2-faktorielle (Geschlecht, Pausenart) multivariate (3 AVs) Varianzanalyse mit Messwiederholung
Hyp 3: eine 2-faktorielle (Geschlecht, Pausenart) multivariate (7 AVs) Varianzanalyse mit Messwiederholung
rechne? Alle Variablen sind normalverteilt und varianzhomogen.

Oft ist die Rede von Variablen und Vergleichen oder Gruppe und Vergleich oder Anzahl der Tests. Ich kann es leider nicht zuordnen. Also,
Frage 2: Sind das 4 Vergleiche und passe ich mein Alpha dementsprechend (4) an oder muss ich mich auf die Anzahl der abhängigen Variablen (10, 3, 7) beziehen?

Ich habe noch eine Hypothese mit nur einer UV (Geschlecht), die sich auf das Burnout-Risiko (12 Variablen) bezieht (unabhängiger t-Test). Auch hier die Frage: Entspricht dies EINEM Vergleich (Frauen, Männer), oder spielt die Anzahl der Variablen (12) bei der Alpha-Anpassung eine Rolle?

Vielen Dank im Voraus,
Esther
- Daniela Keller am 16. September 2015 um 20:18
  
  Hallo Esther,
  da es sich um eine Analyse (2faktorielle multivariate ANOVA mit Messwiederholung) für je eine Hypothese handelt, musst du das Fehlerniveau nicht anpassen.
  Schöne Grüße
  Daniela
Esther am 18. September 2015 um 17:15

Sehr geehrte Frau Keller,

vielen Dank für die Antwort!

Noch eine Frage:
Ich habe ja folgende Faktoren: Geschlecht, Pausenart, Messzeitpunkt.
Ich habe beispielsweise 2x die Leistung erfasst. Vor und nach einer Pause.
Spss gibt mir bei den multivariaten Tests folgende Effekte aus:
Messzeitpunkt
Messzeitpunkt * Geschlecht
Messzeitpunkt * Pausenart
Messzeitpunkt * Pausenart * Geschlecht

Bei den between-subjects gibt Spss Folgendes:
Geschlecht
Pausenart
Geschlecht * Pausenart

Nun wurde die Wechselwirkung/Interaktion (WW) von Messzeitpunkt * Pausenart signifikant.
Ich habe sie an Hand der univariaten Tests und der paarweisen Vergleiche interpretiert.
Mein Prof. meinte nun, dass es sich dabei jedoch nicht um eine WW handle und ich das umformulieren solle.
Ich weiß nicht, wieso das keine WW ist und wie ich es anders formulieren soll.

Vielen Dank im Voraus,
Esther
- Daniela Keller am 2. Oktober 2015 um 20:35
  
  Hallo Esther,
  ich würde das auch als Interaktionseffekt beschreiben. Stört er sich daran, dass das eine Messwiederholung ist? Dann wirklich vielleicht einfach den Begriff Interaktion oder Messwiederholung nicht verwenden sondern direkt interpretieren: „Die Messzeitpunkte unterscheiden sich unterschiedlich abhängig von der Pausenart“.
  Schöne Grüße
  Daniela
David am 16. Oktober 2015 um 10:55

Hallo Frau Keller,

ich bin gerade auf diese Seite gestoßen, die mich schon sehr weit gebracht hat, gerade die ganzen Kommentare und die Diskussion hier.
Dennoch habe ich eine Frage bezüglich der Analyse von Clustern. Ich habe mit Hilfe einer Clusteranalyse (erst hierarchische Ward-Methode dann K-Mean-Methode) eine 4 Clusterlösung gefunden, wobei auch ein eine 3, oder 2 Clusterlösung aufgrund der Sprünge zwischen Agglomerationskoeffizienten möglich sind. Die Variablen (extrahiert durch Faktoranalyse) sind bei einer Stichprobenanzahl von n=40 nicht normalverteilt. Daher wende ich den Kruskal-Wallis-Test an. Dieser ist signifikant.
Darauf folgend habe ich die Post-Hoc-Analyse mit Bonferroni-Holm-Prozedur vorgenommen. Ich habe 4 Cluster (Unternehmen) und 4 Variablen. Nun sind ganze 37,5% der paarweisen Untersuchungen (9 von 24) nicht signifikant. Dies habe ich auch für die 3- und 2-Clusterlösung durchgeführt. Nur die 2-Clusterlösung zeigt eine Signifikanz in ALLEN Tests.

Nun meine Frage: Darf/ Kann ich nur eine Clusterlösung extrahieren/ benutzen, die in ALLEN Tests eine Signifikanz aufweist, wenn ich weitere Untersuchung vornehmen möchte. Im speziellen möchte ich untersuchen, ob die Ausprägung der Variablen in den Clustern (Unternehmen) einen signifikanten Einfluss auf die Performance von Unternehmen hat. Dies würde ich wiederum mit einem t-Test testen wollen da EBIT und ROA normalverteilt sind.
Kann ich die Clusterlösungen immer benutzen auch wenn sie nicht vollständige Signifikanz bezüglich der Heterogenität zwischen den Clustern aufweist, unter der Bedingungen, dass meine Aussagen nicht verallgemeinernd angewandt werden können.

Danke für Ihre Hilfe.

VG,

David
- Daniela Keller am 26. November 2015 um 12:22
  
  Hallo David,
  du kannst auch Clusterlösungen verwenden, deren Cluster sich nicht signifikant unterscheiden. Es ist nicht immer möglich, eine perfekte Lösung zu finden. Für weitere spezielle Fragen – nicht den Blogbeitrag betreffend – kannst du meine Facebookgruppe Statistikfragen nutzen: https://www.facebook.com/groups/785900308158525/
  Schöne Grüße
  Daniela
Loredana am 26. November 2015 um 11:27

Hallo,

ich habe eine Frage bezüglich der Alpha Kummulierung. Ich möchte eine Varianzanalyse mit Messwierderholung untersuchen und untersuche die Veränderung von 4 theoretisch unabhängigen Variabeln über 2 Messzeitpunkte in Abhängigkeit vom Beruf. Ich rechne nun für jede Variabel einzeln die ANOVA und möchte im Pos Hoc Test Aussagen über die Berufe Treffen. In welcher Form muss ich den Alpha Fehler hier miteinbeziehen?
Und muss ich den Alpha Fehler auch bei der einfaktoriellen ANOVA beachten, wo ich die Unterschiede zwischen den Ausprägungen der Muster beim ersten Zeitpunkt unterusche?

Vielen Dank,

Loredana Behrends
- Daniela Keller am 7. Dezember 2015 um 13:58
  
  Hallo Loredana,
  wie genau lauten die Hypothesen? Das ist wichtig um zu wissen, in welcher Form korrigiert werden muss.
  Schöne Grüße
  Daniela
Franziska am 26. November 2015 um 13:02

Hallo Frau Keller,

ihre Website ist wirklich sehr interessant, dennoch bleiben für mich „begriffsstutzige“ Statistikrechnerin ein paar Fragen offen. Vielleicht können Sie mir helfen.

Mein Datenset besteht aus der wiederholten Erhebung derselben Leistung. Das heißt ich rechne vorher-nachher-Vergleiche, also McNemar gerichtet also einseitig. Nun steht die Frage im Raum, wenn ich z.B. die Leistungen in Prätest 1 mit Prätest 2, 3 und dann Posttest 1, 2, 3, 4 vergleiche, muss ich dann eine Alpha-Fehler-Kumulierung beachten?

Danke für Ihre Hilfe!

Freundliche Grüße
Franziska
- Daniela Keller am 7. Dezember 2015 um 13:59
  
  Hallo Franziska,
  das kommt darauf an, wie genau die Hypothese(n) lautet.
  Schöne Grüße
  Daniela
Sebastian am 4. Dezember 2015 um 09:50

Werte Frau Keller,
gibt es einen Beweis dafür, dass die Bonferroni-Holm Methode die Alphafehler-Kumulierung stets besser vornimmt als die klassische Bonferroni-Methode? Ich sehe im klassischen Verfahren keinen einzigen Vorteil. (Wenn man die einfachere Berechnung mal außen vor lässt).
Beste Grüße
Sebastian
- Daniela Keller am 7. Dezember 2015 um 21:04
  
  Hallo Sebastian,
  die Bonferroni-Methode ist erwiesenermaßen zu konservativ. Insofern ist Bonferroni-Holm also „besser“ im Sinne von „nicht zu konservativ“. Die Bonferroni-Methode ist „besser“, wenn man eine konservative Methode vorzieht. Die Literatur dazu: Holm, S. (1979). „A simple sequentially rejective multiple test procedure“. Scandinavian Journal of Statistics 6 (2): 65–70.
  Schöne Grüße
  Daniela
  - Sebastian am 15. Dezember 2015 um 10:58
    
    Liebe Daniela,
    vielen Dank für die Antwort. Das Paper liegt mir vor, sofern ich das richtig verstanden habe, hat Herr Holm in diesem Paper aber auch eindeutig bewiesen, dass seine Methode immer zumindest die gleichen, wenn nicht sogar noch mehr, signifikante Unterschiede beim multiplen Testen feststellt. Da das Ganze auch unter dem gleichen globalen Alpha wie bei Bonferroni stattfindet verliert man in dieser Hinsicht auch keine Güte. Sicher ist die normale Bonferroni-Korrektur mit weniger Fehlern behaftet (da stringenter), aber es kann mir doch egal sein, solange das Große-Ganze stimmt. (Ohne Erhöhung des Signifikanzniveaus mehr Signifikanzen).
Eva am 8. Dezember 2015 um 12:46

Hallo Daniela,

ich habe gerade deinen Blog entdeckt und bin begeistert. Ich hoffe, du kannst mir auch helfen! 🙂

Im Rahmen meiner Masterarbeit führe ich eine 2×2 MANOVA durch. Die Auswertung der Daten erfolgt mit SPSS. Dabei möchte ich insgesamt 8 Unterschiedshypothesen überprüfen, die wie folgt lauten:

H1: A1 führt bei B1 zu einem signifikant besseren Ergebnis von Y1 als bei B2.
H2: A1 führt bei B1 zu einem signifikant besseren Ergebnis von Y2 als bei B2.
H3: (Synonym für…Y3)
H4: (Synonym für…Y4)
H5: A1 führt bei B1 zu einem signifikant besseren Ergebnis von Y1 als A2.
H6: A1 führt bei B1 zu einem signifikant besseren Ergebnis von Y2 als A2.
H7: (Synonym für…Y3)
H8: (Synonym für…Y4)

Da ich jeweils nur zwei Faktorstufen (A1, A2 und B1, B2) vorliegen habe, kann ich ja keine weiteren Post-Hoc Tests mehr durchführen. Muss ich dennoch zur Interpretation der univaraiten ANOVAs eine Bonferroni-Korrektur vornehmen? Oder handelt es sich hierbei um unterschiedliche Nullhypothesen?

Vielen Dank im Voraus und viele Grüße,
Eva
- Daniela Keller am 10. Dezember 2015 um 14:01
  
  Hallo Eva,
  du brauchst hier keine Korrektur.
  Schöne Grüße
  Daniela
Michaela am 7. Januar 2016 um 11:11

Hallo,
die Seite gibt eine gute Übersicht! Ich hänge aber gerade an der Frage welcher Posthoc-Test sich nach einer Quiquadrattestung (bei dichotomen Daten und mehr wie 3 Gruppen) eignet? Ist ein exakter Test nach Fisher möglich bei mehr wie 2 Gruppen oder welchen paarweisen Vergleich gibt es noch, festzustellen wo die signifikanten Unterschiede zwischen den Gruppen liegen?

Viele Grüße,
Michaela
- Daniela Keller am 21. Januar 2016 um 16:36
  
  Ja, man kann den Exakten Test nach Fisher dafür anwenden. Das Signifikanzniveau musst dann aber auch noch angepasst werden.
  
  Schöne Grüße
  Daniela
Sara am 18. Januar 2016 um 17:07

Lieber Frau Keller,

vielen Dank dafür, dass Sie all dieser Fragen so toll beantwortet haben. Ich finde Ihre Webseite wirklich beindruckend.

Zu diesem Thema wollte ich nach Ihrer Meinung fragn.

Ich habe 2 Gruppen: Fall- und Kontrollgruppe (Medikament und Placebo).
Jede Gruppe ist geteilt in 3 Subgruppen. Die Probanden in jeder Gruppe bekommen verschiedenen Fittnessprogramme.
Die Zuordnungen sind zufällig und in jeder der sechs Gruppen gibt es ungefähr 13 Probanden.
Einmal am Anfang der Studie und einmal am Ende der Studie wird von jedem Proband 5 Parametern gemessen.
Ich möchte den Effekt vom Medikament, Fitnesspogramm und Zeit an den Werte untersuchen.
Ist es eine multivariate Repeated-Measure-Varianzanalyse mit 2 festen Faktoren (Medikament/Fittness)? Habe ich das richtig vermutet oder passt ein anderes Modell hier?
- Daniela Keller am 20. Januar 2016 um 19:44
  
  Hallo Sara,
  ja, deine Auswahl ist richtig. Allerdings ist das eine recht komplexe Methode bei der kleinen Fallzahl. Da musst Du gut drauf achten, dass die Voraussetzungen erfüllt sind.
  
  Weitere Fragen gern in der Facebookgruppe Statistikfragen posten: https://www.facebook.com/groups/785900308158525/
  
  Schöne Grüße
  Daniela
  - Sara am 22. Januar 2016 um 14:48
    
    Danke Dir 🙂
Daniela V. am 22. März 2016 um 11:53

Hallo Frau Keller. Vielen Dank für Ihre informative Seite. Ich habe eine Frage zum Games-Howell Post-Hoc-Test. Muss ich die Ergebnisse dieses noch nach Bonferroni korrigieren oder ist dort bereits eine Korrektur enthalten? Ich habe zum Vergleich auch einen Bonferroni-Post-Hoc gerechnet, bei diesem aber mehr signifikante Ergebnisse herausbekommen als beim Games-Howell, was mich stutzig gemacht hat. Über eine Rückmeldung von Ihnen würde ich mich sehr freuen.
- Daniela Keller am 22. März 2016 um 21:18
  
  Hallo Daniela,
  bei Games-Howell ist bereits korrigiert. Die Tests sind unterschiedlich streng und haben andere Voraussetzungen (Bonferroni z.B. geht von gleichen Varianzen aus, Games-Howell nicht), deshalb kann es schon sein, dass sie sich widersprechen.
  Schöne Grüße
  Daniela
Jelena Vollstedt am 29. Juli 2016 um 09:47

Liebe Frau Keller,

erst einmal ein großes Kompliment für Ihre sehr hilfreiche Homepage! 🙂

Ich würde mich sehr über eine Rückmeldung zu folgender Fragestellung freuen: ich möchte die Wirksamkeit eines Trainings überprüfen und habe dazu (leider) sehr viele AVs (14) erhoben. Aufgrund mehrerer Empfehlungen habe ich mich für das Rechnen von zahlreichen zweifaktoriellen ANOVAs mit Messwiederholung und anschließenden t-Tests entschieden. Dabei helfen mir die in SPSS im Rahmen der ANOVAs möglichen Post hoc Tests nicht, sondern ich muss einzelne t-Tests rechnen. Nun recherchiere ich gefühlt seit Wochen, wie ich das Problem der Alpha-Fehler-Kumulierung angehe. Manche Quellen sagen, dass man dieses für alle Signifikanztests (=ANOVAS und t-Test), die an der Stichprobe durchgeführt werden, berücksichtigen muss. Andere sagen das trifft nur auf mehrere t-Tests, die zur Testung einer Hypothese bzw. bezogen auf nur eine Skala (AV) durchgeführt werden, zu. Ich bin leider sehr ratlos diesbezüglich. Dazu kommt, dass ich in einer Hypothese 12 AVs teste („nach dem Training weisen die Teilnehmer eine signifikant höhere Selbstkontrolle, Beharrlichkeit, Selbstmotivierung usw. auf“)

1) Wissen Sie, wie ich das Problem der Alpha-Fehler-Kumulierung am Besten angehe?
2) Meine Hypothesen sind gerichtet. Bezüglich den ANOVAs würde ich das nicht berücksichtigen, schaue mir auch nur die Interaktionen an. Bei den t-Tests muss ich den p-Wert halbieren und mit meiner (evt. korrigierten) Irrtumswahrscheinlichkeit vergleichen. Ist das Ihrer Meinung das richtige Vorgehen? Wie kann ich das einseitige Testen im Hinblick auf die Alpha-Fehler-Kumulierung berücksichtigen?

Ich würde mich über eine Rückmeldung sehr freuen! Vielen herzlichen Dank im Voraus!

Liebe Grüße
Jelena
- Daniela Keller am 18. Oktober 2016 um 20:12
  
  Hallo Jelena,
  1. die Korrektur des Signifikanzniveaus wird auf Ebene der Hypothesen gemacht. Du schaust also alle Tests an, die Du für EINE BESTIMMTE Hypothese gerechnet hast und korrigierst die p-Werte dann entsprechend nach der Anzahl der Tests.
  2. Einseitige t-Tests würde ich nicht verwenden. Aus meiner Sicht empfiehlt es sich nur in ganz seltenen Fällen, gerichtet zu testen. Die Forschungshypothese kann gern gerichtet sein. Der Test (und damit die statistische Nullhypothese) sollte aber (fast) immer zweiseitig sein.
  Schöne Grüße
  Daniela

Trackbacks/Pingbacks

Die einfaktorielle Varianzanalyse in SPSS: Output, Darstellung, Interpretation | Statistik und Beratung – Daniela Keller - […] Um herauszufinden, wo genau dieser Unterschied liegt, sollten Paarvergleiche durchgeführt werden (Post-Hoc-Tests). Hier muss darauf geachtet werden, dass das…
Welcher Post-Hoc-Test ist der Richtige? | Statistik und Beratung – Daniela Keller - […] einfach mit den “normalen” Tests die Paarvergleiche gerechnet werden dürfen, lesen Sie in diesem Artikel nach. Kurz hier zusammengefasst:…

Post-Hoc Tests und Fehlerkorrektur

107 Kommentare

Trackbacks/Pingbacks

So macht Statistik für Dich Sinn.

Meine Bücher

Neueste Blogbeiträge

Kategorien