An diesem Punkt ein Wort zum p-Wert und der sogenannten inferentiellen Statistik. In den vergangenen Monaten kam eine Diskussion auf, ob der p-Wert „gut genug“ sei, das heißt, ob er nicht zu leicht als Schwellenwert für eine statistische Signifikanz, also für eine „gewünschte Richtigkeit“ der Ergebnisse missbraucht werden könne. Im März 2015 verkündete das Journal Basic and Applied Social Psychology, dass es bei der Veröffentlichung von Fachaufsätzen auf die Angabe von p-Werten verzichten wolle (Trafimow & Marks, 2015).

Der p-Wert wird oft so einfach verstanden, dass Ergebnisse “signifikant” sind, sobald dieser kleiner als 0,05 ist, also als das vorher festgelegte Signifikanzniveau α. Aber p-Werte können sich verändern, wenn Experimente und Analyseschritte wiederholt werden, und zwar in alle Richtungen; ein p-Wert ist also kein Wert mit konstanter Aussage. Die Konvention erlaubt es jedoch, zu sagen, dass das Ergebnis, also z.B. ein Unterschied, desto stärker ist, je kleiner der p-Wert. Aber durch seine Dynamik, die auf seinen vielen Einflüssen beruht, spiegelt der p-Wert nicht die Beweiskraft der Ergebnisse wieder und kann falsch positive Schlüsse ermöglichen. Insbesondere bei schwacher Datenlage kann, wenn die Stellschrauben im Datengefüge geschickt gedreht werden (manchmal reicht schon eine Veränderung der Stichprobengröße), die 0,05-Schwelle zu einfach unterschritten werden – und damit kann der Wissenschaftler „signifikante“ Ergebnisse präsentieren, auch wenn letztere eigentlich schwach sind, weil der wissenschaftliche Standard der Untersuchung niedrig lag (Woolston, 2015).

Positive und negative Ergebnisse

Diese Signifikanz ist immer noch die Eintrittspforte in viele Journale, die Legitimation zur Veröffentlichung von Daten und Dissertationen und das Aushängeschild vieler Forscher: „Siehe! Ich habe etwas herausgefunden!“. Nicht nur einmal habe ich Schreibende betreut, denen von ihren Doktorvätern oder –müttern nahegelegt wurde, noch mehr Daten zu erheben, weil das Ergebnis noch nicht, wie gewünscht, „richtig“ oder signifikant war. Dieses „zielorientierte Forschen“ ist ganz sicher ziemlich weit verbreitet, denn wer gibt schon gern Forschungsgelder für ein negatives Ergebnis her?

Dabei sind negative Ergebnisse ebenso wichtig wie positive: wenn ich herausfinde, dass z.B. ein Ansatz nicht funktioniert, dann kann der nächste davon profitieren und ihn modifizieren. Wenn ein Medikament oder eine Operation nicht die Wirkung hat, die ich mir beim Aufstellen der Studie vielleicht gewünscht habe, dann kann aber der nächste zeigen, woran es liegt, und der Prozess des wissenschaftlichen Fortschritts schreitet voran.

Dabei darf die eigene Eitelkeit natürlich nicht zu stark ausgeprägt sein, damit man auch einem anderen die Lorbeeren überlassen und sich über das eigene Wegbereiten freuen kann. Auch das ist Teil der Guten Wissenschaftlichen Praxis (DFG, 2013). Insbesondere bei klinischen Studien als Grundlage zur Zulassung von Therapeutika sehe ich den Umgang mit p-Werten aus all diesen Gründen durchaus kritisch. Das kritische Auge sollte ein Wissenschaftler ohnehin nie verlieren.

DFG (2013): Vorschläge zur Sicherung guter wissenschaftlicher Praxis. Ergänzte Auflage. WILEY-VCH Verlag GmbH & Co. KGaA, Weinheim.

Trafimow D. & Marks M. (2015): Editorial. Basic Appl. Soc. Psych. 37, 1–2.

Woolston CH (2015): Psychology journal bans P values. Nature 519 (9). doi:10.1038/519009f

Ein paar Gedanken und Anwendungsempfehlungen zur Effekstärke von Daniela Keller findest Du hier.