Zu fast jeder wissenschaftlichen Studie gehört eine statistische Analyse der Daten, um aussagekräftige Ergebnisse zu erhalten, bzw. um Ergebnisse zu erhalten, die man mit denen anderer Studien vergleichen kann; nur so erhalten diese überhaupt eine Aussagekraft. Dabei nutzt man Vorgaben, auf die sich die wissenschaftliche Gemeinschaft geeinigt hat, z.B. auf die sogenannten Signifikanzniveaus oder –level (α), die möglichst zu Beginn der Studie festgelegt werden. Das Signifikanzniveau gibt die maximale Irrtumswahrscheinlichkeit an, also dass Du, um es ganz vereinfacht zu sagen, ein Ergebnis als richtig annimmst (z.B. einen Unterschied als vorhanden), obwohl es gar nicht stimmt (der Unterschied also gar nicht da ist).

Zusätzlich gibst Du in diesem Kapitel ganz elegant mit an, wie Du Deine Daten vorstellen wirst, z.B. dass arithmetische Mittelwerte von Körpertemperaturen als Mittelwert und Standardabweichung angegeben werden (x ± STABW). Außerdem formulierst Du ganz zu Beginn Deine(n) Zielparameter, so Du (einen) solche(n) präzise fixiert hast:

Als Zielparameter dieser Studie wurde die postoperative tumorfreie Überlebensrate nach kurativer endoskopischer Therapie festgelegt.

Auch gibst Du an, wie die Datensätze nach der Erhebung dokumentiert wurden (z.B. Übertrag in Excel- oder SPSS-Datenblätter).

Bei der Auswahl der passenden Testverfahren stützt man sich im Optimalfall auf die Erfahrungen am Lehrstuhl und wird dort auch an das Prozedere der Analyse herangeführt. Insbesondere in der Medizin werden die Analysen aber auch gern an Statistiker ausgelagert, und man erhält quasi aufbereitete Ergebnisse; Nachteil dieses Outsourcings ist, dass der Schreibende oft nicht versteht, aus welchem Grund welcher Test verwendet wird und was die ihm vorgelegten Ergebnisse für ihn als Forschenden überhaupt bedeuten bzw. wie sie zu lesen sind. Abhilfe schafft hier entweder ein guter Betreuer oder Kollege, der über einen gewissen Überblick über die im Fach üblicherweise angewendeten Tests verfügt, ein kompetenter „auswärtiger“ Statistiker, der die Herangehensweise an die Daten und auch die gelieferten Ergebnisse verständlich erläutert oder im Pessimalfall ein eisenharter Wille und eine bewundernswerte Naturbegabung, sich entsprechende Kenntnisse selbst anzueignen. Gerade letzteres scheitert aber oft an der geringen Zugänglichkeit vieler Programme und an deren eingeschränkter Selbst-Erklärbarkeit.

Prinzipiell gilt auch für den Statistikteil, der den Abschluss des Methodenteils bildet, dass penibel aufgelistet wird, welche Daten mit welchem Test und welchem Programm analysiert wurden. Unumgänglich ist hier die Angabe Deiner sogenannten Arbeits- oder Alternativhypothese(n), mit der/denen Du den Gegenstand Deiner Studie beschreibst, und wie Du diesen untersuchst z.B. „Frauen telefonieren am Steuer häufiger als Männer ohne Freisprecheinrichtung.“ Deine sogenannte Nullhypothese lautet: „Beide telefonieren gleich viel, es gibt keinen Unterschied.“ Du kannst also alle Deine Hypothesen einzeln aufführen, und Du kannst sogar entsprechend formulieren:

Die Hypothese, dass Frauen häufiger als Männer am Steuer ohne Freisprecheinrichtung telefonieren, wurde untersucht mithilfe von Test X. Dazu wurden die Daten in das Programm Y übertragen und mit dem Add-On-Programm Z analysiert.

Dabei wird auch legitimiert, falls abweichende Tests herangezogen werden mussten oder wenn noch unbekannte Verfahren Anwendung fanden, und auch, wenn z.B. Anpassungen der Daten vorgenommen wurden. Es wird auch angegeben, wenn ein bestimmter Test besonders stark war und daher Anwendung fand und warum vielleicht noch ein anderer Test hinterhergeschoben wurde:

Dabei gilt der Logrank-Test als starker Test für diese Art von Datenanalyse. Da er alle Ereignisse gleich gewichtet, wurden in dieser Arbeit noch zwei weitere gängige, nicht-parametrische Tests angewendet, die frühere Ereignisse stärker gewichten: der generalisierte Wilcoxon-Test und der Tarone-Ware-Test (Ziegler et al. 2004).

Wünschenswert ist bei dieser Art von Test-Vorstellung auch die Angabe der Quellen, aus denen Du Deine Entscheidung beziehst, diesen und nicht jenen Test zu verwenden. Auch hier solltest Du Dich auf den Modus Operandi Deines Fachgebiets stützen und schauen, wie andere es vor Dir gehandhabt haben, denn das Rad musst Du nun nicht neu erfinden.

Es werden also für jedes in der Arbeit dargestellte Ergebnis der Test und das Programm angegeben. Natürlich fasst Du an dieser Stelle möglichst viel zusammen, damit Du Dich nicht dauernd wiederholen musst. Wenn Du also mehrere Datensätze mit demselben Test untersucht hast, listest Du einfach entsprechend auf; kehren wir zu unseren wohlbekannten ungarischen Rottweilern zurück:

In den Experimenten A und B wurden die mittleren Körpertemperaturen der Tiere, die mittleren Innentemperaturen der Schlafboxen und die mittleren Außentemperaturen der    Freilaufgehege (gegeben als x ± STABW) mittels eines gepaarten 2-seitigen t-Tests    verglichen (Mikrosofft Eksel® (Mikrosofft GmbH, Grevenbroich, Deutschland)). Derselbe Test wurde in der Vorab-Studie mit deutschen Teckeln angewendet.

Manche Untersuchungen, wie etwa die der Überlebensrate, gehen mit besonderen, selten zu findenden graphischen Darstellungen einher. Diese sollten im Statistikteil auch vorgestellt werden, insbesondere ihre „Lesart“, damit der unter Umständen unbedarfte Leser wertvolle Informationen aus den Abbildungen ziehen kann, ohne verärgert zu überlegen, wie diese denn überhaupt zu verstehen sind.

Im Statistikteil werden manchmal auch Grundlagen gewünscht, etwa erweiterte Erläuterungen zur Angabe der statistischen Signifikanz, also ab wann der im Ergebnisteil anzugebende p-Wert „interessante“ Ergebnisse anzeigt: kläre das mit Deinem Betreuer ab oder schau nach, wie dieser Aspekt in Schwesterdissertationen gehandhabt wird. Solch einen Standardteil wie folgt oder ähnlich habe ich schon oft in experimentellen Arbeiten gelesen; manche Betreuer empfinden so eine Grundlagen-Schau aber dem wissenschaftlichen Zwecke nicht würdig. Wie gesagt: es kommt immer darauf an.

Das Ergebnis der angegebenen statistischen Testverfahren ist jeweils der aus den Daten berechnete empirische Signifikanzwert p (p-Wert). Je kleiner der p-Wert ausfällt, desto größer ist die Wahrscheinlichkeit, dass die Nullhypothese H0 („es gibt keinen Unterschied“ bzw. „es besteht kein Zusammenhang“) abgelehnt und die Arbeitshypothese H1 („es gibt einen Unterschied“ bzw. „es besteht ein Zusammenhang“) angenommen werden kann. Die Irrtumswahrscheinlichkeit, dass die Nullhypothese H0 fälschlicherweise angenommen wird, wird mit dem Signifikanzniveau α angegeben. Nach Sachs und    Hedderich (2009) wird als übliches Signifikanzniveau α=0,05 verwendet. Testgrößen, die einen Signifikanzwert p≤0,05 liefern, werden als „signifikant“, Testgrößen, die ein p≤0,001 liefern, als „hoch signifikant“ und Testgrößen, die ein p<0,1 liefern, als „schwach signifikant“ bezeichnet. Üblicherweise wird ab einer Schwelle von p≤0,05 mit einem statistisch signifikanten Ergebnis also davon ausgegangen, dass der ermittelte Unterschied zwischen den untersuchten Gruppen nicht zufallsbedingt, oder dass der ermittelten Zusammenhang zwischen zwei Parametern nicht zufällig ist.

Zur Diskussion um den p-Wert findest Du ein paar Gedanken hier.

Zurück zum Hauptartikel Material und Methoden: Einfach und präzise