Wird ein neues Messinstrument (z.B. ein Fragebogen) entwickelt, so ist die Messung der Reliabilität ein wichtiges Gütekriterium dieses neuen Messinstruments.

Was ist Reliabilität?

Die Reliabilität ist die Messgenauigkeit der Messung. Es wird also danach gefragt, wie genau der Test misst (ob er das misst, was er messen soll, ist hier erstmal unwichtig, das wird stattdessen mit der Validität untersucht).

Welche Arten der Reliabilität gibt es?

Es gibt verschiedene Aspekte der Reliabilität. Ob sie alle in Deiner Untersuchung gemessen werden können hängt vom Studiendesign ab. Manche Reliabilitäten können nur gemessen werden, wenn die Datenerhebung an mehreren Messzeitpunkten durcheführt wurden (Retest-Reliabilität), oder wenn zwei Erhebungen gleichzeitig durchgeführt wurden (Paralleltest-Methode).

Im Folgenden stelle ich Dir die verschiedenen Aspekte der Reliabilität vor und wie Du sie untersuchen kannst.

Innere oder interne Konsistenz

Die interne Konsistenz (auch innere Konsistenz genannt) wird untersucht, wie gut die einzelnen Items einer Skala zusammen passen. Dazu wird als Maß Cronbachs Alpha berechnet. Werte ab 0,7 gelten als akzeptabel, ab 0,8 als gut (Bühner, 2011).
Ein weiteres Maß für die interne Konsistenz kann über die Split-Half-Methode berechnet werden, in der der Test in zwei Teile geteilt wird und die Korrelation der beiden Teile als Wert für die interne Konsistenz berichtet wird.

Du willst mehr Durchblick im Statistik-Dschungel?

Retest-Reliabilität

Mit der Retest-Reliabilität wird untersucht, ob das Messinstrument über die Zeit hinweg stabil misst. Um sie zu berechnen wird das Messinstrument also an zwei oder mehr Zeitpunkten an den gleichen Probanden erhoben und die Korrelation der Messungen berechnet. Je nach Variablentyp und Anzahl der Messungen wird das passende Maß verwendet, siehe folgende Tabelle. Werte ab 0,7 gelten als akzeptabel, ab 0,8 als gut (Bühner, 2011).

Bearbeiten
nominaler Parameter ordinaler Parameter metrischer Parameter
zwei Beobachter / zwei Wiederholungen Cohens Kappa Kendalls Tau Pearson-Korrelation
mehr als zwei Beobachter / mehr als zwei Wiederholungen Fleiss Kappa Kendalls W Intra-Klassen-Korrelation (ICC)

Inter-Rater- oder Intra-Rater-Reliabilität

Soll untersucht werden, wie stabil die Messungen bei Verwendung verschiedener Beurteiler oder beim gleichen Beurteiler über die Zeit sind, so wird die Übereinstimmung zwischen mehreren Beurteilern (=Inter-Rater-Reliabilität) oder die Übereinstimmung beim gleichen Beurteiler über die Zeit (Intra-Rater-Reliabilität) ermittelt. Auch hier wird wieder wie oben bei der Retest-Reliabilität abhängig vom Variablentyp und der Anzahl der Messungen das passende Maß ausgewählt, siehe Tabelle oben.

Für diese Übereinstimmungsmaße gelten Werte ab 0,6 als akzeptable Übereinstimmung, ab 0,8 als fast perfekte Übereinstimmung (Landis, Koch, 1977).

Referenzen:

J. R. Landis, G. G. Koch (1977) The measurement of observer agreement for categorical data. In: Biometrics. 33, 159-174.

Markus Bühner (2011) Einführung in die Test- und Fragebogenkonstruktion, 3. Auflage, Pearson, München.