Wenn Du fehlende Werte in Deinen Daten hast, musst Du Dir überlegen, wie Du mit ihnen umgehen willst. Es ist gut, wenn Du diese Überlegungen bewusst triffst, anstatt einfach mal drauf los zu analysieren und die fehlenden Werte irgendwie (ohne Reflexion) zu behandeln. Denn fehlende Werte nicht zu behandeln, ist nicht möglich. 🙂

Es gibt verschiedene Möglichkeiten zum Umgang mit fehlenden Werten:

  • Du kannst bei der Analyse jeweils nur die paarweise vollständigen Fälle verwenden,
  • Du kannst nur die komplett vollständigen Fälle verwenden und
  • Du kannst die fehlenden ersetzen (Imputation). Für dieses Ersetzen gibt es auch wieder verschiedene Möglichkeiten.

Egal wie Du Dich entscheidest, wichtig ist zu wissen, um welche Art von fehlenden Werten es sich handelt.

Man unterscheidet MCAR, MAR und NMAR. Je nachdem welche Art von fehlenden Werten vorliegen, sind unterschiedliche Arten vom Umgang mit diesen fehlenden Werten erlaubt.

Hier möchte ich die drei unterschiedlichen Arten von fehlenden Werten dir vorstellen.

Arten von fehlenden Werten

MCAR: Missing completely at random

  • rein zufällig fehlend
  • Fehlen ist weder von der eigentlichen Variablen (bei der der Wert fehlt) noch von anderen Variablen im Datensatz abhängig
  • können einfach ignoriert werden (verringert aber natürlich die Fallzahl)

Du willst mehr Durchblick im Statistik-Dschungel?

MAR: Missing at random

  • Fehlen ist unabhängig von der Variable selbst (bei der der Wert fehlt)
  • Fehlen ist abhängig von anderen Variablen im Datensatz
  • bei Ignorieren wird das Ergebnis verzerrt
  • die Regressionsbeziehung bleibt unverzerrt

NMAR: Not missing at random

  • Fehlen hängt von der fehlenden Variable ab
  • Fehlen hängt auch von anderen Variablen im Datensatz ab
  • Ignorieren verzerrt das Ergebnis (mehr als bei MAR)
  • Auch Regressionsbeziehung ist verzerrt

Es gibt keine Imputationsmethode, die bei NMAR erlaubt ist, auch das einfache Weglassen der unvollständigen Fälle (Ignorieren) sollte dann nicht in Betracht gezogen werden, da die Ergebnisse verfälscht sein werden.