Voraussetzungen der logistischen Regression

Die logistische Regression wird gerechnet, wenn der Einfluss von Faktoren auf eine dichotome abhängige Variable untersucht werden soll. Dabei können die Faktoren metrisch oder kategorial sein.

Im Gegensatz zur linearen Regression hat die logistische Regression nicht ganz so viele Voraussetzungen. Dennoch ist es wichtig, die Voraussetzungen zu prüfen, denn nur wenn sie erfüllt sind, darf das Ergebnis der logistischen Regression verwendet werden.

In diesem Blogbeitrag liste ich Dir die Voraussetzungen auf. Zudem sage ich Dir, wie Du diese Voraussetzungen mit SPSS prüfen kannst (leider ist das in SPSS teils etwas umständlich).

1. Keine Ausreißer

Das logistische Regressionsmodell sollte keine Ausreißer aufweisen. Es sollte also keine Beobachtungen geben, die sehr schlecht zum gerechneten Modell passen.

Dafür betrachtest Du die standardisierten Residuen des Modells und überprüfst, dass es keine Werte größer als 3 oder kleiner als -3 gibt. Zudem sollte es nur wenige Werte (maximal 1 bis 5 %) größer als 2 oder kleiner als -2 geben. Dafür ist es natürlich notwendig, das erstmal das Modell gerechnet wurde. Du führst also erstmal die logistische Regression durch und betrachtest danach die standardisierten Residuen.

In SPSS kannst Du bei der Durchführung der logistischen Regression unter dem Button Optionen ein Häkchen setzen bei „Fallweise Auflistung der Residuen, Ausreißer außerhalb 2 Std.abw.“. Damit bekommst Du eine Liste aller Fälle, deren standardisierte Residuen größer als 2 oder kleiner als -2 sind. Damit kannst Du dann entscheiden, ob die oben genannte Voraussetzung erfüllt ist.

2. Keine Multikollinearität

Wenn Du 2 oder mehr metrische Faktoren in Deinem Modell hast, musst Du prüfen, ob Multikollinearität vorliegt. Multikollinearität bedeutet, dass die Faktoren zu stark miteinander korrelieren, damit erklären Sie den gleichen Anteil an Streuung in Deinen Daten. In diesem Fall sind die Ergebnisse der logistischen Regression nicht verlässlich. Das musst Du also vermeiden. Dazu hast Du verschiedenen Möglichkeiten:

  1. Berechne die bivariaten Korrelationen zwischen den Faktoren. Sind die Korrelationskoeffizienten betragsmäßig kleiner als 0,8, so besteht keine Gefahr von Multikollinearität.
  2. Berechne VIF (Varianzinflationsfaktor) und den Konditionsindex. Ist der VIF kleiner als 5 und der größte Konditionsindex kleiner als 30, so besteht keine Gefahr von Multikollinearität.

Die Berechnung von VIF und Konditionsindex sind leider nicht in der Durchführung der logistischen Regression in SPSS vorgesehen. Sie sind aber über das Menü der linearen Regression erreichbar. Und dieses Menü kannst Du hierfür auch nutzen. Um also VIF und Konditionsindex für Dein Modell der logistischen Regression mit SPSS zu berechnen, führst Du eine lineare Regression (mit den gleichen Variablen, die Du für die logistische verwendest) durch. Über den Button „Statistiken“ aktivierst Du „Kollinearitätsdiagnose“. Alle anderen Werte benötigst Du nicht. In den Ergebnissen liest Du hier dann lediglich die VIF-Werte und den Konditionsindex ab. Alle anderen Ergebnisse der linearen Regression ignorierst Du. Die sind nicht geeignet, da Du ja ein dichotomes Outcome hast und eine logistische Regression rechnen willst.

3. Linearität des Logits

Wenn Du metrische Faktoren hast, ist es notwendig zusätzlich zu prüfen, ob für diese Faktoren die Linearität des Logits vorliegt, das heißt, ob es eine lineare Beziehung zwischen dem metrischen Faktor un dem Logit (Log-Funktion) der abhängigen Variable gibt. Um das zu prüfen, tust Du folgendes:

  1. Berechne für jeden metrischen Faktor x eine neue Variable, indem Du diese metrische Variable mit dem Logarithmus transformierst. Diese neue Variable nenne ich nun ln(x).
  2. Führe nun für jeden metrischen Faktor eine eigene logistische Regression durch. Als abhängige Variable verwendest Du die dichotome abhängige Variable, die Du auch in Deinem eigentlichen Modell hast. Als Faktoren verwendest Du:
    • den metrischen Faktor: x
    • die Logtransformation dieses Faktors: ln(x)
    • die Interaktion zwischen diesen beiden: x*ln(x)
  3. In den Ergebnissen kontrollierst Du dann die Signifikanz dieser Interaktion x*ln(x). Die Interaktion soll nicht signifikant sein, damit die Voraussetzung der Linearität des Logits erfüllt ist.

Quellen:

  • B. Tabachnick, L. Fidell: Using Multivariate Statistics, 6. Edition, 2014, Pearson.
  • A. Field: Discovering Statistics Using SPSS, 4. Edition, 2013, Sage.

Wenn Du Interesse hast, die Analyse für Deine Abschlussarbeit mit SPSS von mir angeleitet und in der Gruppe umzusetzen, dann ist der im März 2017 startende Onlinekurs für Dich interessant. Hier kannst Du Dich genauer informieren!

6 Gedanken zu “Voraussetzungen der logistischen Regression

  1. Hallo Daniela Keller,
    ich habe ziemliche Probleme bei der Wahl des richtigen statistischen Verfahrens bei der Auswertung von Daten, vielleicht können Sie mir weiterhelfen.

    Es handelt sich um eine Korrelationsstudie. Ich habe 3 Variablen erhoben, bei einer davon handelt es sich um eine dichotome Variable.
    1. Kann ich die logistische Regression anwenden, auch wenn keine Variable manipuliert wurde (also ohne eine Kausalitätshypothese)?
    2. Kann ich in einer Korrelationsstudie die Hypothese aufstellen, dass eine Variable davon der Moderator ist oder geht das nur bei Kausalitätshypothesen?

    Über einen kleinen Tipp wäre ich sehr dankbar!
    Freundliche Grüße

    • Hallo Kristina,
      wenn es keine kausale Richtung in Deinen Hypothesen gibt, dann passt die logistische Regression nicht so gut. Stattdessen kannst Du für den Zusammenhang zwischen dichotom und metrisch z.B. die punktbiserielle Korrelation verwenden (oder einfach einen Test auf Lageunterschied) und für die beiden metrischen die Korrelation.
      Statt der Moderationsanalyse würde ich (zumindest wenn die dichotome der Moderator sein soll) die Korrelation zwischen den beiden metrischen auf den Teildatensätzen – eingeteilt nach der dichotomen – rechnen.
      Liebe Grüße
      Daniela

  2. Liebe Frau Keller,
    mich würde interessieren wie „robust“ die logistische Regression gegenüber Voraussetzungsverletzungen ist, und zwar was die Stichprobengröße angeht. Ich hab da unterschiedliches gelesen (mind. 100, mind. 50, abhängig auch von der Anzahl der Kovariaten) – ich hab nämlich eine Stpr. von 46 die ich gern so untersuchen möchte.
    Daher frag ich mich nun, ob nach diesen „Faustregeln“ die Berechnung dann überhaupt noch Sinn macht oder einfach nur unter Vorbehalt bzw. vorsichtig interpretiert werden sollte.

    MfG Nicolai C.

    • Hallo Nicolai,
      mir sind keine Untersuchungen bekannt, die die Robustheit der Voraussetzungen hier in Beziehung zur Fallzahl gebracht haben. Bei der logistischen Regression ist es vielmehr so, dass die Anzahl genügend groß sein muss, um der Komplexität des Modells (Anzahl von Prädiktoren, Anzahl von Kategorien usw) gerecht zu werden.
      Schöne Grüße
      Daniela

  3. Hallo Daniela,

    ich sitze an meiner Masterarbeit und habe mich durch zu viele Information etwas verwirren lassen. Ich stelle mir gerade die Fragen ob die Skalenniveaus für eine lineare Regression gleich seinen müssen? Ganz konkret:
    Ich gehe Hypothesen generierend vor und möchte herausfinden, ob Stigmaerfahrungen (mittels fünfstufiger Liktert-Skala erfasst) einen Einfluss auf die Offenbarung von chronischen Erkrankungen am Arbeitsplatz hat (Im Kern geht es darum, ob die Testperson über die Erkrankung am Arbeitsplatz gesprochen hat oder nicht, dazu haben ich zwei Antwortoption: Ja oder nein).
    Kann ich in dem Fall die lineare Regression rechnen?

    Danke vorab.

    Viele Grüße

    Laura

    • Hallo Laura,
      wenn die abhängige Variable dichotom ist, so wie bei Dir beschrieben, dann rechnest Du eine logistische Regression, keine lineare.
      Schöne Grüße
      Daniela

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.