Von Störchen und Babys: die partielle Korrelation

Storch_bringt_Baby

Bildquelle: Steffi Pelz / pixelio.de

Die partielle Korrelation wird verwendet, wenn man den Zusammenhang zwischen zwei Variablen beschreiben will und dabei den Einfluss einer dritten Variable „heraus rechnen“ will. Man sagt dazu: „Man kontrolliert die dritte Variable“. Diese dritte Variable wird auch Kontrollvariable oder Störvariable genannt.

Das klingt sehr theoretisch. Wann aber braucht man die partielle Korrelation konkret? Das bekannteste Beispiel ist das von Störchen und Babys:

In einer Studie wurde für verschiedene Regionen untersucht, wie viele Störche dort zu Hause sind und wie hoch die Geburtenrate ist. Es zeigte sich eine signifikante positive Korrelation zwischen der Anzahl der Störche und der Anzahl der Babys. Das heißt, je mehr Störche eine Region hat, umso mehr Babys gibt es dort. Heißt das nun, dass der Storch die Babys bringt? Sicher nicht. Das ist ein typisches Beispiel, dass Korrelation keine Kausalität bedeutet.

Nein, in diesem Fall ist eine dritte Variable für diesen scheinbaren Zusammenhang verantwortlich. Diese dritte Variable ist die Industrialisierung. Die Regionen, die stark industrialisiert sind, haben weniger Störche, da es sich um eher städtische Regionen handelt. Aus dem gleichen Grund haben sie auch weniger Babys, da Familien sich eher im ländlichen Bereich ansiedeln.

Berechnet man die partielle Korrelation des Vorkommens der Störche und der Geburtenrate und kontrolliert dabei die Variable Industrialisierung, so stellt man keine signifikante Korrelation mehr fest. Das zeigt, dass der eigentliche Zusammenhang zwischen der Industrialisierung und der Geburtenrate und zwischen der Industrialisierung und der Anzahl der Störche besteht und nicht zwischen der Anzahl der Babys und der Anzahl der Störche.

Die partielle Korrelation setzt lineare Zusammenhänge zwischen den Variablen sowie Normalverteilung der Residuen voraus. Für die normalverteilten Residuen reichen normalverteilte Variablen aus, was mit Normalverteilungsplots überprüft werden kann.  Der lineare Zusammenhang wird mittels Streudiagrammen graphisch untersucht.

14 Gedanken zu “Von Störchen und Babys: die partielle Korrelation

  1. Sehr geehrte Frau Keller,
    im Zuge meiner Bachelorarbeit „Homogenitat von Kulturen im ländervergleich am Beispiel der Maskulinität soll ich ermitteln, ob die maskulinität (MAS) mit dem BIP pro Kopf korreliert.
    Ich habe herrausgefunden, dass sie zu -,138 korrelieren und eine Signifikanz von ,015 vorliegt. Somit sind die beiden Variablen ja nicht miteinander signifikant.
    Und auch die negative Korrelation ist sehr gering.
    Was kann ich denn jetzt machen um vllt doch noch einen zusammenhang zwischen den beiden zu finden?
    Könnte mir da eine Kontrollvariable weiterhelfen?
    MfG Nils Müller

    • Hallo Herr Müller,

      so wie Sie es schreiben, haben Sie eine schwache negative signifikante Korrelation, denn mit p=0,015 ist die Korrelation zum Signifikanzniveau von 5 % signifikant. Natürlich ist sie trotzdem sehr schwach, das stimmt. Eine Kontrollvariable könnte weiter helfen. Haben Sie denn eine Idee, welche Variable da mit hinein spielen könnte und können Sie diese messen?
      Schöne Grüße
      Daniela Keller

      • Das gibt’s auch? Jetzt bin ich überrascht. Beim „direkten Vergleich “ zeigt sich keine bzw. nur eine sehr schwache Korrelation zwischen X1 und X2, und durch „Herausrechnen“ des Einflusses einer Drittvariablen kann ein stärkerer Zusammenhang zwischen X1 und X2 festgestellt werden?

          • Mir fällt aktuell kein gutes Beispiel ein. Das kann aber immer dann vorkommen, wenn eine Variable durch eine andere „verfälscht“ oder „gestört“ wird. Meist rechnet man dann eine lineare Regression mit mehreren Faktoren, bei der dann der eine Faktor um den anderen korrigiert wird. Die partielle Korrelation macht etwas sehr ähnliches.

  2. Liebe Frau Keller,

    ich muss eine Kovarianzanalyse für nicht parametrische ordinal skalierte Daten erstellen und hab irgendwie keine Ahnung wie ich dies anstellen soll. Ich habe es über eine ordinale Regression versucht, ist das korrekt? Wenn ja, wie interpretiert man dabei die Ausgabe? Ich gebe zuerst die Variable, die die Gruppenaufteilung festlegt als fixe Variable an und anschließend den BDI (als Beispiel) als abhängige Variable, wenn die Hypothese (BDI ist in den verschiedenen Gruppen unterschiedlich bestätigt wurde) Was bedeutet es, wenn ich dabei beim parallel Test für Linien ein signifikantes Ergebnis bekomme? Für eine mir sehr wichtige Variable bekomme ich dabei gar keine Ausgabe, nur die Meldung
    „Der Wert der Log-Wahrscheinlichkeit des allgemeinen Modells liegt unter dem des Null-Modells. Dies liegt daran, daß die Konvergenz beim Schätzen des allgemeinen Modells nicht ereicht oder festgelegt werden kann. Daher kann der Test der parallelen Linien nicht ausgeführt werden“

    Ich würde mich sehr freuen, wenn Sie mir helfen könnten, vor allem weil ich langsam verzweifle.

    Beste Grüße
    Sarah

    • Hallo Sarah,
      die ANCOVA für ordinale Daten über die ordinale Regression zu berechnen habe ich noch nie gemacht. Ich würde dafür eine robuste ANCOVA in R verwenden (gibts nicht in SPSS). Aber vielleicht brauchst du das gar nicht. Wie wurden die ordinalen Daten erhoben? Hast du sie mal auf Normalverteilung überprüft? Wie groß ist deine Stichprobe? Vielleicht sind die Voraussetzungen für die „normale“ ANCOVA gar nicht so stark verletzt und du kannst sie trotzdem rechnen.
      Schöne Grüße
      Daniela

      • Vielen Dank für die schnelle Antwort Frau Keller.

        Ich habe eine Gruppe mit 49 Teilnehmern (Abhängigkeit) wovon ich zwei Untergruppen bildete (23(legale Drogen)und 26(illegale Drogen)). Zudem eine Kontrollgruppe mit 171Teilnehmern. Ja leider habe ich keine Normalverteilung, dies habe ich überprüft. Aber ich könnte, da ich „fast“ 30 Teilnehmer pro Gruppe habe auch davon ausgehen? Die ordinalen Daten wurden anhand mehrerer Items mit Likert Skala erhoben (Selbstwert, Selbstwirksamkeit, usw.. ). Für jeden Teilnehmer wurde pro Konstrukt der Median ermittelt, mit welchen ich die Gruppen verglich. Ich würde einfach die parametrische ANCOVA rechnen und angeben, dass die Ergebnisse nur eine eingeschränkte Validität haben?

        Liebe Grüße
        Sarah

        • Hallo Sarah,
          ja, du könntest aufgrund der Gruppengröße sagen, dass die Methode robust auf die Verletzung der Normalverteilung reagiert. Die ANCOVA hat aber noch weitere Voraussetzungen, hast du die überprüft? Warum rechnest du eigentlich eine ANCOVA, was ist die Kovariate? Für weitere Diskussionen kannst du gern der Facebook-Gruppe Statistikfragen https://www.facebook.com/groups/785900308158525/ beitreten!
          Schöne Grüße
          Daniela

  3. Hallo Daniela,

    ich hätte mal eine Frage zur partiellen Korrelation. Gibt es nicht fast immer eine dritte Variable, die auf die Korrelation einen Einfluss hat? Irgendetwas könnte man doch immer finden (wenn auch nicht als Daten erhoben), sodass die einfache Korrelation doch nie wirklich viel Aufschluss gibt. Oder sehe ich das zu streng?
    Beste Grüße
    Stefan

    • Hallo Stefan,
      ja, das stimmt. Es gibt immer Störfaktoren, und wenn es nur zufällige Messfehler sind. Insofern kann eine schwach Korrelation auch bedeuten, dass es zu viele Störfaktoren gibt, die den tatsächlichen Zusammenhang verschleiern, ja.
      Schöne Grüße
      Daniela

  4. Hallo Daniela,

    ich würde für meine Masterarbeit gerne den Zusammenhang von Narzissmus und Leistungsoutcomes berechnen. Grundsätzlich würde ich hier eine Regression rechnen. Allerdings wünscht sich meine Betreuerin die Kontrolle der möglichen Einflussvariablen Geschlecht und Altern. Das geht doch dann nur über eine partielle Korrelation, oder?

    Vielen Dank bereits für das Feedback!
    Regina

    • Hallo Regina,
      nein, Du kannst eine multiple lineare Regression rechnen, in der Du Geschlecht und Alter mit als Faktoren aufnimmst und somit dafür korrigierst.
      LG
      Daniela

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.