Transformationen – wozu und wie?

Wozu brauchst Du eine Transformation Deiner Daten?

Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen. Wenn das gelingt, rechnest Du anschließend die weiteren Analysen wie Signifikanztests mit den transformierten Daten. Dann ist es möglich, parametrische Methoden, die Normalverteilung fordern, anzuwenden.

Auch andere Probleme mit der Verteilung, wie zum Beispiel Hetereskedastizität, Nicht-Linearität oder Ausreißer können eventuell mit Transformationen behoben werden.

Ist das Datenmanimpulation?

Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik. Es ist aber wichtig, dass als Transformation nur Formeln verwendet werden, die die Reihenfolge der Beobachtungen nicht durcheinander werfen. Die Reihenfolge komplett umkehren ist aber wieder kein Problem, nur durcheinander gemischt werden darf die Reihenfolge nicht. Dadurch bleiben die relativen Unterschiede zwischen den Beobachtungen für die Variable bestehen. Das ist wichtig.

Die Transformation ändert allerdings die Beziehung zwischen Variablen, und das ist auch so gewollt (z.B. wenn das Problem der Nicht-Linearität damit behoben werden soll). Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden. Z.B. bei einer Regression sind die Regressionskoeffizienten dann auf der Skala des transformierten Faktors zu interpretieren.

Welche Transformation passt?

Es gibt keine grundsätzliche Regel, welche Transformation wann passt. Du musst hier nach dem Prinzip von Trial-and-Error vorgehen. Du probierst also einfach eine Transformation nach der anderen aus. Das heißt,

  1. Du transformierst Deine Variable  mit der ausgewählten Formel.
  2. Dazu erstellst Du eine neue Variable im Datensatz. Wie das in SPSS geht siehst Du zum Beispiel hier.
  3. Dann prüfst Du diese neue Variable auf Normalverteilung, z.B. mit Q-Q-Diagrammen oder entsprechenden Tests. Dazu findest Du Hinweise hier.
  4. Wenn das Ergebnis passt, die neue Variable also annähernd normalverteilt ist, rechnest Du die folgende Analysen mit dieser neuen Variablen weiter.
  5. Wenn nicht, suchst Du Dir eine neue Formel aus und probierst diese aus, beginnst also wieder oben bei 1.

Damit Du bei der Auswahl der Transformation nicht völlig im Nebel stocherst, gebe ich Dir in der folgenden Tabelle die gängigsten Transformationen mit den Einsatzgebieten als Übersicht. Damit kannst Du leichter auswählen, mit welcher Art von Transformation Du das Ausprobieren startest.

TransformationFormelVerwendung
mit dem Logarithums (Logtransformation)log(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit der Wurzelfunktionwurzel(x)Positive Schiefe, positive Kurtosis, ungleiche Varianzen, Nicht-Linearität
mit dem Kehrwert1/xPositive Schiefe, positive Kurtosis, ungleiche Varianzen
Reverse-Score (jeden Wert vom größten Wert abziehen)maximum - xdiese Transformation wird mit obigen kombiniert, um z.B. negative Schiefe zu bereinigen, Beispiel: log(maximum - x)
Addieren einer Konstantenx + aDiese Transformation wird vorgeschalten, wenn die Variable negative Werte oder Nuller enthält, damit anschließend eine der obigen Transformationen angewandt werden kann. Beispiel: 1/(x + a)

Wie in der Tabelle schon angedeutet, sind auch Kombinationen der einzelnen Transformationen möglich und manchmal nötig. So müssen zum Beispiel negative Werte meist zunächst in den positiven Bereich verschoben werden (Addition einer Konstanten), um sie dann mit z.B. dem Logarithmus weiter transformieren zu können.

Welche Alternative gibt es?

Das Ausprobieren der Transformationen kann zeitaufwendig sein und manchmal führt es zu keinem zufriedenstellenden Ergbnis. Wenn also die Daten trotz verschiedener Transformationen nicht annähernd normalverteilt wird, bleibt nur die Verwendung nichtparametrischer Methoden für die weitere Analyse.

Quellen:

  • Andy Field, Discovering Statistics Using SPSS, SAGE, 2013
  • Beitragsbild von pixabay.com

Wenn Du Interesse hast, die Analyse für Deine Abschlussarbeit mit SPSS von mir angeleitet und in der Gruppe umzusetzen, dann ist der im März 2017 startende Onlinekurs für Dich interessant. Hier kannst Du Dich genauer informieren!

 

6 Gedanken zu “Transformationen – wozu und wie?

  1. Hallo Daniela,

    ich habe Daten, die nicht normalverteilt sind und keine Varianzhomogenität ausweisen. Eine log-Transformation löst dieses Problem. Allerdings ist mir nicht ganz klar, wie ich das Ergebnis (z. B. einer ANOVA) anschließend interpretieren muss. Also was genau meinst du mit „Deshalb muss bei der Interpretation der Ergebnisse später die Transformation mit berücksichtigt werden.“? Muss ich das Ergebnis irgendwie zurück transformieren? Ich stehe leider gerade etwas auf dem Schlauch und blicke bei dem Thema Transformation gar nicht durch.
    Schon mal vielen Dank im Voraus und viele Grüße
    Stephanie

    • Hallo Stephanie,
      die p-Werte der ANOVA kannst Du so interpretieren wie sie sind. Da brauchst Du nichts zu transformieren. Wenn Du aber z.B. die Mittelwerte, die da mit berechnet werden ansiehst, dann sind das die logtransformierten. Um die sinnvoll zu interpretieren musst Du sie mit der Umkehrfunktion zurücktransformieren. Beim Log ist das die Exponentialfunktion.
      Alternativ kannst Du aber die deskriptive Analyse einfach nochmal extra auf den Originaldaten rechnen. Dann geht die Interpretation direkt.
      Schöne Grüße
      Daniela

  2. Hallo Frau Keller,

    ich schreibe momentan meine Masterarbeit im Bereich Marketing. U.a. untersuche ich dabei den Einfluss von Produkt-Involvement. Ich habe deshalb zwei Fragebögen erstellt, einen mit einem niedrigen Produkt_Involvement (Instantkaffee) und der andere mit einem hohen Produkt-Involvement (Smartphone). Nun sind die zwei Gruppen in sich nicht normalverteilt – was auch an sich beabsichtigt war, da ich ja wollte, dass Instantkaffee als nicht so wichtig wie ein Smartphone betrachtet wird. Nun meine Frage: Kann ich die beiden Fragebögen zusammenfassen und eine Oberkategorie z.B. Produkt bilden?

    Vielen Dank für Ihre Hilfe und liebe Grüße,
    Lea

    • Hallo Lea,
      sind das beides Messungen an den gleichen Probanden? Willst Du einen „Schnitt“ aus dem Involvement bilden und somit die beiden Messungen „mischen“? Dann kannst Du den Mittelwert pro Proband bilden und nochmal schaun, ob der normalverteilt ist.
      Oder sind es wirklich Probandengruppen? Dann wirst Du ja einen Gruppenvergleich rechnen und dazu mus jede Gruppe für sich normalverteilt sein, nicht die Messungen gemeinsam betrachtet.
      Schöne Grüße
      Daniela

  3. „Wenn sich Deine Daten als nicht normalverteilt herausstellen, kannst Du versuchen, sie durch Transformation in eine annähernde Normalverteilung umzuformen.“ Warum sollte man das wollen? Für die gängigen statistischen Verfahren sind normalveteilte Daten (Variablen) unerheblich. Einige Verfahren erfordern normalverteilte Vorhersagefehler (Residuen), so die Regressionsanalyse oder die Varianzanalyse. Aber selbst das nur bei kleinen Stichproben (ca. n < 30, siehe zentraler Grenzwertsatz).
    "Die Transformation ist dabei keine Datenmanipulation und völlig legitim und eine Standardmethode in der Statistik." Das sind gleich 3 fragwürdige Aussagen in einem Satz. Aber vor allen Dingen, die meisten Anwender wissen nicht, ob eine Transformation inhaltlich angemessen ist; oder was die transformierte Variable eigentlich bedeuten soll, wenn sie vor ihren Auswertungsergebnissen sitzen – was soll mir das sagen, dass 2 Gruppen sich hinsichtlich ihrer Mittelwerte der Wurzelder abhängigen Variable unterscheiden? Aus statistischen Gründen erforderlich sind Transformationen (s.o.) in aller Regel ohnedies nicht.

    Mit freundlichen Grüßen

    • Der zentrale Grenzwertsatz sagt nicht aus, dass die Daten an sich bei großem n normalverteilt sind, sondern dass der Mittelwert sich einer Normalverteilung annähert. Deshalb kann er z.B. bei Verwendung eines t-Tests als Argument angeführt werden, dass bei großem n die Verteilungsannahme unerheblich ist. Bei einer Regression (unter anderem) allerdings nicht.
      Es stimmt, dass hier bei der Regression die Residuen normalverteilt sein sollen, und das kann man manchmal erreichen, indem die Ursprungsvariablen geeignet transformiert werden.
      Zudem kommt es nun eben auch vor, dass statistische Analysen auf kleinen Datensätzen gerechnet werden. Insofern kann es durchaus sein, dass Transformationen erforderlich sind.
      Zum zweiten Punkt: die Daten werden ja transformiert, um Voraussetzungen für Signifikanztests zu erfüllen. Das Ziel ist also das Testergebnis. Und hier können Sie dann eben schließen, ob der Unterschied oder Zusammenhang signifikant ist oder nicht. Für die Beschreibung und Darstellung ist es sinnvoll, zusätzlich die Originaldaten zu verwenden, damit die Interpretation (Was bedeutet dieser signifikante Unterschied jetzt in meinen Zahlen?) leichter fällt.
      Herzliche Grüße
      Daniela

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.