ILMES - Internet-Lexikon der Methoden der empirischen Sozialforschung
Artikel drucken

(Lineare) Regressionsanalyse (engl.: Linear Regression Analysis)

Bei der R. handelt es sich um ein Verfahren, mit dem ein Merkmal (eine Variable) durch ein oder mehrere andere Merkmale bzw. deren Ausprägungen erklärt oder prognostiziert werden soll. Das zu erklärende Merkmal wird als »abhängige Variable« bezeichnet, das oder die erklärende/n Merkmal/e als »unabhängige Variable« oder »Prädiktor(en)«. Die R. unterstellt, dass die abhängige Variable metrisch, also mindestens intervallskaliert ist. Die unabhängigen Variablen können metrisch oder nicht-metrisch sein, in letzterem Fall sind sie, sofern sie mehr als zwei Ausprägungen aufweisen, in Dummy-Variablen zu zerlegen. Im folgenden wird nur die lineare Regressionsanalyse behandelt, bei der eine lineare Beziehung zwischen abhängigen und unabhängigen Variablen angenommen wird (wobei nicht-lineare Beziehungen u.U. durch geeignete Transformationen in lineare Beziehungen überführt werden können).

Die linearen R. geht davon aus, dass die Einflüsse der unabhängigen Variablen X1 bis Xk auf die abhängige Variable Y additiv verknüpft sind.Dies lässt sich wie folgt schreiben:

Y = β0 + β1X1 + β2 X2+ . . . + βkXk + ε

Das bedeutet folgendes: Für jeden Fall in der Datenmatrix soll der Wert der abhängigen Variablen Y vorhergesagt werden aus den jeweiligen Ausprägungen der Variablen X, die mit geeigneten Gewichten, den sog. Regressionskoeffizienten β (sprich: beta), multipliziert werden. (Liegt nur eine unabhängige Variable vor, spricht man auch von linearer Einfachregression, gibt es mehrere unabhängige Variablen, spricht man von multipler linearer Regression.) Zu den Einflüssen der unabhängigen Variablen kommt noch eine Zufallskomponente ε (epsilon), in die Messfehler und nicht beobachtete Einflüsse auf Y eingehen. Es wird angenommen, dass Messfehler und nicht beobachtete Einflüsse nicht mit den X-Variablen zusammenhängen. Obwohl diese Annahme nur selten gerechtfertigt ist (vgl. Lieberson 1985), gehört die R. zu den beliebtesten Verfahren der Datenanalyse.

Verdeutlichen wir uns das ganze an einem (fiktiven, aber nicht ganz unrealistischen) Beispiel, das wir als lineare Einfachregression präsentieren. Die Humankapitaltheorie nimmt an, dass Bildung menschliches "Kapital" darstellt, das sich am Arbeitsmarkt amortisiert. Man wird dann annehmen, dass jedes Jahr zusätzlicher (schulischer oder beruflicher) Bildung auch einen Einkommenszuwachs bringt. Stellen wir uns einmal vor, dass jedes Bildungs-Jahr einen Einkommenszuwachs von 200 Euro bringt. Da lässt sich durch folgende Gleichung ausdrücken:

Y = 0 + 200 × Bildungsjahre + ε

Das würde bedeuten, dass jemand mit 8 Jahren Bildung ein Einkommen von 0 + 200 × 8 = 1.600 Euro hat, jemand mit 16 Jahren Bildung ein Einkommen von 3.200 Euro. Da im individuellen Fall aber natürlich noch viele andere Einflüsse auf das Einkommen wirken, wird die Komponente ε relativ groß sein. – In der Forschungspraxis wird man noch weitere Einflüsse auf Y untersuchen und so das Modell zur multiplen Regression erweitern.

Modellschätzung

Regressionsmodelle müssen im allgemeinen aus Stichprobendaten geschätzt werden. Die so geschätzten Koeffizienten werden oft mit dem Buchstaben b gekennzeichnet, manchmal auch durch

β ^ .

Y = b0 + b1X1 + b2 X2+ . . . + bkXk + e

Die b-Koeffizienten werden aus den Daten so geschätzt, dass die Regressionsgerade "möglichst nahe" an den Werten der abhängigen Variablen liegt. In aller Regel wird "möglichst nahe" so verstanden, dass die quadrierten Abweichungen der einzelnen aus der Gleichung vorhergesagten Werte von den tatsächlich beobachteten Werten so gering wie möglich sein sollen; dies ist der sog."Kleinste-Quadrate-Schätzer", oft auch kurz OLS-Schätzer (nach engl. Ordinary Least Squares) genannt.

Kann man aus den Werten der abhängigen Variablen in jedem Einzelfall genau den beobachteten Wert von Y vorhersagen, so liegt ein perfektes Modell vor. Die Komponente e hat dann den Wert 0. Faktisch gibt es solche Modelle nicht. Wie gut Y insgesamt erklärt werden kann, wird durch die quadrierte (bei mehreren unabhängigen Variablen: multiple) Korrelation zwischen den geschätzten und den beobachteten Werten ausgedrückt, die als bezeichnet wird und deren Wert zwischen 0 (überhaupt kein Zusammenhang) und 1 (perfekter Zusammenhang) liegt. Sozialwissenschaftliche Analysen erreichen je nach Gegenstand normalerweise ein R² zwischen 0,05 und 0,6. Man spricht in diesem Zusammenhang auch von "erklärter Varianz", weil man die unterschiedlichen Werte von Y (also die "Varianz" von Y) durch die unabhängigen Variablen "erklärt". Die Differenzen zwischen den beobachteten und den geschätzten Werten bezeichnet man als "Residuen".

Sind mehrere unabhängige Variablen in der Regressionsgleichung enthalten, sind ihre Effekte schwer vergleichbar, wenn diese auf unterschiedlichem Maßstab gemessen werden (z.B. Einkommen von 0 bis mehreren 10.000 DM, Alter von 1 bis etwa 80 Jahren). Daher werden im allgemeinen auch standardisierte Regressionskoeffizienten berechnet und ausgegeben. Diese geben an, um wieviele Standardabweichungen die abhängige Variable sich verändert, wenn die unabhängige Variable sich um eine Standardabweichung ändert. Im Falle kategorialer unabhängiger Variablen ist die Interpretation der standardisierten Regressionskoeffizienten jedoch problematisch, denn man kann schlecht sagen, dass das Geschlecht sich um "eine Standardabweichung" ändert.

Inferenzstatistische Prüfung: Zur Prüfung, ob die Gesamtheit der unabhängigen Variablen eine Verbesserung der Vorhersage von Y im Vergleich zur reinen Schätzung des Mittelwertes bringt, wird ein F-Test eingesetzt. Für die einzelnen Regressionskoeffizienten werden Standardfehler berechnet. Die Prüfgröße b / S.E. (mit S.E. für Standardfehler) folgt bei ausreichend großen Fallzahlen (n > 30) der Normalverteilung; d.h., bei zweiseitigem Testen deuten Werte >|1,96| auf einen statistisch signifikanten Zusammenhang hin. Sind die Fallzahlen kleiner, sollte die t-Verteilung zugrundegelegt werden.

Hängen die erklärenden (oder unabhängigen) Variablen untereinander stark zusammen – man spricht von sog. Multikollinearität –, so erhöht dies die Standardfehler der Schätzer für die Regressionskoeffizienten. Der Varianzinflationsfaktor (VIF) ist ein Maß dafür, um welchen Faktor die Standardfehler durch die Multikollinearität erhöht sind. Liegt sehr hohe Multikollinearität vor, ist zu prüfen, ob die stark untereinander zusammenhängenden Variablen möglicherweise das gleiche messen; dann kann eine von ihnen aus dem Modell entfernt, oder beide können zu einem Index zusammengefasst werden. Multikollinearität ist aber nicht unter allen Umständen ein Problem, sondern nur dann, wenn eine Variable, die nach der Höhe des Regressionskoeffizienten offenbar einen wichtigen Erklärungsbeitrag leistet, wegen des hohen Standardfehlers an der Prüfung auf Signifikanz "scheitert".

Anwendungsvoraussetzungen und Modelldiagnose

Für die Gültigkeit der Signifikanztests ist erstens erforderlich, dass die Fehler der Regressionsgleichung (also die unbekannten epsilon) normalverteilt sind. Als Annäherung betrachtet man hierzu die Residuen. Wie weit diese von der Normalverteilung abweichen, kann anhand eines Histogramms oder noch besser eines Normal-Quantil-Plots überprüft werden. Zweitens soll die Varianz der Fehler bzw. der Residuen "homoskedastisch" sein, d.h., sie soll nicht mit den Werten der abhängigen Variablen bzw. deren Schätzwerten zusammenhängen. Ist diese Voraussetzung verletzt – man spricht dann von "Heteroskedastizität" –, helfen oft Transformationen der abhängigen, gelegentlich auch der unabhängigen Variablen. Lässt sich dadurch die Heteroskedastizität nicht beseitigen, können alternative Schätzverfahren für die Standardfehler herangezogen werden (z.B. Schätzung der sog. heteroskedastizitätskonsistenten Varianz-Kovarianz-Matrix nach White).

Über die genannten Voraussetzungen hinaus, die sich auf die inferenzstatistische Gültigkeit beziehen, sollte man noch folgende Prüfungen vornehmen:

Prüfung der Beziehungen zwischen abhängigen, und unabhängigen Variablen auf Linearität: Hierzu betrachtet man die sog. partiellen Residuenplots. Stellt man dort nicht-lineare – z.B. kurvilineare – Beziehungen fest, sollte das Regressionsmodell entsprechend modifiziert werden, etwa durch Transformation von Variablen oder Aufnahme quadratischer oder höherer Terme.

Unabhängigkeit der Residuen: Vor allem bei Zeitreihendaten ist anzunehmen, dass die unbeobachteten Einflüsse und Messfehler benachbarter Beobachtungen miteinander zusammenhängen. Man spricht hier von Autokorrelation. Diese kann mit der Durbin-Watson-Statistik geprüft werden. Liegt deren Wert bei 2, liegt keine Autokorrelation vor; je weiter der Wert von 2 nach oben oder unten abweicht, desto größer ist die Autokorrelation. (Die Grenzen, innerhalb derer man noch nicht von Autokorrelation sprechen kann, variieren leider mit der Stichprobengröße.). Für Zeitreihendaten sollte man i.a. ohnehin andere statistische Analyseverfahren heranziehen.

Einflussreiche Fälle: Es ist wünschenswert, dass Ergebnisse der R. nicht von einem einzigen oder nur sehr wenigen Fällen abhängen. Um dies zu prüfen, sollten einerseits die partiellen Residuenplots inspiziert, andererseits spezielle Test-Statistiken konsultiert werden, von denen Cooks Distanz am wichtigsten ist. Welche Regressionskoeffizienten von einem einflussreichen Fall beeinflusst werden, kann man den sog. "dfbetas" entnehmen, welche angeben, um welchen Betrag der betreffende Fall die einzelnen Regressionskoeffizienten ändert.

Praktisches Vorgehen bei der Modellerstellung:

Üblicherweise will man ein Regressionsmodell erstellen, welches nur die statistisch signifikanten Prädiktoren enthält. Die Statistikprogramme stellen Algorithmen zur Verfügung, welche die nicht-signifikanten Prädiktoren eliminieren. Zu warnen ist hier vor Verfahren, welche von vornherein nur signifikante Prädiktoren in das Modell einschließen, zumeist in einem sukzessiven Vorgehen ("stepwise"). Bei diesem Vorgehen können relevante Einflüsse übersehen werden, etwa weil sie nur wegen Multikollinearität nicht signifikant erscheinen, oder weil sie nur gemeinsam mit einer anderen Variablen bedeutsam sind. Es sollte also immer zuerst ein Modell mit allen als einflussreich angenommenen Variablen geschätzt werden. Erst nach dessen "Check" kann man dann daran gehen, irrelevante Einflüsse aus dem Modell zu entfernen, wobei im Grunde nach jeder entfernten Variablen ein erneuter Modellcheck erforderlich ist.

© W. Ludwig-Mayerhofer, ILMES | Last update: 30 Dec 1999