Die lineare Regression unterliegt diversen Annahmen. Sind diese Voraussetzungen nicht erfüllt, so wirkt sich dies auf die Güte der Schätzung, wie auch die Ergebnisse der Tests im linearen Modell aus. Hierbei nimmt die Störgröße des Modells eine zentrale Rolle ein.

Bei den Modellannahmen handelt es sich um Linearität, Erwartungswert der Störgrößen beträgt Null, die Fehlerterme sind homoskedastisch, die Störgrößen sind nicht autokorreliert, es liegt keine Multikollinearität vor und die Fehler sind normalverteilt.

Annahme 1: Linearität

Die Linearität kann auf vielerlei Art und Weisen verletzt sein. Hierbei ist zu beachten, dass das lineare Modell lediglich fordert, dass die Beziehung linear in den Parameter ist. Häufig ist es möglich eine nichtlineare Beziehung durch eine Transformation der Variablen in eine lineare Beziehung umzuwandeln. Ein Beispiel zeigt die kommende Grafik:

Linearität

In dem Bild links sehen wir, dass der Zusammenhang zwischen x und y nichtlinear ist. Der Zusammenhang lässt sich gut durch eine Kurve, jedoch nicht durch eine Gerade erklären. Wird x mittels des Logarithmus transformiert, so ist der Zusammenhang zwischen log(x) und y linear. Dies sehen wir im Bild rechts. Wird eine solche Nichtlinearität nicht entdeckt und die untransformierte Variable in der Regression verwendet, so ist die Folge, dass die geschätzten Koeffizienten im Modell verzerrt sind. Verzerrt heißt, dass die geschätzten Koeffizienten für wachsende Stichproben nicht gegen den wahren Koeffizienten streben. Je nach beobachteten nichtlinearen Zusammenhang bieten sich verschiedene Transformationen an. Gängig sind dabei Transformationen mit der Exponetialfunktion, dem Logarithmus, der Quadratwurzel und beliebige Potenzen.

Kommende Grafik zeigt ein weiteres Phänomen, welches bei der Modellierung einer Regression auftreten kann.

Trend

Wir sehen hier zwei Beispiele für eeinen Strukturbruch in unseren Daten. Strukturbrüche liegen häufig bei Zeitreihendaten vor. Im linken Bild erkennen wir, dass ab dem Wert x = 0, ein "Sprung" um 10 Einheiten vorliegt. Die Steigung beider Punktwolken ist gleich, jedoch unterscheidet sich der Achsenabschnitt. Im rechten Bild wird die Steigung zum Strukturbrucht stärker.

Solche Strukturbüche lassen sich in einem Regressionsmodell durch Dummy-Variablen berücksichtigen. Dabei nehmen diese Dummies den Wert 0 vor dem Strukturbruch und den Wert 1 (links) oder größer (rechts) nach dem Strukturbruch an.

Weiterhin kann eine Form der Nichtlinearität aufreten, in dem sich die Wirkung mehrerer unabhängiger Variablen nicht-additiv verknüpfen. Beispielsweise kann sich der Zusammenhang zwischen einer Variablen x und y bezüglich einer weiteren Variablen (zum Beispiel dem Geschlecht) unterscheiden. Wir sprechen hier von Interaktion. Mittels Interaktion lassen sich Moderatoreneffekte untersuchen. Dabie ist eine Interaktion mathematisch das Produkt aus zwei unabhängigen Variablen.

Annahme 2: Erwartungswert der Störgößen ist gleich Null

Falls alle systematischen Einflussgrößen im Modell berücksichtigt wurden, so umfasst die Störgröße des Modells nur zufällige Effekte. Diese weichen positiv und negativ zwischen den beobachteten und geschätzten Werten ab. Dabei unterstellt das Regressionsmodell, dass die Fehler Erwartungswert Null besitzen. Diese Schwankungen sollen sich im Mittel als ausgleichen.

Eine Verletzung kan sich in der Praxis ergeben, wenn die Werte von y mit einem konstanten Fehler zu hoch oder zu niedrig gemessen werden. Hier wird von systematischen Meßfehlern und damit systematischen Effekten in der Störgröße gesprochen. Die kleinste Quadrate Schätzung der Regression erzwingt dabei das die Residuen den Wert Null aufweisen. Im Falle eines systematischen Meßfehlers geht dieser in den Wert des Achsenabschnitts des Modells ein. Somit wird dieser nicht mehr unverzerrt geschätzt. In dem meisten Anwendungen ist dies jedoch unproblematisch, da der geschätzte Achsenabschnitt von keinem Interesse ist.

Im Falle einer Regression ohne Konstante geht der systematische Meßfehler jedoch in die übrigen Koeffienten über, sodass jene verzerrt sind. Im Allgemeinen sollte eine Regression durch den Ursprung (also ohne Achsenabschnitt) inhaltlich gut begründet sein.

Annahme 3: Homoskedastizität

Eine weitere Modellprämisse verlangt, dass die Störgrößen gleiche Varianzen ausfweisen. Wir sprechen in diesem Fall von Homoskedastizität. Bei einer Verletzung dieser Annahme wird von Heteroskedastizität gesprochen. In der Situation von Heteroskedastizität sind die Schätzungen ineffizient und die Standardfehler verfälscht. Durch die Verfälschung der Standardfehler werden auch die Konfidenzintervalle ungenau.

Zur Aufdeckung von Heterosekdastizität ist zunächst eine visuelle Inspektion nütztlich. Hierbei werden die geschätzten Werte der Regression gegen der Residuen in einem Streudiagramm abgetragen. Kommende Grafik zeigt Beispiele für homo- und heterosekdastische Fehlerterme.

Homoskedastizität

Das obere Bild zeigt eine Punktwolke mit einer annähernd konstanten Streuung. Dies ist ein Beispiel für Homoskedastizität. Weiterhin zeigt das untere Bild einer Punktwolke bei welcher die Streuung von links nach rechts größer wird. Dies ist ein klassisches Beispiel für heteroskedastische Fehler. Weiterhin existieren in der Anwendung ebenso statistische Tests, die auf Heteroskedastizität prüfen. Hierbei handelt es sich unter Anderem um den Breusch-Pagan- und den Goldfeld-Qunadt-Test. Liefern die Tests signifikante Ergebnisse, so spricht dies für heteroskedastische Fehler und eine Verletuzunng der Annahmme.

Wie oben erwähnt wirkt sich Heteroskedastizität sich auf die Standardfehler aus. Ausweg aus einem Heteroskedastizitätsproblem bieten dabei sogenannte heteroskestatizitätskonsistente Schätzer. Hierei werden die Standardfehler des Modells mittels sogenannter Sandwich-Schätzer ermittelt. Diese Sandwich-Schätzer sind dabei nicht für Heteroskedastizität anfällig. Alternativ können auch Transformationen der abhängigen Variablen das Problem der Heteroskedastizität eindämmen.

Annahme 4: Keine Autokorrelation

Die lineare Regression basiert auf der Annahme, dass die Fehlerterme unkorreliert sind. Im Falle von korrelierten Fehlertermen sprechen wir von Autokorrelation. Autokorrelation tritt vor allem bei Zeitreihen auf. Im Falle von Autokorrelation sind die Abweichungen der geschätzen Werte von den tatsächlichen Beobachtungen nicht mehr zufällig.

Autokorrelation wirkt sich wie Heteroskedastizität auf die Standardfehler aus. Wie im Falle von Heteroskedastizität kann Autokorrelation visuell inspeziert werden. Auch dies geht mittels der Residualplots.

Es wird zwischen zwei Typen von Autokorrelation unterschieden. Positive und negative Autokorrelation. Bei positiver Autokorrelation liegen aufeinander folgende Werte der Residuen nahe beieinander, vergleiche das obere Bild in der kommenden Grafik. Im Falle einer negativen Autokorrelation schwanken die Werte stark, vergleiche das untere Bild.

Autokorrelation

Inferenzstatistisch kann Autokorrelation mittels des Ddurbin-Watson-Tests überprüft werden. Liefert dieser ein signifikantes Ergebnis, so spricht dies für Autokorrelation. Ebenfalls kann an Hand der Teststatistik die Art der Autokorrelation ermittelt werden. Die Teststatistik des Durbin-Watson-Tests kann Werte zwischen 0 und 4 annehmen. Ein Wert von 2 spricht für Unkorreliertheit der Residuen. Ist die Teststatistik kleiner als 2, so deutet dies auf negative Autokorrelation hin. Ist sie hingegen größer 2 so spricht dies für eine positive Autokorrelation.

Annahme 5: Multikollinearität

Die kleinste Quadrate Schätzung liefert im Falle einer exakten linearen Abhängigkeit zwischen Regressoren keine Lösung. Lineare Abhängigkeit bedeutet, dass sich ein Regressoren nicht als lineare Funktion aus den übrigen Regressoren darstellen lassen darf. In diesem Fall liegt perfekte Multikollinearität vor. Jedoch tritt perfekte Multikollinearität in der Praxis eher seltener auf. Im Falle von perfekter Multikollinearität liegt in den unabhängigen Variablen datenanalytisch die selbe Information vor.

In der Anwendung liegt jedoch immer ein gewisser grad an Multkollinearität vor. Der kleinste Quadrate Schätzer ist zwar unter Multikollinearität nach wie vor der linear erwartungstreue Schätzer mit der kleinsten Varianz, jedoch werden die Schätzungen mit steigender Multikollinearität unzuverlässiger.

In der Situation von Multikollinearität überschneiden sich die Streuungen der Variablen. Dies lässt sich durch kommende Grafik visualisieren. Die Multikollinearität kommt hierbei durch die geschwärzte Fläche in den Venn-Diagrammen zum Ausdruck. Durch diese Überschneidungen ist die kleinste Quadrate Methode nicht mehr in der Lage den Effekt einer Variablen richtig zuzuordnen.

Multikollinearität

Einen ersten Anhaltspunkt zur Aufdeckung bzw. Prüfung der Stärke der Multikollinearität liefert eine das Korrelationsanalyse. Hohe Korrelationen nahe 1 oder -1 deuten dabei auf ernsthafte Multikollinearitätsprobleme hin. Jedoch misst die Korrelation nur paarweise Abhängigkeiten. Es kann somit trotz niedriger Korrelationen, starke Multikollinearität auftreten.

Um komplexere Abhängigkeiten zwischen einem und mehreren Regressoren nachweisen zu können, dienen die sogenannten Varianzinflationsfaktoren (VIF). Dabei wird für jede unabhängige Variable ein VIF berechnet. Als Faustregel gilt, dass die VIF nicht größer 10 sein sollten. Andernfalls geht von dem entsprechenden Regressor ein Multikollinearitätsproblem aus.

Ein Ausweg aus dem Multikollionearitätsproblem kann eine Erhöhung des Stichprobenumfangs sein. Dies ist jedoch häufig inpraktikabel. Weiter ist es Möglich mit Transfromationenen der Variablen zu arbeiten, aus den multikollinearitätserzeugenden Variablen neue inhaltlich sinvolle Variablen zu bilden oder die Durchführung einer Ridge-Regression.

Annahme 6: Normalverteilung der Störterme

Die Annahme normalverteilter Störgrößen ist für die Durchführung von Tests im linearen Modell relevant. Die Annahme kann mittels grafischen Hilfsmitteln überprüft werden. Nützlich ist in diesem Kontext vor allem das Quantil-Quantil-Plot. Hierbei werden die Quantile der Normalverteilung gegen die Quantile der Residuen in einem Sstreudiagramm abgetragen. Die Idee dahinter ist, dass wenn die Residuen einer Normalverteilung entstammen ebenfalls die Quantile der Residuen mit den Quantilen einer Normalverteilung übereinstimmen. Dies äußert sich in dem Diagramm in einer Punktwolke, deren Punkte sich anähernd auf einer Linie verteilen. Weiterhin liegt mit dem Shapiro-Wilk-Test ein Test auf Normalverteilung vor. In praktischen Anwendungen ist jedoch die grafische Inspektion auf Normalverteilung vorzuziehen.

Sie haben noch Fragen zur Statistik-Beratung oder anderen Leistungen?

Sie erreichen die Mehr als Durchschnitt Statistikberatung über das Kontaktformular, telefonisch unter +49 152 2269 1443 oder per Mail . Mehr als Durchschnitt freut sich auf Ihre Anfrage.