In diesem Artikel beschreiben wir, wie sich eine Regressionsanalyse in Stata umsetzen lässt.

Die Daten

Für die Analysen nutzen wir den systeminternen Datensatz auto.dta. Diesen lesen wir in Stata mit folgenden Befehl ein.

Regressionsanalyse in Stata

Der Datensatz umfasst diverse Merkmale von N = 74 Automodelle. Die genauere beschreibung der Daten findet sich hier.

Die Analyse

Im Weiteren wird nun mit dem Befehl regress eine Regression durchgeführt. Mittels des vorangestellten Befehls quietly erscheinen die Ergebnisse der Regression nicht in der Stata Ausgabe. Bei der Regression wird die abhängige Variable price durch die unabhängigen Variablen rep78 und displacement erklärt. Wir haben uns nicht die Ergebnisse dieser Regression ausgeben lassen, da wir zunächst die Annahmen des Modells überprüfen uund daraufhin das Modell gegebenenfalls anpassen werden.

Regressionsanalyse in Stata

Zunächst prüfen wir die Linearität visuell. Dies gelingt uns mit dem Befehl avplots.

Regressionsanalyse in Stata

Wir erhalten dabei die folgende Grafik. Sie zeigt die Beziehung zwischen der abhängigen Variablen und jeweils den unabhängigen Variablen auf. Es zeigt sich, dass beide Punktwolken gut durch Geraden beschrieben werden können. Somit spricht dies für diee Annahme der Linearität.

Regressionsanalyse in Stata

Mit dem Befehl vif werden die Varianzinflationsfaktoren für dass letzte berechnete Modell kalkuliert. Sie liegen in diesem Falle alle unter 10. Somit ist von keinem Multikollinearitätsproblem in unserem Modell auszugehen.

Regressionsanalyse in Stata

Weiterhin prüfen Sie nun die Annahme der Homoskedastizität. Mittels des Befehls estat hettest wird in Stata der Breusch-Pagan-Test berechnet. Dieser liefert ein signifikantes Ergebnis, p = 0,0002. Somit ist von unterschiedlichen Varianzen bezüglich der Residuen auszugehen.

Regressionsanalyse in Stata

Mittels des Befehls rvfplot erhalten Sie eine Residuals-vs.-Fitted-Plot. Dieser ist in kommender Grfaik abgebildet. Es ist klar von links nach rechts eine Erhöhung der Streuung zuerkennen. Somit deutet auch dieses Bild auf ein Heteroskedastizitätsproblem hin.

Regressionsanalyse in Stata

Um unser Modell auf Autokorrelation zu untersuchen, muss eine Zeitreihenstruktur in die Daten gebracht werden. Dies gelingt Ihnen in dem Sie eine Index Variable mittels generate Index = _n. Hierbei werden die Beobachtungen in der Variablen Index fortlaufend nummeriert. Daraufhin wird dieser Index als Zeitreihenvariablen in Stata deklariert. Dies gelingt mittels tsset Index.

Regressionsanalyse in Stata

Nun können Sie den Durbin-Watson-Test in Stata berechnen. Dies gelingt Ihnen mit dem Befehl estat dwatson. Dabei ergibt sich eine Durbin-Watson-Teststatistik von 1,12. Sie liegt innerhalb der Faustregel von 1 bis 3. Somit ist dieser Regel bezüglich kein Autokorrelationsproblem anzunehmen.

Regressionsanalyse in Stata

Die zentralen Annahmen, biss auf Normalverteilung der Residuen, der linearen Regression wurden somit überprüft. In Stata kann das Modell jedoch bezüglich diverser Kriterien weiter untersucht werden. Zum Beispiel kann geprüft werden, ob vergessene Einflussgrößen vorliegen. Dies ist beispielsweise mit der RESET-Test möglich. In Stata erhalten Sie ihn mit dem Befehl estat ovtest. Dieser liefert ein nicht-signifikantes Ergebnis, F(3, 63) = 1,70, p = 0,176. Somit liegen keine vergessenen Regressoren vor.

Regressionsanalyse in Stata

Abschließend wird nun die Annahme der Normalverteilung untersucht. Hierfür müssen die Residuen als Variablen abgespeichert werden. Dies gelingt Ihnen mit dem Befehl predict residuals, res. Dabei wird mittels predict die Variable residuals erzeugt. Die Option residuals, hier abgekürzt mit resid sorgt dafür, dass die Residuen in der Variablen residuals abgespeichert werden.

Regressionsanalyse in Stata

Mit dem Befehl qnorm lässt sich dann ein Q-Q-Plot für die Residuen erstellen, bei welchem jene mit der Normalverteilung verglichen werden. Kommende Grafik zeigt uns einen solchen Plot. Es sind hierbei Abweichungen von einer Normalverteilung zu erkennen. Somit erscheint die Annahme normalverteilter Fehlerterme verletzt.

Regressionsanalyse in Stata

Da die Annahme der Homoskedastizität nicht erfüllt war, werden die Standardfehler mit Heteroskedastizitätskonstistenten Sschätzern bestimmt. Dies gelingt in Stata mittels der Option vce(hc3) innerehalb des Befehls regress. Weiterhin war die Normalverteilungsannahme verletzt. Somit wirden die Standardfehler mittels eines Bootstraps geschätzt. Den Bootstrap erhalten wir in Stata über die Präfix bootstrap:. Hierbei gibt die Option reps (500) an, dass der Bootstrap mit 500 Replikationen erfolgen soll. Weiterhin wird mit der Option seed(2424263) der Wert des Zufallsgenerators festgelegt.

Es zeigt sich in dem Modell das adjustiert 34,6% der Varianz des Preises erklärt werden können. Das korrigierte Bestimmtheitsmaß betrug 0,346. Weiterhin hat displacement einen signfikant positiven Einfluss auf den Preis. Auch rep78 Einfluss ist signifikant positiv.

Regressionsanalyse in Stata

Sie haben noch Fragen zur Statistik-Beratung oder anderen Leistungen?

Sie erreichen die Mehr als Durchschnitt Statistikberatung über das Kontaktformular, telefonisch unter +49 152 2269 1443 oder per Mail . Mehr als Durchschnitt freut sich auf Ihre Anfrage.