Warum die meisten Signifikanzen falsch verstanden werden
Viele Menschen – selbst in der Wissenschaft – setzen statistische Signifikanz mit praktischer Bedeutsamkeit gleich. Ein p-Wert kleiner als 0,05 wird oft als Beweis angesehen, dass „etwas dran ist“. Doch diese Interpretation ist gefährlich verkürzt und führt häufig zu Denkfehlern. Statistische Signifikanz sagt nicht aus, wie wichtig oder groß ein Effekt ist. Sie sagt auch nicht, ob ein Ergebnis „wahr“ ist.
Was bedeutet „statistisch signifikant“ wirklich?
Ein Ergebnis ist statistisch signifikant, wenn die Wahrscheinlichkeit, es unter der Annahme der Nullhypothese zu beobachten (der p-Wert), unter einem vorher festgelegten Schwellenwert liegt – meist 0,05. Das bedeutet: Wenn die Nullhypothese stimmt, wäre ein so extremes Ergebnis wie das beobachtete in weniger als 5 % der Fälle zu erwarten. Es ist also ein Maß für die Kompatibilität der Daten mit der Nullhypothese, nicht für die Richtigkeit einer Alternativhypothese.
Die 3 häufigsten Denkfehler bei der Interpretation
Denkfehler 1: Signifikanz = Wichtigkeit
Ein p-Wert kann auch bei minimalen Effekten signifikant werden, wenn die Stichprobe groß genug ist. Umgekehrt kann ein relevanter Effekt nicht signifikant erscheinen, wenn die Stichprobe klein ist. Signifikanz ≠ Relevanz.
Denkfehler 2: p < 0.05 = Wahrheit
Ein signifikanter p-Wert bedeutet nicht, dass die Alternativhypothese wahr ist. Er sagt nur, dass das beobachtete Ergebnis unter der Nullhypothese ungewöhnlich wäre. Das ist kein Beweis, sondern eine Entscheidungshilfe.
Denkfehler 3: Kein Signifikanz = Kein Effekt
Ein p-Wert größer als 0,05 bedeutet nicht, dass kein Effekt existiert – sondern nur, dass die Daten keinen klaren Hinweis auf einen Effekt liefern. Das kann auch an zu geringer Power liegen.

Was sagt eine Signifikanz über die Realität aus?
Statistische Tests sind Werkzeuge zur Entscheidungsfindung unter Unsicherheit. Der p-Wert wird stark beeinflusst durch die Stichprobengröße, die Effektgröße und die Streuung der Daten. Ein kleiner Effekt kann bei großer Stichprobe signifikant werden – und ein großer Effekt kann bei kleiner Stichprobe nicht signifikant erscheinen. Deshalb sollte immer auch die Effektstärke und ein Konfidenzintervall angegeben werden.
Signifikanz, Effektstärke und praktische Relevanz – ein Beispiel
Stell dir vor, ein Medikament senkt den Blutdruck im Mittel um 1 mmHg. In einer Studie mit 10.000 Personen ergibt sich ein p-Wert von 0,001. Das ist signifikant – aber praktisch irrelevant. Eine Senkung von 1 mmHg hat kaum therapeutischen Wert. Umgekehrt kann eine 5 mmHg-Senkung in einer kleinen Pilotstudie p = 0,07 ergeben – nicht signifikant, aber möglicherweise relevant.
Konfidenzintervall: Die unterschätzte Ergänzung
Während der p-Wert nur aussagt, ob ein Effekt statistisch auffällig ist, zeigt ein Konfidenzintervall, in welchem Bereich der wahre Effekt mit einer bestimmten Wahrscheinlichkeit (z. B. 95 %) liegt. Es ist ein Intervallschätzer, der sowohl Präzision als auch Unsicherheit abbildet. Ein engeres Intervall deutet auf eine genauere Schätzung hin. Wenn das Intervall den Nullwert (z. B. 0 bei Mittelwertsdifferenz oder 1 bei Odds Ratio) nicht enthält, entspricht das in vielen Fällen einem signifikanten Testergebnis. Aber es zeigt eben auch, wie viel Spielraum in der Schätzung liegt.
Glossar: Zentrale Begriffe kurz erklärt
- p-Wert: Die Wahrscheinlichkeit, unter der Nullhypothese ein Ergebnis zu erhalten, das mindestens so extrem ist wie das beobachtete.
- Nullhypothese: Die Standardannahme, dass kein Effekt oder Unterschied besteht.
- Effektstärke: Ein Maß für die praktische Bedeutung eines Effekts, z. B. Cohen’s d, η², r.
- Konfidenzintervall: Der Bereich, in dem der wahre Parameterwert mit hoher Wahrscheinlichkeit liegt.
- Signifikanzniveau (α): Der Schwellenwert (z. B. 0,05), unter dem ein Ergebnis als statistisch auffällig gilt.
Häufige Fragen (FAQ)
Was ist ein p-Wert?
Der p-Wert gibt an, wie wahrscheinlich ein beobachtetes Ergebnis (oder extremer) ist, wenn die Nullhypothese gilt. Er ist kein Maß für die Wahrscheinlichkeit, dass die Hypothese stimmt.
Was ist der Unterschied zwischen Signifikanz und Effektstärke?
Signifikanz sagt aus, ob ein Effekt statistisch auffällig ist. Effektstärke beschreibt, wie groß dieser Effekt ist. Ein Effekt kann signifikant, aber unbedeutend sein – oder umgekehrt.
Wie relevant ist p < 0.05 in der Praxis?
Die Schwelle von 0,05 ist historisch gewachsen, aber willkürlich. Wichtiger ist, ob der Effekt praktisch relevant und replizierbar ist.
Was ist der Unterschied zwischen einem einseitigen und zweiseitigen Test?
Ein zweiseitiger Test prüft auf Unterschiede in beide Richtungen (größer oder kleiner als der Referenzwert), während ein einseitiger Test nur eine Richtung betrachtet. Zweiseitige Tests sind in der Regel konservativer und werden häufiger verwendet, es sei denn, eine klare Richtung ist theoretisch oder praktisch begründet.
Wie hängt die Stichprobengröße mit dem p-Wert zusammen?
Je größer die Stichprobe, desto eher können auch kleine Effekte statistisch signifikant werden. Das bedeutet nicht, dass große Studien automatisch bessere Aussagen liefern – sie erhöhen aber die Power des Tests und reduzieren Zufallseinflüsse.
Sollte man überhaupt noch auf Signifikanz testen?
In der Wissenschaft wird zunehmend diskutiert, ob der Fokus auf p < 0,05 sinnvoll ist. Viele fordern, p-Werte nur im Zusammenspiel mit Effektgrößen, Konfidenzintervallen und Replikationen zu interpretieren. In der Praxis sollte Signifikanzprüfung nicht ersetzt, sondern ergänzt werden.
Wenn du Unterstützung bei der Auswahl des richtigen Tests oder der Interpretation deiner Ergebnisse brauchst, kontaktiere uns gerne. Wir helfen dir, das Beste aus deinen Daten herauszuholen!