Angewandte Statistik

Letzte Aktualisierung: 16.4.2025

Zusammenfassung

Die medizinische Statistik befasst sich mit der Darstellung und Interpretation von Daten, die im Allgemeinen durch wissenschaftliche Studien erhoben wurden. Sie lässt sich in zwei große Bereiche einteilen: die beschreibende und die schließende Statistik. In der beschreibenden Statistik sollen die erhobenen Daten veranschaulicht und zusammengefasst werden. Dies wird durch Verwendung verschiedener Lage- und Streumaße sowie geeigneter Diagramme erreicht. Dafür sind Kenntnisse über das Skalenniveau der betrachteten Variablen notwendig. Die schließende Statistik stellt hingegen das Werkzeug bereit, um einen Schluss von den erhobenen Daten auf die Grundgesamtheit zu ermöglichen, bspw. mit sog. „p-Werten“ und „Konfidenzintervallen“. Korrelations- und Regressionsanalysen werden eingesetzt, um einen möglichen Zusammenhang zwischen zwei Merkmalen zu untersuchen.

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Skalenniveau

Vom Skalenniveau hängt ab, welche mathematischen Operationen und Diagramme bei einem Merkmal möglich bzw. sinnvoll sind. So muss bspw. ein Merkmal wie das Geschlecht anders behandelt werden, als ein Messergebnis wie bspw. der Blutdruck. Häufig wird die Einteilung in Nominal-, Ordinal-, Intervall- und Rationalskalen verwendet, für die praktische Anwendung eignet sich jedoch die Unterteilung in qualitative und quantitative Merkmale.

Qualitative Merkmale

Nominal: Nur Gegenüberstellung von Merkmalsausprägungen, z.B. Blutgruppe
- Sonderform: Binäre Merkmale
  - Nur zwei Ausprägungen möglich
  - Werden immer wie ein nominales Merkmal behandelt, auch wenn eine Rangfolge möglich wäre
Ordinal: Können zusätzlich in einer Rangfolge geordnet werden
- Keine Addition, daher auch keine Mittelwertberechnung
Besonderheit: Keine Rechenoperationen möglich

Quantitative Merkmale

Besonderheit: Können im Gegensatz zu qualitativen Merkmalen addiert werden, was die Berechnung eines Mittelwertes ermöglicht
Klassenbildung: Umwandlung in qualitatives Merkmal möglich
Unterteilung
- Diskret: Nur ganze Zahlen möglich, im Allgemeinen Ergebnisse einer Zählung
- Stetig: Beliebige reelle Zahlen als Werte möglich, im Allgemeinen Ergebnis einer Messung

Qualitative Merkmale bleiben qualitativ, auch wenn sie als Zahlen kodiert werden. Ein qualitatives Merkmal kann nicht in ein quantitatives umgewandelt werden!

Zusammenfassung Skalenniveaus

	Skalenniveau	Beispiel	Eigenschaften	Lagemaße	Streumaße
Qualitativ (kategorial)	Nominal oder binär	AB0-Blutgruppe	Kategorien ohne sinnvolle Ordnung Keine Rangfolge möglich	Häufigkeiten Modalwert	Keine
Qualitativ (kategorial)	Ordinal	Fontaine-Klassifikation der pAVK	Kategorien mit natürlicher Ordnung Rangfolge kann gebildet werden	Häufigkeiten Modalwert Median/Perzentil Kein Mittelwert!	Spannweite Interquartilsabstand
Quantitativ (numerisch)	Diskret	Anzahl der Krankenhausaufenthalte	Ergebnis einer Zählung	Mittelwert Median/Perzentil Modalwert	Spannweite Interquartilsabstand Standardabweichung
Quantitativ (numerisch)	Stetig	Blutdruck in mmHg	Ergebnis einer genauen Messung Beliebige Zwischenwerte möglich	Mittelwert Median/Perzentil Modalwert	Spannweite Interquartilsabstand Standardabweichung

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Beschreibende Statistik

In der beschreibenden (= deskriptiven) Statistik wird die Stichprobe mithilfe von statistischen Maßzahlen (z.B. Mittelwert und Standardabweichung) charakterisiert und durch geeignete Diagramme dargestellt. Je nach Skalenniveau der erfassten Variable muss dabei unterschiedlich vorgegangen werden.

Medizinische Statistik

Beschreibende Statistik bei qualitativen Merkmalen

Bei qualitativen nominalskalierten Merkmalen sind nur die Angabe von Häufigkeiten und dem Modalwert möglich. Bei qualitativen ordinalskalierten Merkmalen kann zwar zusätzlich der Median (oder andere Perzentile) berechnet werden, im Allgemeinen ist dies jedoch nicht sinnvoll .

Beispieldatensatz 1
Nr.	Geschlecht
1	männlich
2	weiblich
3	weiblich

Kennzahlen

Häufigkeiten: Ergebnisse einer Zählung
- Absolute Häufigkeiten: 1 mal männlich, 2 mal weiblich
- Relative Häufigkeiten (z.B. in Prozent)
  - ⅓ ≈ 0,333 = 33,3% männlich
  - ⅔ ≈ 0,666 = 66,6% weiblich
- Anwendung: Sowohl absolute als auch relative Häufigkeiten angeben
  - Im Beispiel: 2 Personen (66,6%) in der Stichprobe waren weiblich
Modalwert: Der häufigste Wert in der Stichprobe

Qualitative Merkmale werden am besten durch Angabe des Modalwertes sowie der absoluten und relativen Häufigkeiten beschrieben.

Diagramme

Kreisdiagramm: Häufigkeiten
- Vorteil: Verhältnisse sehr anschaulich
- Nachteil: Bei vielen verschiedenen Kategorien unübersichtlich
Balkendiagramm: Häufigkeiten
- Vorteil: Viele Kategorien nebeneinander darstellbar
- Nachteil: Verhältnisse weniger anschaulich

Kreisdiagramm Balkendiagramm (Beispiel)

Beschreibende Statistik bei quantitativen Merkmalen

Bei quantitativen Merkmalen ist die Berechnung von Lagemaßen wie den Perzentilen und dem Mittelwert zur Charakterisierung der Stichprobe sinnvoll. Typische Diagramme zur Datendarstellung sind sog. „Boxplots“, „Histogramme“ und „Streudiagramme“.

Beispieldatensatz 2
Nr.	Gewicht
1	69,3 kg
2	50,6 kg
3	180,1 kg

Lagemaße

Definition: Fassen alle Werte eines Merkmals in einer Zahl zusammen und lassen eine Charakterisierung der Stichprobe zu
(Arithmetischer) Mittelwert : Summe aller Einzelwerte geteilt durch die Anzahl der Werte
- 69,3 kg + 50,6 kg + 180,1 kg = 300 kg
- 300 kg / 3 = 100 kg
- → Der Mittelwert beträgt 100 kg
Median (syn. mittlerer Wert, Zentralwert): Teilt den nach Größe sortierten Datensatz in zwei gleich große Hälften
- 50,6kg < 69,3kg < 180,1kg
- → 69,3kg ist der Median
Quantile/Perzentile und Quartile: Geben einen Wert an, den ein bestimmter Anteil der Stichprobe unterschreitet
- Quantil: Angabe als Zahl zwischen 0 und 1
- Perzentil (syn. Prozentrang): Angabe als Prozentsatz
  - Beispiel: Perzentilenkurven in der Pädiatrie
- Quartile: Spezielle Quantile, nämlich der Wert, der von ¼ (1. Quartil), ½ (2. Quartil) und ¾ (3. Quartil) unterschritten wird

Median = 50%-Perzentil = 0,5-Quantil = 2. Quartil! 1. bzw. 3. Quartil = 25%- bzw. 75%-Perzentil = 0,25- bzw. 0,75-Quantil!

Perzentilkurve des Wachstums für Jungen

Streumaße

Grundsätzlich können sehr unterschiedliche quantitative Stichproben den gleichen Median und Mittelwert haben. Um diese Stichproben besser zu charakterisieren, müssen neben den Lagemaßen auch sog. „Streumaße“ angegeben werden .

Definition: Geben an, wie weit die Daten von einem Lagemaß abweichen
Spannweite
- Größter Wert minus kleinster Wert
- Im Beispieldatensatz 2: 180,1 kg − 50,6 kg = 129,5 kg
Interquartilsabstand: 3. Quartil minus 1. Quartil
Standardabweichung: Mittlere Abweichung vom Mittelwert
- Berechnung: Standardabweichung = Wurzel der Varianz, siehe auch: Berechnung der Varianz

Diagramme

Boxplot
- Aufbau: Darstellung von Minimum, Maximum sowie den drei Quartilen
- Anwendung: Ermöglicht schnellen Überblick über ein quantitatives Merkmal
Histogramm
- Aufbau
  - x-Achse: Quantitatives Merkmal in Klassen
  - y-Achse: Anzahl der Personen, die in einer Klasse liegen
  - Klassische Darstellungsform eines normalverteilten Merkmals als „Gaußsche Glockenkurve“
- Anwendung: Detaillierterer Überblick über ein Merkmal, Abschätzung der Verteilung möglich
Streudiagramm
- Aufbau
  - Darstellung von zwei quantitativen Merkmalen
  - x-Achse: Unabhängiges Merkmal
  - y-Achse: Abhängiges Merkmal
- Anwendung: Wenn ein Zusammenhang zwischen zwei gemessenen Merkmalen untersucht wird

Boxplot (Beispiel) Histogramm (Beispiele) Streudiagramm (Beispiel)

Beschreibende Statistik bei Ereigniszeitdaten

Wird bei einer Studie die Zeit untersucht, bis bei einem Patienten ein Ereignis eintritt, fallen sog. „Ereigniszeitdaten“ an , die besondere Analysetechniken erfordern.

Hazard Ratio

Die Hazard Ratio ist ein deskriptives Maß zum Vergleich der Ereigniszeitdaten zweier Gruppen.

Hazard h(t): Rate an unerwünschten Ereignissen im Zeitraum t für eine Gruppe von Patienten
Hazard Ratio: Quotient aus den Hazards zweier Gruppen zum Vergleich der Rate an unerwünschten Ereignissen in beiden Gruppen
- Formel: Hazard Ratio = Hs₂(t) / Hs₁(t)
- Interpretation
  - Hazard Ratio ≈ 1 → Rate an unerwünschten Ereignissen in etwa gleich groß
  - Hazard Ratio <1 → Rate an unerwünschten Ereignissen in Gruppe 2 kleiner als in Gruppe 1
  - Hazard Ratio >1 → Rate an unerwünschten Ereignissen in Gruppe 2 größer als in Gruppe 1

Kaplan-Meier-Analyse

Ereigniszeitdaten werden i.d.R. mit der sog. „Kaplan-Meier-Analyse“ untersucht. Der Grund dafür ist, dass bei einem Teil der Patienten bis zum Studienende kein Ereignis auftritt, bei einem anderen Teil weiß man am Ende nichts über den Status des Patienten . Damit nun dennoch kein verfälschtes Ergebnis herauskommt, müssen diese Fälle mit in das Ergebnis einfließen. Die Art und Weise, wie mit diesen Daten umgegangen wird, bezeichnet man als „Zensierung“.

Kaplan-Meier-Analyse: Gebräuchlichste Methode zur Untersuchung von Ereigniszeitdaten
- Anwendung: Ermittlung von Überlebenszeit (= Überlebenszeitanalyse) oder Krankheitsprogressionszeit in verschiedenen Patientengruppen
- Besonderheit: Zensierung von Studienteilnehmern mit unbekanntem Status
Kaplan-Meier-Diagramm: Darstellung einer Kaplan-Meier-Analyse im typischen treppenförmigen Diagramm
- Aufbau
  - X-Achse: Zeit
  - Y-Achse: Anteil der Patienten ohne Ereignis (bei Überlebenszeitanalysen = lebende Patienten)
  - Zensierung: Senkrechte Striche in den Graphen
- Enthaltene Informationen
  - Mediane Ereigniszeit: Zeit, nach der noch 50% ereignisfrei (z.B. am Leben) sind
  - 5-Jahres-Überlebensrate („5 JÜR“): Wie viel Prozent sind nach 5 Jahren noch ereignisfrei?
Anwendung: Vergleich der ereignisfreien Zeit unter verschiedenen Therapien oder Risikofaktoren

Kaplan-Meier-Diagramm (Beispiel)

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Schließende Statistik

In der schließenden (syn. induktiven) Statistik wird versucht, von der Stichprobe auf die Grundgesamtheit zu schließen. Die schließende Statistik kann in zwei Bereiche unterteilt werden: Schätzen und Testen.

Medizinische Statistik

Statistisches Schätzen

Beim Schätzen möchte man aus erhobenen Stichprobenwerten den unbekannten wahren Wert in der Grundgesamtheit ableiten. Wichtig ist hier eine Trennung von Maßzahlen, die in der Stichprobe gelten und dem Schätzwert, für den man annimmt(!), dass er in der Grundgesamtheit gelten könnte.

Punktschätzer
- Definition: Eine statistische Maßzahl, die in der Stichprobe berechnet wird und als Schätzwert für die Grundgesamtheit dient
- Annahme: Stichprobe ist repräsentativ für die Grundgesamtheit
- Interpretation: Der berechnete Schätzer ist ungefähr mit der entsprechenden Maßzahl der Grundgesamtheit identisch
Intervallschätzer: Erweiterung des Punktschätzers um einen Bereich, in dem der wahre Wert der Grundgesamtheit mit hoher Wahrscheinlichkeit liegt
- Definition: Intervall, das um den Punktschätzer herum liegt
- Übliches Intervall: 95%-Konfidenzintervall
- Interpretation des 95%-Konfidenzintervalls: In 95% der Fälle enthält das berechnete 95%-Konfidenzintervall den wahren Wert aus der Grundgesamtheit, der mit dem Punktschätzer geschätzt wird
  - Absolute Risikoreduktion oder Effektstärke
    - Signifikantes Ergebnis: 0 ist nicht im Konfidenzintervall enthalten
    - Beispiel: Durch den Verzicht auf ein Genussmittel reduziert sich das absolute Risiko, eine bestimmte Erkrankung zu bekommen, um 20%, mit einem Konfidenzintervall von 15% bis 25%. Da 0% nicht im Konfidenzintervall liegt, ist die absolute Risikoreduktion signifikant.
  - Relatives Risiko, Hazard Ratio oder Odds Ratio
    - Signifikantes Ergebnis: 1 ist nicht im Konfidenzintervall enthalten
    - Beispiel: Im Vergleich von Konsumenten eines Genussmittels zu denjenigen, die darauf verzichten, liegt das relative Risiko, eine bestimmte Erkrankung zu bekommen, bei 1,7, mit einem Konfidenzintervall von 1,6 bis 1,8. Da die 1 nicht im Konfidenzintervall liegt, ist der Unterschied zwischen beiden Gruppen signifikant.
  - (Mehrere) Intervallschätzer für ein quantitatives Merkmal in unterschiedlichen Gruppen
    - Signifikantes Ergebnis: Keine Überschneidung der für die Gruppen berechneten Konfidenzintervalle
    - Beispiel: Das mediane Gesamtüberleben bei einer bestimmten Erkrankung beträgt unter Therapie A 5 Jahre, mit einem Konfidenzintervall von 4 bis 6 Jahren. Unter Therapie B beträgt es 7 Jahre, mit einem Konfidenzintervall von 5 bis 9 Jahren. Da sich beide Intervalle überlappen, ist der Unterschied zwischen den Therapiegruppen nicht signifikant.

An Konfidenzintervallen kann man die Unsicherheit des Schätzwertes sehen: Je größer eine Stichprobe ist, desto kleiner wird das Konfidenzintervall und damit die Unsicherheit!

Statistisches Testen

Beim statistischen Testen geht es um den Vergleich von Hypothesen. Beispielsweise könnte man durch statistisches Schätzen zwei unterschiedliche Schätzwerte für ein Merkmal in zwei Personengruppen erhalten haben und möchte nun wissen, ob es einen tatsächlichen Unterschied gibt (= Alternativhypothese) oder ob die Differenz der Schätzwerte eher nur auf Zufall (= Nullhypothese) beruht. Dazu berechnet man einen p-Wert, der eine Einschätzung erlaubt, wie wahrscheinlich ein rein zufälliges Ergebnis ist.

Hypothese	Aussage	Beispiel
Nullhypothese „H0“	Kein Effekt (= „Nulleffekt“) in der Grundgesamtheit	Medikament wirkt nicht
Alternativhypothese „H1“	Effekt in der Grundgesamtheit vorhanden	Medikament wirkt

Grundüberlegung
- Vor Studienbeginn sollten die zu untersuchenden Hypothesen formuliert werden
- Vergleich von einer Nullhypothese (H0) mit einer Alternativhypothese (H1)
Beispiele für mögliche Nulleffekte
- H0₁: Mittelwerte in der Grundgesamtheit unterscheiden sich nicht
- H0₂: Korrelationskoeffizient in der Grundgesamtheit ist 0
- H0₃: Relatives Risiko in der Grundgesamtheit ist 1
- H0₄: Odds Ratio in der Grundgesamtheit ist 1
Ziel: Alternativhypothese belegen
Durchführung: Berechnung des p-Wertes durch einen statistischen Test zum Beibehalten der Nullhypothese oder Annehmen der Alternativhypothese (= Widerlegen der Nullhypothese)

Auditor: Statistik Teil 9 - Nullhypothese

Fehlerquellen

Beim Schluss von einer Stichprobe auf die Grundgesamtheit besteht immer eine gewisse Unsicherheit. Man unterscheidet den α-Fehler vom β-Fehler.

α-Fehler (syn. Fehler 1. Art): Ungerechtfertigtes Annehmen der Alternativhypothese H1
β-Fehler (syn. Fehler 2. Art): Ungerechtfertigtes Beibehalten der Nullhypothese H0

		Grundgesamtheit
		H0 stimmt	H1 stimmt
Stichprobe	H0 beibehalten (=H1 abgelehnt)	✓	β-Fehler
Stichprobe	H1 angenommen	α-Fehler	✓

Im Allgemeinen gelten α-Fehler, also das ungerechtfertigte Annehmen einer Alternativhypothese, als schwerwiegender. Durch das Festlegen eines niedrigen Signifikanzniveaus versucht man, α-Fehler unwahrscheinlich zu machen.

Alpha ist der 1. Buchstabe → α-Fehler = Fehler 1. Art = ungerechtfertigtes Annehmen von H1

Auditor: Statistik Teil 10 - α-Fehler und β-Fehler

Der p-Wert

Der p-Wert ist Ergebnis eines statistischen Tests. Er erlaubt eine Einschätzung, wie sicher ein Unterschied in der Stichprobe auf einem „echten“ Unterschied in der Grundgesamtheit beruht bzw. ob dieser nur zufällig in der Stichprobe aufgetreten ist. Ein niedriger p-Wert spricht dabei für einen echten Unterschied, also für eine niedrige Wahrscheinlichkeit eines α-Fehlers.

Definition
- Vereinfacht: Wahrscheinlichkeit, dass ein Effekt in der Stichprobe nur durch Zufall zustande gekommen ist
- Exakt: Wahrscheinlichkeit, dass der beobachtete Effekt oder ein noch extremerer Effekt in der Stichprobe beobachtet werden konnte, obwohl in der Grundgesamtheit kein Effekt vorhanden ist
Statistische Signifikanz
- Signifikanzniveau: Vor Studienbeginn sollte festgelegt werden, wie wahrscheinlich ein α-Fehler maximal sein darf
  - Häufig: 0,05 (= 5%)
- Signifikantes Ergebnis: p-Wert ist kleiner als das Signifikanzniveau
- Einfluss des Signifikanzniveaus
  - Positiver Aspekt: Je niedriger das Signifikanzniveau, desto unwahrscheinlicher ein α-Fehler
  - Negativer Aspekt: Je niedriger das Signifikanzniveau, desto unwahrscheinlicher ein signifikantes Ergebnis, desto aufwendiger die Studie und desto wahrscheinlicher ein β-Fehler
Praktische Anwendung: Ein statistisch signifikantes Ergebnis darf von der Stichprobe auf die Grundgesamtheit übertragen werden
Einfluss der Stichprobengröße
- Positiver Aspekt: Große Stichproben führen eher zu niedrigen p-Werten und somit zu einem signifikanten Ergebnis
- Kritischer Aspekt: Bei sehr großen Stichproben können schon minimale Unterschiede zwischen zwei Gruppen zu p-Werten <0,05 führen und statistisch signifikant sein

Nur weil ein Ergebnis statistisch signifikant ist, bedeutet es nicht gleichzeitig, dass es klinisch relevant ist! Die Relevanz lässt sich nicht statistisch testen, sondern muss von einem Sachkundigen eingeschätzt werden!

Ein nicht-signifikanter p-Wert bedeutet, dass man die Nullhypothese nicht ablehnen darf. Er beweist aber die Nullhypothese nicht, sondern kann auch durch eine zu kleine Fallzahl entstehen.

Auditor: Statistik Teil 11 - p-Wert

Power und Stichprobenumfang

Teststärke (Power)
- Entspricht der Wahrscheinlichkeit, dass ein Test einen tatsächlich vorhandenen Unterschied auf einem vorgegebenen Signifikanzniveau auch nachweist
- Wird größer durch
  - Größere Stichprobe
  - Höheres Signifikanzniveau
Stichprobenumfang (Fallzahlberechnung)
- Vor der Durchführung klinischer Studien wird mittels einer sog. Fallzahlberechnung geschätzt, wie groß die Stichprobe mind. sein sollte, um mit ausreichender Wahrscheinlichkeit ein signifikantes Ergebnis zu erzielen
- Zur Berechnung der Fallzahl werden i.d.R. das α-Fehler-Risiko auf 5% und die Power auf 80% festgesetzt. Darüber hinaus wird eine Schätzung der Größe des erwarteten Unterschieds zwischen Ereignisrate in der Behandlungsgruppe und Ereignisrate in der Kontrollgruppe benötigt (Effektstärke). Diese Schätzung bezieht sich auf den a priori definierten primären(!) Endpunkt der Studie

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Zusammenhang von zwei Merkmalen (Korrelation und Regression)

Bei der Korrelation geht es darum, die Stärke eines eventuell vorhandenen Zusammenhangs zu beschreiben . Die Regression ist eine mögliche weiterführende Analyse zur Korrelation, mit der genauer beschrieben werden soll, wie sich die Zielgröße verändert.

Einführung

Korrelation: Angabe eines Korrelationskoeffizienten, häufig r
- Ziel: Beschreibung der Stärke eines Zusammenhangs
- Frage: „Inwieweit gehen Veränderungen des einen Merkmals mit Veränderungen des anderen Merkmals einher?“
Regression
- Häufig weiterführende Analyse nach der Korrelation
- Eines der Merkmale wird als „Zielgröße“ und eines als „Einflussgröße“ festgelegt
- Ziel: Beschreibung, wie die Zielgröße von der Einflussgröße beeinflusst wird
- Frage: „Wie verändert sich y, wenn sich x um eins erhöht?“

Lineare Korrelation

Bei einer linearen Korrelation wird die Stärke eines linearen Zusammenhangs zwischen zwei Größen beschrieben. Es gibt auch nicht-lineare Korrelationsanalysen – diese sind jedoch deutlich spezieller und werden hier nicht behandelt.

Korrelationskoeffizient: Oft mit dem kleinen Buchstaben r beschrieben
Mögliche Werte: Zwischen -1 und 1
Interpretation
- r nahe 0 → i.d.R. kein linearer Zusammenhang
- r nahe 1 oder -1 → sehr starker positiver/negativer Zusammenhang
- r zwischen 0 und 1 → „gleichsinniger Zusammenhang“
- r zwischen -1 und 0 → „gegensinniger Zusammenhang“

Korrelation ist ungleich Kausalität! Korrelationen können durch (möglicherweise unbekannte) Störvariablen („Confounder“) verursacht werden.

Ein Korrelationskoeffizient r ≈ 0 schließt nur eine lineare Korrelation aus. Es kann trotzdem ein nicht-linearer Zusammenhang bestehen!

Beispiel Scheinkorrelation

Ein häufiges Beispiel für eine Scheinkorrelation ist die folgende fiktive Forschungsfrage: Bringen Störche die Babys?

Storchenstudie: Erhebung an 10 Orten
- Anzahl der Geburten
- Häufigkeit der Störche
Ergebnis: Hohe Korrelation zwischen Störchen und Geburten
Kausale (falsche) Interpretation: Störche bringen die Babys
Auflösung der „Scheinkorrelation“
- Auf dem Land werden mehr Babys geboren
- Auf dem Land gibt es mehr Störche
- Nachdem man Stadt und Land getrennt betrachtet, gibt es keine hohe Korrelation mehr.
- Stadt/Land war in diesem Fall eine Störvariable („Confounder“)

Lineare Regression

Die lineare Regression ist eine Form der Regression, bei der man sich auf lineare Zusammenhänge beschränkt. Grundsätzlich sind auch nicht-lineare Regressionen möglich und unter bestimmten Umständen sinnvoll, in der Medizin stellt die lineare Regression aber die wichtigste Technik dar.

Ziel: Zusammenhang zwischen Einfluss- und Zielgröße (Werte der x- bzw. y-Achse) ermitteln.
Durchführung
- Erstellen einer Linie im Streudiagramm (= Regressionsgerade), die alle Punkte des Diagramms am besten zusammenfasst
- Regressionsgerade: y = a + b × x (a ist der Schnittpunkt mit der y-Achse, b ist hier die Steigung, x ist die Einflussgröße oder „unabhängige Variable“, y ist die Zielgröße oder „abhängige Variable“)
Interpretation: Steigung (b) lässt Rückschluss auf Zusammenhang zwischen Parametern zu
Beispiel
- Regressionsgerade: Körpergewicht in kg = –113,2 + 1,1 × Körpergröße in cm
- Erklärung der Variablen
  - y: Körpergewicht in kg
  - x: Körpergröße in cm
  - b: 1,1
  - a: −113,2
- Interpretation: Wenn die Körpergröße 1 cm höher ist, dann ist das Körpergewicht 1,1 kg schwerer.

Korrelationskoeffizient (Beispiele) Lineare Regression (Beispiel)

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Probiere die Testversion aus und erhalte 30 Tage lang unbegrenzten Zugang zu über 1.400 Kapiteln und +17.000 IMPP-Fragen.

Kostenfrei testen

Evidenzbasierte Inhalte, von festem ärztlichem Redaktionsteam erstellt & geprüft. Disclaimer aufrufen.