Zusammenfassung
Die evidenzbasierte Medizin hat den Anspruch, nach objektiven Kriterien und aktuellem Wissensstand die beste Behandlung umzusetzen. Grundlage dafür sind Daten, die in Studien erhoben wurden. Die medizinische Statistik beschäftigt sich nun damit, wie man diese Daten auswertet, darstellt und die richtigen Schlüsse aus ihnen zieht. In diesem Kapitel wird erläutert, wie man die verschiedenen Größen eines Experiments in Form von Variablen formalisiert, wie man die Verteilung der Daten über Lage- und Streumaße charakterisieren kann und mit welchen Parametern das Ergebnis schließlich beschrieben wird.
Ein verwandtes Gebiet ist die Testtheorie: Hier wird untersucht, wie man die Ergebnisse eines diagnostischen Tests interpretiert. Dazu werden die wichtigen Begriffe Sensitivität, Spezifität und prädiktiver Wert eingeführt, die nicht nur für die Forschung, sondern auch für die Deutung von Ergebnissen in der Klinik von außerordentlicher Relevanz sind.
Du möchtest diesen Artikel lieber hören als lesen? Wir haben ihn für dich im Rahmen unserer AMBOSS-Audio-Reihe vertont. Den Link findest du am Kapitelende in der Sektion “Tipps & Links".
Grundbegriffe und deskriptive Statistik
Während physikalische Größen durch einen geeigneten Versuchsaufbau direkt messbar sind, lassen sich theoretische Konstrukte wie Intelligenz nicht unmittelbar quantifizieren. Um solche Merkmale zu erfassen, bedient man sich empirisch beobachtbarer Größen, die Indikatoren genannt werden. Diese Übersetzung eines Untersuchungsgegenstands in messbare Variablen wird Operationalisierung genannt und ist oft der wichtigste und schwierigste Teil einer Studie.
Die deskriptive (beschreibende) Statistik umfasst die statistischen Verfahren zur Charakterisierung der Stichprobe mithilfe statischer Maßzahlen (z.B. Mittelwert und Standardabweichung) und Darstellung durch geeignete Diagramme sowie Tabellen. In der induktiven (schließenden) Statistik dagegen wird überprüft, ob sich eine Stichprobe auf die Grundgesamtheit übertragen lässt. Sie bedient sich v.a. der Wahrscheinlichkeitsrechnung. Insgesamt können statistische Analysen univariat, bivariat oder multivariat sein, je nachdem, ob eine Variable alleine oder der Zusammenhang zwischen zwei oder mehreren Variablen analysiert wird.
Beobachten und Messen von Konstrukten
- Latentes Konstrukt (= latentes Merkmal): Ein nicht direkt beobachtbares und messbares theoretisches Konzept wie Gesundheit, Intelligenz, Lebensqualität oder Depression, das nur durch Indikatoren gemessen werden kann
- Operationalisierung: Bezeichnet die Vorgehensweise zur Messung sowie die verwendeten Messinstrumente, die zur Messung eines theoretischen Konstrukts eingesetzt werden
Variablen
Im Rahmen von Studien werden Variablen beobachtet und gemessen. Den Rahmen bildet dabei die unabhängige Variable, anhand der man die abhängige Variable erklären möchte; daher kann man die unabhängige auch als erklärende und die abhängige als erklärte Variable bezeichnen. Darüber hinaus unterscheidet man Drittvariablen, die das Ergebnis der Studie beeinflussen können.
- Unabhängige Variable (= erklärende Variable): Stellgröße, die in einem Experiment vom Versuchsleiter gezielt variiert wird, um die Auswirkungen auf die abhängige Variable zu beobachten
- Abhängige Variable (= erklärte Variable): Variable, deren – durch Variation der unabhängigen Variablen – herbeigeführte Veränderung beobachtet wird
- Störvariable (= confounder): In der Studie nicht berücksichtigte Variable, die jedoch das Ergebnis beeinflussen kann
- Mediatorvariable: Steht als Bindeglied zwischen unabhängiger und abhängiger Variable
- Moderatorvariable: Beeinflusst den Effekt der unabhängigen Variable und somit das Ergebnis
- Risikoindikator: Variablen, die auf eine Erkrankung hinweisen. Sie werden in der Epidemiologie rein deskriptiv festgestellt und zeigen anders als Risikofaktoren keinen kausalen Zusammenhang
- Interaktionseffekt: Effekt auf die abhängige Variable, der durch die Wechselwirkung von zwei oder mehr unabhängigen Variablen erzeugt werden kann
Skalierung
Grundsätzlich kann man alle Größen in Variablen zusammenfassen. Für das Rechnen und die statistische Auswertung macht es aber natürlich einen Unterschied, ob die Variablen Zahlen enthalten (wie Körpergröße) oder Kategorien („Augenfarbe“). Genauer kann man diese Unterschiede über die sog. Skalenniveaus beschreiben: Skalenniveaus geben Auskunft darüber, welche Operationen mit einer Variable möglich sind – je höher das Skalenniveau ist, desto mehr Rechenoperationen sind möglich. Höhere Skalenniveaus ermöglichen dabei immer auch alle Operationen der niedrigeren. Üblicherweise werden vier Skalenniveaus unterschieden.
Skalenniveau
Das Skalenniveau einer Variablen gibt die Art ihres möglichen Inhalts sowie die mit ihr durchführbaren Rechenoperationen an. Es besteht eine hierarchische Anordnung (aufgelistet von niedrig nach hoch)
- Nominalskala
- Rein qualitative Skala („Kategorien“)
- Nur Häufigkeitsbestimmung möglich, keine weiteren Rechenoperationen
- Beispiele: Augenfarbe, Lieblingstier, Geschlecht, Herkunftsland
- Ordinalskala („Ordnung“)
- Die verschiedenen Merkmale der Variable lassen sich in eine sinnvolle Reihenfolge bringen, ohne dass der Abstand zwischen den Rängen in Zahlen ausgedrückt wird
- Zusätzlich zur Häufigkeitsbestimmung lässt sich auch größer und kleiner definieren
- Beispiele: Art des Schulabschlusses, Schulnoten, Platzierung im Autorennen, Tumorstadien I–IV
- Intervallskala
- Variable nimmt einen Zahlenwert an
- Zusätzlich zu Häufigkeitsbestimmung und Ordnung lässt sich hier auch ein Abstand (= Intervall) als Wert ausdrücken
- Beispiele: Intelligenz, Jahreszahl, Temperatur in °C
- Verhältnisskala (Ratioskala, Rationalskala, Proportionalskala)
- Höchstes Skalenniveau
- Variable nimmt auch hier einen Zahlenwert an
- Alle Grundrechenoperationen möglich, also im Gegensatz zur Intervallskala auch noch Multiplikation und Division
- Beinhaltet einen natürlichen Nullpunkt: Die 0 muss also ein möglicher Wert der Variable sein und muss auch im Bezug auf die beschriebene Größe Sinn ergeben
- Beispiele: Körpergewicht oder -größe, Blutzuckerspiegel, Zeitdauer, Entfernung, Einkommen
Die Reihenfolge vom niedrigsten zum höchsten Skalenniveau kann man sich gut mithilfe des französischen Wortes „noir“ (= schwarz) merken: Nominal-, Ordinal-, Intervall- und Rationalskala.
Lagemaße
Lagemaße sind einfache Parameter, die Auskunft über die gemessenen Werte einer Variablen geben. Das bekannteste Lagemaß im Alltag ist wahrscheinlich der Durchschnittswert. Je nach Skalenniveau können aber nur bestimmte Lagemaße berechnet werden . Die Lagemaße Modalwert, Median und Mittelwert werden zusammenfassend auch als Maße der zentralen Tendenz bezeichnet.
Modalwert (= Modus)
Als Modalwert wird der häufigste Wert einer Verteilung bezeichnet.
- Definition: Häufigster Wert einer Verteilung
- Kann bei jedem Skalenniveau bestimmt werden
- Vorteil: Unempfindlich gegen Extremwerte
- Nachteile
- Gibt keine Informationen über andere Merkmalsausprägungen
- Bei mehrgipfligen Häufigkeitsverteilungen ist er kaum zu verwerten
Quantile (Prozentränge, Perzentilen)
Ein Quantil bezeichnet einen Wert, der eine Menge in zwei Gruppen teilt: Ein Anteil der Menge ist kleiner als der definierte Wert, der Rest größer. Häufig werden spezielle Quantile wie der Median und die Quartile verwendet. Prinzipiell kann man aber zu jeder Zahl zwischen 0 und 100% ein Quantil betrachten; diese allgemeinen Quantile bezeichnet man dann als Perzentile oder Prozentränge.
- Benötigt mindestens ordinalskalierte Variablen (für Ordinal-, Intervall- und Verhältnisskala anwendbar)
- Wichtige Quantile sind
- Median (= ½-Quantil, 50%-Perzentil, Prozentrang 50)
- Einzelwert, der genau an der mittleren Stelle aller Werte liegt, nachdem sie nach Größe sortiert wurden
- Besonders geeignet für nicht-normalverteilte Werte
- Über und unter ihm liegen jeweils 50% der anderen Werte
- Quartil
- ¼-Quantil (= unteres Quartil, 25%-Perzentil, Prozentrang 25): 25% aller Werte sind kleiner als dieser Wert
- ¾-Quantil (= oberes Quartil, 75%-Perzentil, Prozentrang 75): 75% aller Werte sind kleiner als dieser Wert
- Perzentile (= Prozentränge)
- Kann beliebige Werte zwischen 0 und 100 annehmen
- x%-Perzentil bedeutet: x% der Werte liegen unter diesem Wert, alle anderen (also 100%–x%) darüber
- Beispiele
- 3%-Perzentil (= Prozentrang 3): 3% aller Werte sind kleiner als dieser Wert
- Normalverteilungen: Hier ist ein Prozentrang von 97,5 gleichbedeutend damit, dass der Wert zwei Standardabweichungen über dem Mittelwert liegt (siehe auch: Gaußverteilung)
- Median (= ½-Quantil, 50%-Perzentil, Prozentrang 50)
(Arithmetischer) Mittelwert
Mittelwerte sind bestimmte Durchschnittswerte, die aus einer Verteilung berechnet werden. In der medizinischen Statistik kommt hauptsächlich der arithmetische Mittelwert zur Anwendung.
- Durchschnittswert, der sich ergibt, wenn alle Einzelwerte addiert werden und durch die Anzahl der Einzelwerte geteilt werden
- Benötigt mindestens intervallskalierte Variablen (für Intervall- und Verhältnisskala anwendbar)
- Vorteil: Nutzt alle Informationen der Verteilung
- Nachteil: Empfindlich gegenüber Extremwerten
- Beispiel
- 2 + 4 + 5 + 6 + 33 = 50
- 50 / 5 = 10
- Der Mittelwert ist 10
- Beispiel
Auf das Skalenniveau bezogen ist für eine Ordinalskala der Median zur Beschreibung der zentralen Tendenz am besten geeignet. Für die Nominalskala ist es der Modalwert, für die Intervall- und Verhältnisskala der arithmetische Mittelwert.
Beispiel Lagemaße
Wir erfragen das Alter aller 24 Teilnehmer eines Kurses und erhalten folgende Verteilung
Alter | 20 | 21 | 22 | 24 | 25 | 50 |
---|---|---|---|---|---|---|
Häufigkeit | 1 | 8 | 6 | 5 | 3 | 1 |
Nun bestimmen wir die oben eingeführten Lagemaße.
- Skalenniveau: Verhältnisskala
- Sinnvolle Ordnung
- Abstände messbar
- Verhältnisse bestimmbar
- Natürlicher Nullpunkt vorhanden
- Modus: 21
- 21 ist das häufigste Alter
- Median: 22
- Bei 24 Teilnehmern liegt die Mitte zwischen dem 12. und 13. Teilnehmer, beide sind 22 Jahre alt; 22 teilt das Feld also in zwei gleich große Hälften
- Ungerade Anzahl an Messwerten: Median entspricht dem in der Mitte befindlichen Wert
- Gerade Anzahl an Messwerten: Median entspricht dem Mittelwert von den beiden Werten, die neben der Mitte liegen
- Bei 24 Teilnehmern liegt die Mitte zwischen dem 12. und 13. Teilnehmer, beide sind 22 Jahre alt; 22 teilt das Feld also in zwei gleich große Hälften
- Quartile: X25 = 21 und X75 = 24
- 25% sind nicht älter als 21 und 75% sind nicht älter als 24
- Mittelwert: 23,5
- (1×20 + 8×21 + 6×22 + 5×24 + 3×25 + 1×50) / 24 ≈ 23,5
Man sieht, dass sich die Werte der Lagemaße etwas unterscheiden. Das liegt daran, dass sie unterschiedlich sensibel auf Ausreißer reagieren. An dem hohen Mittelwert von ca. 23,5 ist hauptsächlich der eine 50-Jährige „schuld“. Es folgt auch, dass Lagemaße alleine nicht zur Charakterisierung einer Verteilung ausreichen – entscheidend ist auch, wie eng die Werte um die Mitte verteilt sind.
Streuungsmaße (= Maße der Variabilität)
Oft reichen die Lagemaße zur Charakterisierung eines Datensatzes nicht aus. Man bedient sich verschiedener Streuungsparameter als Maß dafür, wie sehr die Werte um den Mittelwert schwanken. Die üblichsten Streuungsmaße sind
- Spannweite: Der Abstand Xmax - Xmin zwischen Maximum und Minimum ist nur ein sehr grobes Maß für die Streuung und sehr empfindlich gegenüber Ausreißern
- Quartilsabstand: Der Abstand zwischen dem 75%-Quartil X75 und dem 25%-Quartil X25 berücksichtigt die "Ränder" nicht und ist so weniger anfällig für Ausreißer
- Varianz: Die Varianz berechnet sich aus der Summe der quadrierten Abweichungen vom Mittelwert (M), geteilt durch die Anzahl der Werte (N bzw. n-1)
- Allgemeine Formel der Varianz:
- Varianz = [(M - X1)2 + (M - X2)2 + … + (M - XN)2] / N
- N = Gesamtanzahl der Grundgesamtheit
- Für Stichproben gilt:
- Varianz (Stichprobe) = [(M - X1)2 + (M - X2)2 + … + (M - Xn)2] / (n-1)
- n = Gesamtzahl der Stichprobe
- Warum wird quadriert?
- Durch die Quadrierung werden große Abweichungen stärker gewichtet als kleine, zudem heben sich positive und negative Abweichungen so nicht gegenseitig auf
- Problem der Quadrierung
- Die Einheit der Variablen wird mitquadriert – dadurch ist die Varianz schwer verwertbar
- Lösung: Berechnung der Standardabweichung
- Allgemeine Formel der Varianz:
- Standardabweichung (SD): Zieht man die Wurzel aus der Varianz, erhält man die Standardabweichung. Sie ist ein Maß dafür, wie weit die Einzelwerte durchschnittlich vom Mittelwert entfernt liegen.
Beispiel Streuungsmaße
Wir betrachten wieder die Altersverteilung des Kurses (siehe oben) und bestimmen jetzt zusätzlich die Streumaße.
Alter | 20 | 21 | 22 | 24 | 25 | 50 |
---|---|---|---|---|---|---|
Häufigkeit | 1 | 8 | 6 | 5 | 3 | 1 |
- Spannweite: 30
- Höchster Wert (50) - niedrigster Wert (20) = 30
- Quartilsabstand: 3
- X75(24) - X25(21) = 3
- Varianz: ≈ 33
- ((23.5416666667 - 20)2 + 8×(23.5416666667 - 21)2 + 6×(23.5416666667 - 22)2 + 5×(23.5416666667 - 24)2 + 3×(23.5416666667 - 25)2 + (23.5416666667 - 50)2) / 24 ≈ 33
- Standardabweichung: 5,7
- √33 ≈ 5,7
Die hohe Standardabweichung von 5,7 sowie die sehr große Spannweite von 30 zeigen, dass die Werte deutlich schwanken. Am Quartilsabstand von 3 ist zu sehen, dass das wahrscheinlich an einzelnen Ausreißern (dem 50-Jährigen!) liegt; die mittleren 50% liegen recht dicht beieinander.
Tests und Testgütekriterien
In der psychologischen und medizinischen Diagnostik werden Tests angewandt, die z.B. in Form eines Fragebogens auftreten. Sie ermöglichen quantitative Aussagen über Konstrukte, also über Merkmale, die nicht direkt gemessen werden können. Die Entwicklung eines solchen Tests beruht auf der Auswahl sog. Items (Testaufgaben), die anhand von Gütekriterien auf ihre Qualität hin überprüft werden.
Psychologischer Test
- Dient der quantitativen Erfassung psychischer Merkmale
- Besteht aus einer bestimmten Anzahl an Items (= Testaufgaben)
- Kriterien der Itemselektion
- Schwierigkeitsindex: Lösungswahrscheinlichkeit eines Items
- Trennschärfekoeffizient: Aussagekraft eines Items über das Gesamtergebnis
- Kriterien der Itemselektion
Gütekriterien
Objektivität
- Definition: Maß für die Unabhängigkeit der Testergebnisse von Studienleiter, Versuchsleiter bzw. Untersucher
- Kriterien für hohe Objektivität
- Standardisierter Test
- Stets gleiche Testergebnisse auch bei Auswertung/Durchführung/Interpretation durch verschiedene Personen
Reliabilität (Zuverlässigkeit)
- Definition: Maß für die Reproduzierbarkeit von Testergebnissen unter gleichen Bedingungen
- Kann als Wert zwischen 0 und 1 angegeben werden
- Entspricht die Varianz der Messwerte ausschließlich der Varianz der wahren Werte, ist der Wert 1
- Beruht die Varianz der Messwerte vollständig auf Messfehlern, ist der Wert 0
- Je näher die Reliabilität also an 1 ist, desto verwertbarer ist das Ergebnis
- Methoden zur Abschätzung der Reliabilität
- Paralleltestreliabilität: Man vergleicht den vorliegenden Test mit einem ähnlichen (parallelen) Testverfahren
- Wenn beide Testverfahren zu ähnlichen Ergebnissen kommen, besteht ein hoher Korrelationskoeffizient und somit eine hohe Paralleltestreliabilität
- Retest-Reliabilität: Ein Test wird zweimal mit der gleichen Versuchsperson durchgeführt und anschließend werden die Ergebnisse verglichen
- Man kann die Retest-Reliabilität als Korrelationskoeffizient r zwischen den beiden Messungen ausdrücken
- Werte von r > 0,8 sprechen für eine gute Reliabilität, diese Anforderung schwankt aber sehr je nach Art des betrachteten Tests
- Interrater-Reliabilität: Kommen verschiedene Rater (Beobachter) unter Benutzung desselben Untersuchungsinstruments zu den selben oder ähnlichen Ergebnissen, liegt eine hohe Interrater-Reliabilität vor
- Diese Unterform der Reliabilität steht deshalb für Objektivität, weil die Testergebnisse kaum vom Nutzer des Testinstruments beeinflusst werden können
- Interne Konsistenz: Gibt an, wie sehr die verschiedenen Items (= Testaufgaben) einer Untersuchung miteinander in Beziehung stehen
- Wird mit dem Kennwert Cronbachs α bestimmt
- Je höher die interne Konsistenz (bzw. Cronbachs α), desto höher ist die Reliabilität der Untersuchung
- Paralleltestreliabilität: Man vergleicht den vorliegenden Test mit einem ähnlichen (parallelen) Testverfahren
Validität
- Definition: Maß für die Belastbarkeit einer bestimmten Aussage
- Validität von Studien: Man unterscheidet zwischen
- Interner Validität: Werden die beobachteten Veränderungen der abhängigen Variable (Krankheit) tatsächlich von der unabhängigen Variable (Exposition, Risikofaktor) verursacht (und nicht durch Störgrößen oder Zufall)? Inwieweit lässt sich also ein kausaler Zusammenhang aus dem Studienergebnis ableiten?
- Eine hohe interne Validität wird u.a. erreicht durch
- Externer Validität: Lassen sich die Studienergebnisse von der kleinen Studienpopulation auf größere Teile der Bevölkerung übertragen, für die diese Studie auch gelten soll? Ist diese Studie also repräsentativ?
- Hohe externe Validität zeichnet sich bspw. aus durch:
- Hohe Korrelation der Messwerte eines neuen Testverfahrens mit einem bereits bewährten Testverfahren
- Studienergebnisse lassen sich in einer zweiten separaten Studie mit anderen Studienteilnehmern reproduzieren
- Hohe interne Validität
- Hohe externe Validität zeichnet sich bspw. aus durch:
- Prädiktiver Validität: Lassen sich basierend auf den Testergebnissen Aussagen über die Zukunft ableiten?
- Konvergenter Validität: Korrelieren Tests für zusammenhängende Konstrukte auch miteinander?
- Diskriminanter Validität: Bildet das Gegenstück zur konvergenten Validität: Tests für Konstrukte, die nicht zusammenhängen, sollten auch nicht korrelieren
- Inhaltsvalidität: Erfasst ein Test alle relevanten Aspekte eines Konstrukts?
- Änderungssensitivität: Erfasst ein Test Veränderungen eines Konstrukts im Verlauf bspw. einer Erkrankung oder Therapie (longitudinaler Aspekt der Validität)?
- Interner Validität: Werden die beobachteten Veränderungen der abhängigen Variable (Krankheit) tatsächlich von der unabhängigen Variable (Exposition, Risikofaktor) verursacht (und nicht durch Störgrößen oder Zufall)? Inwieweit lässt sich also ein kausaler Zusammenhang aus dem Studienergebnis ableiten?
Die Hierarchie der Gütekriterien: Die Objektivität eines Tests ist Voraussetzung für die Reliabilität. Die Reliabilität ist Voraussetzung für die Validität!
Normierung
- Definition: Eichung des Tests
- Ziel: Bessere Einordnung der Ergebnisse
- Durchführung: Testung einer repräsentativen Stichprobe
Vierfeldertafel
Bei einem Test sind grundsätzlich vier Ergebnisse zu unterscheiden: Die positiv getesteten Personen lassen sich weiter in richtig-positiv und falsch-positiv unterteilen, die negativ getesteten analog in richtig-negativ und falsch-negativ. Ordnet man diese in einer Tabelle an, erhält man die sog. Vierfeldertafel, an der man wichtige Kennzahlen von Tests demonstrieren kann.
Erkrankt | Gesund | Alle Testergebnisse | ||
---|---|---|---|---|
Test positiv | a (richtig-positiv) | b (falsch-positiv) | a + b (alle Patienten mit positiven Testergebnissen) | Positiver Vorhersagewert = a / (a + b) |
Test negativ | c (falsch-negativ) | d (richtig-negativ) | c + d (alle Patienten mit negativen Testergebnissen) | Negativer Vorhersagewert = d / (c + d) |
Alle Gesunden/Kranken | a + c (alle erkrankten Patienten) | b + d (alle gesunden Patienten) | a + b + c + d (alle Patienten) | |
Richtig-positiv-Rate = a / (a + c) = Sensitivität | Falsch-positiv-Rate = b / (b + d) | |||
Falsch-negativ-Rate = c / (a + c) | Richtig-negativ-Rate = d / (b + d) = Spezifität |
Sensitivität (= Empfindlichkeit, Trefferquote)
- = a / (a + c)
- Anteil derer, die bei einem Test richtigerweise als "positiv" getestet wurden, im Verhältnis zur Zahl aller Erkrankten
- Gibt an, wie viele tatsächlich Erkrankte durch den Test als krank erkannt werden
Spezifität
- = d / (b + d)
- Anteil derer, die von einem Test richtigerweise als "negativ" getestet wurden, im Verhältnis zur Menge aller Gesunden
- Gibt an, wie viele tatsächlich Gesunde durch den Test als gesund erkannt wurden („Richtig-negativ-Rate“)
Positiver prädiktiver Wert (= Genauigkeit, Relevanz, positiver Vorhersagewert)
- = a / (a + b)
- Wahrscheinlichkeit, bei positivem Testergebnis tatsächlich krank zu sein
- Allgemeine Berechnung: Anzahl der richtig-positiv getesteten Personen geteilt durch Anzahl aller positiv getesteten Personen (also richtig-positiv + falsch-positiv)
- Abhängig von der Prävalenz einer Erkrankung in der Bevölkerung
Negativer prädiktiver Wert (= Trennfähigkeit, negativer Vorhersagewert)
- = d / (c + d)
- Wahrscheinlichkeit, bei negativem Testergebnis tatsächlich gesund zu sein
- Allgemeine Berechnung: Anzahl der richtig-negativ getesteten Personen geteilt durch Anzahl aller negativ getesteten Personen (also richtig-negativ + falsch-negativ)
- Ebenfalls abhängig von der Prävalenz einer Erkrankung in einer Bevölkerung
Um ein Testergebnis auf einen Patienten zu übertragen, sind die prädiktiven Werte wichtig: Sie berücksichtigen zusätzlich noch, wie häufig die getestete Krankheit generell ist. Will man einem Patienten erläutern, was das Testergebnis für ihn bedeutet, eignen sich die prädiktiven Werte deutlich besser als Sensitivität und Spezifität!
Beispiel
Wir betrachten einen HIV-Test (Immunoassay). Dieser habe eine Sensitivität von 99,9% und eine Spezifität von 99,8%. Die Prävalenz von HIV in Deutschland ist etwa 100 pro 100.000 Einwohner = 0,1%.
- Sensitivität: 99,9%
- Interpretation: Wenn ein HIV-positiver Proband getestet wird, ist der Test zu 99,9% auch positiv
- Spezifität: 99,8%
- Interpretation: Wenn ein HIV-negativer Proband getestet wird, ist der Test zu 99,8% auch negativ
- Positiver prädiktiver Wert: 33%
- Berechnung über PPW = a / (a + b)
- a = richtig-positiv = Wahrscheinlichkeit, dass der Patient HIV hat (= Prävalenz) × Wahrscheinlichkeit, dass er dann positiv getestet wird (= Sensitivität)
- b = falsch-positiv = Wahrscheinlichkeit, dass der Patient kein HIV hat (= 1 - Prävalenz) × Wahrscheinlichkeit, dass er dann trotzdem positiv getestet wird (= 1 - Spezifität)
- PPW = (0,999 × 0,001) / (0,999 × 0,001 + 0,002 × 0,999) = 33%
- Interpretation: Wenn eine beliebige Person positiv getestet wird, ist sie zu 33% tatsächlich HIV-positiv
- Negativer prädiktiver Wert: 99,999899699%
- Berechnung über NPW = d / (c + d)
- d = richtig-negativ = Wahrscheinlichkeit, dass der Patient kein HIV hat (= 1 - Prävalenz) × Wahrscheinlichkeit, dass er dann auch negativ getestet wird (= Spezifität)
- c = falsch-negativ = Wahrscheinlichkeit, dass der Patient HIV hat (= Prävalenz) × Wahrscheinlichkeit, dass er dann trotzdem negativ getestet wird (= 1 - Sensitivität)
- NPW = (0,998 × 0,999) / (0,998 × 0,999 + 0,001 × 0,001) = 0,99999899699
- Interpretation: Wenn eine beliebige Person negativ getestet wird, ist sie zu 99,999899699% tatsächlich HIV-negativ
Hier sehen wir, wie wichtig es ist, zwischen Spezifität und positivem prädiktiven Wert zu unterscheiden. Eine Spezifität von 99,8% erscheint sehr gut. Wegen der niedrigen Prävalenz von HIV ist es aber trotzdem noch wahrscheinlicher (67%!), dass ein positives Ergebnis falsch-positiv ist.
CAVE: Diese Berechnung gilt nur, wenn eine beliebige Person ohne Indikation getestet wird. Gehört der Patient einer Risikogruppe an, erhöht sich die gruppenspezifische Prävalenz und damit auch der positive prädiktive Wert!
Vergleich von Risiken
Risiko in der Epidemiologie
In epidemiologischen Untersuchungen versucht man, eine Exposition mit einem Ereignis (wie einer Krankheit) zu verknüpfen. Man erhält also primär zwei Gruppen (exponiert und nicht exponiert), die sich weiter aufteilen in erkrankt und nicht erkrankt. Ziel ist darzustellen, ob die Exposition mit einem erhöhten Krankheitsrisiko verbunden ist oder nicht. Anfangen kann man wieder mit einer Vierfeldertafel
Anzahl der Personen | Exponiert | Nicht exponiert | Gesamt |
---|---|---|---|
erkrankt | a | b | a + b |
gesund | c | d | c + d |
gesamt | a + c | b + d |
Nun kann man verschiedene abgeleitete Größen berechnen, die Auskunft darüber geben, wie sich das Risiko in den beiden Gruppen verhält.
Absolutes Risiko (AR)
- Erkrankungsrisiko in einer bestimmten Population (Inzidenz)
- Anzahl der Neuerkrankungen pro Jahr pro 100.000 Einwohner
- Entspricht näherungsweise (a + b) / (a + b + c + d)
Relatives Risiko (RR)
- Vergleicht das Risiko der Exponierten mit dem der Nicht-Exponierten
- Definition: RR = (a / (a + c)) / (b / (b + d))
- Relatives Risiko (RR) = Risiko bei Exponierten/Risiko bei Nicht-Exponierten
- Gibt an, um wie viel größer das Risiko für eine Erkrankung durch vorliegenden Risikofaktor wird
- Beispiel
- 4% aller beobachteten Patienten ohne Nikotinkonsum erleiden einen Herzinfarkt
- 6% aller beobachteten Patienten mit Nikotinkonsum erleiden einen Herzinfarkt
- RR = 6% geteilt durch 4% = 1,5
- → Raucher haben in diesem Beispiel ein 1,5-faches Risiko, einen Infarkt zu erleiden
Zuschreibbares Risiko (= Überschussrisiko/attributables Risiko)
-
Der Anteil des Risikos, der tatsächlich auf den Risikofaktor zurückzuführen ist
- Formel: Risiko der Exponierten - Risiko der Nicht-Exponierten = zuschreibbares/attributables Risiko
Odds (R)
- Chance, dass ein Ereignis eintritt = p
- Chance, dass ein Ereignis nicht eintritt = q
- q = 1 - p
- R = p / q
- Beispiele
- Odds, beim Münzwurf "Zahl" zu werfen: Zahl / Kopf = 1/1 (vgl. absolutes Risiko 0,5)
- Odds, beim Würfeln die Zahl 2 zu werfen: (1/6) / (5/6) = 1/5 (vgl. absolutes Risiko 0,167)
- Odds Ratio (OR)
- Verhältnis der Chancen zweier Gruppen für das Auftreten eines Ereignisses
- Erlaubt eine Schätzung des relativen Risikos bei unbekannter Inzidenz (insb. bei Fall-Kontroll-Studien)
- Berechnung: Quotient aus der Chance der Betroffenen und der Nicht-Betroffenen
- OR = (a / c) / (b / d) = (a x d) / (b x c)
- Interpretation
- OR = 1: Chancengleichheit
- OR > 1: Chance der Exponierten größer
- OR < 1: Chance der Nicht-Exponierten größer
Risikoreduktion durch Interventionen
Wenn man eine Intervention durchführt (bspw. die Gabe einer Blutdruckmedikation), möchte man im Anschluss wissen, ob dadurch eine Verbesserung erreicht wurde. Dazu kann man untersuchen, ob die Intervention zu einer Reduktion eines bestimmten Risikos (z.B. das Risiko, an einem Herzinfarkt zu versterben) geführt hat.
Absolute Risikoreduktion (ARR)
- Gibt die absolute Änderung des Risikos durch eine Intervention an
- ARR = Risiko der Kontrollgruppe - Risiko der Interventionsgruppe
- Beispiel: Eine Änderung des Risikos von 3% auf 2,5% ist eine absolute Änderung des Risikos von (3 - 2,5 =) 0,5 Prozentpunkten
Relative Risikoreduktion (RRR)
- Gibt die prozentuale Abnahme des Risikos durch eine Intervention an
- RRR = 1 - (Risiko der Interventionsgruppe / Risiko der Kontrollgruppe)
- Beispiel: Eine Änderung der Mortalität von 3 auf 2,5% ist eine relative Risikoreduktion von RRR = 1 - (2,5 / 3) = 1 - 0,83 = 0,17 = 17%
- Vergleich RRR und ARR
- Beispiel: Eine Therapie führt in der Interventionsgruppe von 1.000 Menschen zu vier statt zu sechs Todesfällen. Das relative Risiko der Interventionsgruppe beträgt 0,4% / 0,6% = 0,67 = 67%, das der Kontrollgruppe definitionsgemäß 1 oder 100%. Die relative Risikoreduktion beträgt demnach RRR = 1 - 0,67 = 0,33 = 33%. Die absolute Risikoreduktion beträgt ARR = 0,6% - 0,4% = 0,2%. Dies ist scheinbar wesentlich geringer (wobei hier aber eben einfach nur verschiedene Parameter betrachtet werden, die die gleichen Zahlen benutzen).
Number Needed To Treat (auch: NNT)
- Gibt an, wie viele Patienten in einem bestimmten Zeitraum therapiert werden müssen, damit statistisch gesehen genau ein Ereignis verhindert wird
- Eine niedrige NNT spricht für eine effektive Therapie (große absolute Risikoreduktion)
- Berechnung: NNT = Kehrwert der absoluten Risikoreduktion (ARR)
- Bei einer NNT = 1 verhindert jede durchgeführte Therapie das Eintreten eines Ereignisses
- Beispiel
- Number Needed To Screen: Gibt an, wie viele Patienten in einem bestimmten Zeitraum einer Screeninguntersuchung unterzogen werden müssen, damit statistisch gesehen genau ein Krankheitsfall erkannt wird
- Number Needed To Harm: Gibt an, wie viele Patienten in einem bestimmten Zeitraum einem Risikofaktor ausgesetzt sein müssen, damit statistisch gesehen genau ein Krankheitsfall auftritt
Statistische Tests
In einer wissenschaftlichen Studie werden Daten erhoben, um eine Hypothese zu untersuchen. Der Datenerhebung folgt die Auswertung, bei der es vorrangig um die Beantwortung der folgenden Fragen geht:
- Gibt es einen Unterschied zwischen den untersuchten Gruppen?
- Beruht ein Unterschied auf der untersuchten Hypothese („Alternativhypothese trifft zu“) oder nur auf Zufall („Nullhypothese trifft zu“)?
- Wie relevant ist ein Unterschied?
Hierfür werden statistische Tests benutzt. Je nachdem um welche Datentypen es sich handelt und wie diese verteilt sind, gibt es eine sehr große Anzahl verschiedener Tests.
Statistische Signifikanz
Signifikanz bezeichnet einen Unterschied zwischen zwei Ergebnissen, der zu extrem ist, um noch als zufällig gelten zu können. Sie ist ein Kriterium für die Aussagekraft eines Ergebnisses. Ob ein Ergebnis als signifikant gilt, hängt vom Signifikanzniveau ab, das für die entsprechende Studie gewählt wurde: Standard ist ein Signifikanzniveau von 5%, was bedeutet, dass die Wahrscheinlichkeit, dass ein positives Ergebnis durch Zufall zu Stande gekommen ist, unter 5% beträgt.
Signifikanzniveau α (syn. α-Fehlerniveau)
- Legt eine Irrtumswahrscheinlichkeit fest, die noch als akzeptabel gilt
- Üblich: α = 0,05
-
Bedeutung: „Ein Unterschied ist auf dem Niveau von 0,05 signifikant“ → Die Wahrscheinlichkeit, dass ein mind. so großer Unterschied nur zufällig ist, ist unter 0,05
- Je niedriger das Signifikanzniveau, desto geringer ist die Wahrscheinlichkeit, dass die Nullhypothese fälschlicherweise abgelehnt wird
- Je niedriger das Signifikanzniveau, desto höher ist die Wahrscheinlichkeit, dass die Alternativhypothese fälschlicherweise abgelehnt wird
- Beispiel: In einer Studie soll untersucht werden, ob ein Medikament wirksamer ist als das Placebo. Tatsächlich ergibt die Studie, dass das Medikament wirksamer ist. Es stellt sich aber die Frage, ob dieses Ergebnis nur dem Zufall geschuldet ist (Nullhypothese) oder ob es tatsächlich einen Unterschied in der Wirksamkeit gibt (Alternativhypothese). Zur Entscheidungsfindung wird vor Beginn der Studie das Signifikanzniveau festgelegt, üblicherweise bei 0,05 (manchmal auch 0,1 oder 0,01). Würde man das Signifikanzniveau extrem niedrig ansetzen (z.B. bei 0,0005), ist es unwahrscheinlich, dass der Unterschied als signifikant gilt (der p-Wert also unter diesem Signifikanzniveau liegt). Dann würde man in vielen Fällen fälschlicherweise die Nullhypothese annehmen bzw. die Alternativhypothese ablehnen und somit davon ausgehen, dass das Medikament und das Placebo gleich wirksam sind. Da sich die Wahl des Signifikanzniveaus durch das Ablehnen oder Annehmen der Alternativhypothese beeinflussen lässt, ist es zwingend notwendig, dies vor Beginn der Studie festzulegen.
Bei Festlegung eines niedrigeren Signifikanzniveaus wird es schwieriger, einen Unterschied nachzuweisen! Als Ausgleich kann die Gruppengröße erhöht werden.
p-Wert (von engl. probability)
- Entspricht der Wahrscheinlichkeit, dass ein mindestens so starker Unterschied wie im Testergebnis nur durch Zufall zustande kommt (Fehler 1. Art)
- Übliche Darstellung der berechneten Signifikanz
- Wird durch einen passend gewählten statistischen Test aus den vorliegenden Daten berechnet
- Wenn der gemessene p-Wert unter dem geforderten Signifikanzniveau liegt, sagt man, dass ein Unterschied signifikant ist
- Ein niedriger p-Wert spricht für die Alternativhypothese, bei einem hohen p-Wert sollte die Nullhypothese beibehalten werden
- Einfluss der Stichprobengröße: Große Stichproben führen eher zu niedrigen p-Werten und somit zu einem signifikanten Ergebnis
Statistisches Schätzen
Beim Schätzen möchte man aus erhobenen Stichprobenwerten den unbekannten wahren Wert in der Grundgesamtheit ableiten. Wichtig ist hier eine Trennung von Maßzahlen, die in der Stichprobe gelten und dem Schätzwert, für den man annimmt(!), dass er in der Grundgesamtheit gelten könnte.
- Punktschätzer
- Definition: Eine statistische Maßzahl, die in der Stichprobe berechnet wird und als Schätzwert für die Grundgesamtheit dient
- Annahme: Stichprobe ist repräsentativ für die Grundgesamtheit
- Interpretation: Der berechnete Schätzer ist ungefähr mit der entsprechenden Maßzahl der Grundgesamtheit identisch
- Intervallschätzer: Erweiterung des Punktschätzers um einen Bereich, in dem der wahre Wert der Grundgesamtheit mit hoher Wahrscheinlichkeit liegt
- Definition: Intervall, das um den Punktschätzer herum liegt
- Übliches Intervall: 95%-Konfidenzintervall
- Interpretation des 95%-Konfidenzintervalls: In 95% der Fälle enthält das berechnete 95%-Konfidenzintervall den wahren Wert aus der Grundgesamtheit, der mit dem Punktschätzer geschätzt wird
- Absolute Risikoreduktion oder Effektstärke
- Signifikantes Ergebnis: 0 ist nicht im Konfidenzintervall enthalten
- Beispiel: Durch den Verzicht auf ein Genussmittel reduziert sich das absolute Risiko, eine bestimmte Erkrankung zu bekommen, um 20%, mit einem Konfidenzintervall von 15%–25%. Da 0% nicht im Konfidenzintervall liegt, ist die absolute Risikoreduktion signifikant.
- Absolute Risikoreduktion oder Effektstärke
An Konfidenzintervallen kann man die Unsicherheit des Schätzwertes sehen: Je größer eine Stichprobe ist, desto kleiner wird das Konfidenzintervall und damit die Unsicherheit!
Teststärke (Power)
- Gibt an, wie gut ein statistischer Test geeignet ist, einen tatsächlichen Unterschied nachzuweisen
- Entspricht der Wahrscheinlichkeit, dass ein Test einen tatsächlich vorhandenen Unterschied auf einem vorgegebenen Signifikanzniveau auch nachweist
-
Wird größer durch
- Größere Stichprobe
- Höheres Signifikanzniveau
- Der Art des statistischen Tests
- Nutzen: Wird zur Planung einer Studie benötigt
Statistisch signifikant bedeutet, dass ein Unterschied (mit großer Wahrscheinlichkeit) nicht nur durch Zufall erklärbar ist. Daraus ist keine Relevanz ableitbar!
Effektstärke
Wenn man einen statistisch signifikanten Unterschied zwischen zwei Gruppen nachgewiesen hat, stellt sich die Frage, ob dieser Unterschied auch relevant ist. Das ist natürlich stark von der untersuchten Hypothese abhängig, aber mit Cohens d gibt es einen einfachen Parameter, der eine Abschätzung ermöglicht.
- Cohens d
- Definition: Ein Maß für die Größe des Effektes einer Intervention
- Voraussetzung: Normalverteilte Daten
- Berechnung: Differenz der Mittelwerte von Interventions- und Kontrollgruppe, geteilt durch die Standardabweichung
- d = (μ1 - μ2) / σ
- Die Effektstärke wird mit zunehmender Streuung der Werte kleiner
- Interpretation
-
Bezieht den Unterschied zweier Gruppen auf die Standardabweichung
- Cohens d = 1 bedeutet, dass sich die Gruppen um eine Standardabweichung unterscheiden
- Betrag von Cohens d < 0,2: Kleiner Effekt
- Betrag von Cohens d > 0,8: Großer Effekt
-
Bezieht den Unterschied zweier Gruppen auf die Standardabweichung
Cohens d zeigt, wie stark sich die Mittelwerte zweier Gruppen unterscheiden. Ab einem Betrag von 0,8 spricht man von einem deutlichen Unterschied!
Cohens d kann beliebige Werte von -∞ bis +∞ annehmen!
Bei geringer Effektstärke ist es schwierig, einen Unterschied nachzuweisen!
Korrelation
Man sagt, dass Größen korrelieren, wenn die Veränderung der einen Größe mit einer Veränderung der anderen Größe einhergeht. Ob Größen korrelieren und wie sie das tun, lässt sich über Korrelationstests beschreiben. Ein einfacher Parameter hierfür ist der Korrelationskoeffizient.
Korrelationstest
- Untersucht einen Zusammenhang zwischen Merkmalen
- Wie verändert sich y, wenn x verändert wird?
- Eine vollständige Korrelation liegt vor, wenn die Änderungen von y vollständig durch die Änderungen von x erklärt werden können. Kein Zusammenhang besteht, wenn eine Änderung von x keinen Einfluss auf y hat
Kovarianz, Korrelationskoeffizient und Determinationskoeffizient
- Kovarianz
- Maß für die lineare Abhängigkeit zwischen zwei Variablen
- Nicht standardisiert und daher nur eingeschränkt auswertbar
- Korrelationskoeffizient
- Maßzahl für die Stärke einer Korrelation
- Eigenschaften: Dimensionslos und liegt zwischen -1 und +1
- Bei mind. ordinalskalierten Daten: Rangkorrelationskoeffizient ρ nach Spearman
- "Ungenauer", nicht alle Informationen können verwendet werden
- Extremwerte fallen weniger ins Gewicht
- Setzt keine Normalverteilung voraus
-
Bei intervallskalierten Daten: Korrelationskoeffizient r nach Pearson
- Exakter, jedoch anfälliger für Verzerrungen durch Extremwerte
- Entspricht der standardisierten Kovarianz
- Setzt annähernd normalverteilte Daten voraus
- Determinationskoeffizient R2
- Maß für den Anteil der Varianz der einen Variable, der durch die andere Variable erklärt wird
- Determinationskoeffizient = Korrelationskoeffizient2
Die Kovarianz erlaubt eine Aussage über die Richtung einer Korrelation, der Korrelationskoeffizient zusätzlich über die Stärke!
Positive Korrelation
- Je höher y, desto höher ist auch x
- Werte zwischen 0 und 1 zeigen eine positive Korrelation
- Bei einem maximalen positiven Zusammenhang hat der Korrelationskoeffizient den Wert +1
Negative Korrelation
- Je höher y, desto niedriger ist x
- Werte zwischen 0 und -1 zeigen eine negative Korrelation
- Bei einem maximalen negativen Zusammenhang hat der Korrelationskoeffizient den Wert -1
Der Korrelationskoeffizient beschreibt, wie deutlich ein Zusammenhang zwischen zwei Größen ist; ab einem Wert von etwa +/-0,7 spricht man von einem starken positiven/negativen Zusammenhang!
Wiederholungsfragen zum Kapitel Medizinische Statistik und Testtheorie
Grundbegriffe und deskriptive Statistik
Was ist ein latentes Konstrukt?
Was bezeichnet der Begriff „Operationalisierung“?
Welche verschiedenen Arten von Variablen kennst du, die innerhalb von Studien beobachtet werden können bzw. einen Einfluss auf das Ergebnis haben?
Welche Skalenniveaus gibt es und was bedeuten sie? Wie lassen sie sich hierarchisch anordnen?
Ordne folgenden Beispielen passende Skalenniveaus zu: Stimmung (gut, mittel, schlecht) - Augenfarbe (blau, grün, braun) - Geld auf dem Konto (in Euro) - Temperatur in °C (exakte Gradzahl).
Nenne die Maße der zentralen Tendenz. Erkläre, wie sie bestimmt werden und für welche Skalen sie geeignet sind!
Was sind Varianz und Standardabweichung? Wie berechnen sie sich?
Was bezeichnen Spannweite und Quartilsabstand und wie werden sie durch extreme Werte (sog. Ausreißer) beeinflusst?
Was ist eine Perzentile und welche speziellen Perzentilen gibt es?
Welchem Prozentrang entspricht ein Wert bei einer Normalverteilung, der zwei Standardabweichungen über dem Mittelwert liegt?
Tests und Testgütekriterien
Welche Testgütekriterien gibt es und wie können sie hierarchisch geordnet werden?
Welche verschiedenen Methoden zur Abschätzung der Reliabilität kennst du und wie werden diese jeweils durchgeführt?
Wie kann die Retest-Reliabilität quantifiziert werden und was ist als hoher Wert einzustufen? Beziehe dich dabei auf die Beispiele „Intelligenztest“ und „Waage“.
Was ist die Validität und welche Formen der Validität werden unterschieden?
Was ist eine Normierung und wie kann sie durchgeführt werden?
Was sind Sensitivität, Spezifität, positiver und negativer prädiktiver Wert und wie werden sie berechnet? Zeichne dir dazu ggf. eine Vierfeldertafel auf.
Wie wirkt sich die Prävalenz einer Erkrankung auf die folgenden Parameter eines Tests zur Diagnose dieser Krankheit aus: Sensitivität, Spezifität, positiver und negativer prädiktiver Wert?
Was gibt die Änderungssensitivität an?
Vergleich von Risiken
Erkläre die Begriffe „absolutes Risiko“, „relatives Risiko“ und „attributables Risiko“!
Was bedeuten die Begriffe „Odds“ und „Odds Ratio“? Wie werden sie berechnet?
Wie werden die absolute und die relative Risikoreduktion berechnet und wie lassen sie sich interpretieren?
Was gibt die Number Needed To Treat an und wie wird sie berechnet?
Statistische Tests
Anhand welchen Kennwerts lässt sich beurteilen, ob eine Hypothese zutrifft?
Erkläre den Begriff „Teststärke“ und nenne Faktoren, die die Teststärke erhöhen.
Wie lässt sich rechnerisch abschätzen, ob ein Untersuchungsergebnis relevant ist? Nenne ein Maß dafür und dessen Grenzwert!
Wie wirkt sich eine größere Streuung auf die Effektstärke aus?
Erkläre allgemein, was Korrelation bedeutet. Wie korrelieren bspw. die Variablen „Geschwindigkeit eines Autos“ und „zurückgelegter Weg innerhalb 1 Stunde“ sowie „Fahrstrecke eines Autos“ und „Benzin im Tank“ miteinander? Nenne außerdem ein Maß für die Stärke des Zusammenhangs. Erläutere, welche Werte dieses annehmen kann und was als ein hoher Wert gilt!
Eine Sammlung von allgemeineren und offeneren Fragen zu den verschiedenen prüfungsrelevanten Themen findest du im Kapitel Beispielfragen aus dem mündlichen Physikum.