Grundlagen wissenschaftlicher Studien

Letzte Aktualisierung: 26.3.2024

Zusammenfassung

Die Medizin ist eine praxisorientierte Disziplin, die ihre Erkenntnisse zu weiten Teilen aus der Anwendung selbst gewinnt (Versuch-und-Irrtum-Vorgehen). Diesen Informationsstand unterfüttert die medizinische (und psychologische) Forschung mithilfe wissenschaftlicher Studien, deren methodische Grundlagen hier dargestellt werden. Wichtige Ausgangsbasis für eine aussagekräftige Studie ist die geeignete Fragestellung bzw. eine überprüfbare Hypothese. Zudem gilt es festzulegen, was stellvertretend für das meist nicht direkt quantifizierbare Merkmal (wie z.B. „Depression“) gemessen werden soll (sog. Indikatoren). Das richtige Studiendesign stellt sicher, dass möglichst wenig Störeffekte das Ergebnis verfälschen, die Wahl der Stichprobe spielt hierbei eine große Rolle. Am Ende steht die Auswertung der erhaltenen Daten und der Vergleich mit Ergebnissen anderer Studien.

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Hypothesenbildung

Vor der Durchführung einer wissenschaftlichen Studie wird eine Hypothese festgelegt. Sie ist eine Annahme über den Zusammenhang zwischen der zu untersuchenden Variablen und den Ausgang der Studie. Ob diese Hypothese dann auch zutrifft, wird anschließend mittels der Studie wissenschaftlich untersucht. Ausreichend geprüfte und gesicherte Hypothesen führen zur Theoriebildung.

Hypothese und Theorie

Gibt es hinreichende Belege und keine Widerlegungen, kann aus einer Hypothese eine Theorie werden. Die Begriffe Induktion und Deduktion beschreiben, wie man zu einer Hypothese gelangen kann.

Deduktion
- Schluss von einer allgemeinen Aussage auf einen Einzelfall
- Beispiel: Ein Arzt weiß, dass ein Medikament Übelkeit verursachen kann, und schließt daraus, dass die Übelkeit seines Patienten von diesem Medikament kommt.
Induktion:
- Schluss von einem Einzelfall auf eine allgemeine Aussage
- Beispiel: Ein Arzt bemerkt, dass einigen Patienten durch ein Medikament übel wird, und schließt daraus, dass das Medikament als Nebenwirkung generell Übelkeit hervorruft.
Falsifizierbarkeit
- Eine Aussage, die man widerlegen kann, nennt man falsifizierbar
- Eine wissenschaftliche Hypothese/Theorie muss falsifizierbar sein
- Falsifikationsprinzip: Wissenschaftlicher Fortschritt basiert auf der Widerlegung nicht zutreffender Aussagen. Das Falsifikationsprinzip geht auf den Erkenntnistheoretiker Karl Popper zurück.

Kausalität in der Medizin

Eine Möglichkeit, um zu einer Hypothese zu gelangen, ist eine vermutete Kausalität. Durch Beobachtungen kann man bspw. zu der Idee kommen, dass eine bestimmte Exposition zu einer Krankheit führt. Zur Bewertung einer derartigen Kausalitätshypothese sind in der Medizin die neun Kausalitätskriterien nach Bradford-Hill verbreitet.

Die Kriterien sind keine Voraussetzungen für eine Kausalität, sie sollen bei der kritischen Einschätzung helfen.

Bradford-Hill-Kriterien: Kritische Bewertung eines möglichen Kausalzusammenhangs in der Medizin
- Effektstärke: Ein starker, statistisch signifikanter Effekt macht einen Zusammenhang wahrscheinlicher (aber ein kleiner Effekt schließt ihn nicht aus).
- Reproduzierbarkeit: Ein Zusammenhang, der unter verschiedenen Bedingungen auffällt
- Spezifität: Eine bestimmte Ursache führt zu einer bestimmten Wirkung.
- Zeitlicher Zusammenhang: Die Exposition muss vor der vermuteten Folge liegen.
- Dosisabhängigkeit: Stärkere Exposition zeigt stärkeren Effekt.
- Biologische Plausibilität: Der Effekt kann durch einen biologischen Mechanismus erklärt werden.
- Kohärenz: Der Zusammenhang ist vereinbar mit anderen Erkenntnissen über die Krankheit (z.B. Laboruntersuchungen, andere epidemiologische Auffälligkeiten).
- Experimentelle Überprüfung: Der Kausalzusammenhang zeigt sich in Experimenten (z.B. tierexperimentell, im Labor, durch Interventionen).
- Analogie: Es gibt ähnliche Zusammenhänge, für die eine Kausalität bekannt ist.

Hypothesenarten

Man unterscheidet zwischen verschiedenen Hypothesenarten, von denen im Folgenden eine Auswahl vorgestellt wird.

Deterministische und probabilistische Hypothesen

Diese Unterscheidung bezieht sich auf die Aussagekraft bzw. die Eintrittswahrscheinlichkeit geprüfter Hypothesen.

Deterministische Hypothese
- Zusammenhang zwischen Faktoren besteht mit einhundertprozentiger Sicherheit
- Kommt in der Medizin und Psychologie eher nicht vor, sondern bspw. in der Physik und Mathematik
Probabilistische Hypothese
- Sagt einen wahrscheinlichen Zusammenhang von Faktoren voraus
- Findet in der Medizin und Psychologie am häufigsten Anwendung
  - Beispiel: Das Auftreten einer Erkrankung beim Vorliegen bestimmter Risikofaktoren

Null- und Alternativhypothese

Man wird in der Realwissenschaft nie die Gültigkeit einer Aussage/Hypothese für alle Menschen zu allen Zeitpunkten beweisen können. Somit kann die Gültigkeit einer Hypothese lediglich indirekt bewiesen werden, indem falsche Hypothesen ausgeschlossen werden (= Falsifikationsprinzip). Dieses Prinzip findet sich in der Formulierung von Null- und Alternativhypothese wieder, die im Rahmen der Hypothesentestung gegeneinander getestet werden.

Nullhypothese HO: X = Y („Es gibt keinen Unterschied zwischen den Gruppen.“)
Alternativhypothese H1: X ≠ Y („Es gibt einen Unterschied zwischen den Gruppen.“)

Findet sich ein Unterschied zwischen den Gruppen, widerlegt dies die Nullhypothese und die Alternativhypothese kann zunächst angenommen werden.

Auditor: Statistik Teil 9 - Nullhypothese

Fehler 1. und 2. Art

In der Medizin kann eine Aussage im Allgemeinen nicht sicher bewiesen werden, es gibt immer eine gewisse Wahrscheinlichkeit, dass man zu einem falschen Ergebnis gelangt. Man unterscheidet hierbei Fehler 1. und 2. Art:

Fehler 1. Art (α-Fehler): Nullhypothese wird zurückgewiesen, obwohl sie in Wirklichkeit wahr ist
Fehler 2. Art (β-Fehler): Nullhypothese wird beibehalten, obwohl in Wirklichkeit die Alternativhypothese zutrifft

Auditor: Statistik Teil 10 - α-Fehler und β-Fehler Auditor: Statistik Teil 11 - p-Wert

Multiple Tests

Werden mehrere Tests hintereinander ausgeführt, so hat dies Auswirkungen auf die Fehlerwahrscheinlichkeit. Es sollte daher stets genau überlegt werden, welche Tests sinnvoll sind.

α-Fehler-Kumulierung: Wahrscheinlichkeit für α-Fehler steigt mit der Anzahl der durchgeführten Tests
- Kann durch Anpassung des Signifikanzniveaus ausgeglichen werden (bspw. mit der Bonferroni-Methode )

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Untersuchungsplanung

Interventionsstudien

Die Intervention ist eine Behandlungsmaßnahme, deren Effekt in einer Studie gemessen werden soll. Dazu werden die Ausgangswerte vor der Intervention gemessen (Präzeitpunkt) und mit den Werten nach der Intervention verglichen (Postzeitpunkt). Gleichzeitig soll ausgeschlossen werden, dass die Veränderung auf andere Faktoren zurückzuführen ist. Die randomisierte kontrollierte Studie ist die Studienform mit der höchsten Aussagekraft. Wird im Gegensatz dazu keine Intervention durchgeführt, sondern nur eine natürliche und reale Situation beobachtet, spricht man von einer nicht-experimentellen Studie.

Randomisierte kontrollierte Studie: Zur Beurteilung, ob das Studienergebnis wirklich auf die Intervention und nicht auf andere Faktoren zurückzuführen ist, werden folgende Maßnahmen vor dem Beginn der Studie ergriffen:
- Aufteilung der Teilnehmer in Gruppen
  - Experimentalgruppe (EG): Gruppe, die eine Intervention durchläuft (Beispiel: Bekommt Medikament)
  - Kontrollgruppe (KG): Gruppe, die keine Intervention durchläuft (Beispiel: Bekommt Placebo)
- Randomisierung
  - Die Aufteilung in EG und KG erfolgt per Zufall
  - Dadurch wird ausgeschlossen, dass sich die Gruppen in Punkten unterscheiden, die das Ergebnis verzerren könnten
  - Reduziert a priori (d.h. vor Durchführung der Studie) mögliche personenbezogene Einflüsse auf das Ergebnis
- Intention-to-treat-Prinzip: Alle Patienten, die durch die Randomisierung in Gruppen aufgeteilt wurden, sollen in die Analyse miteinbezogen werden, einschließlich derer, die das Experiment nicht beendet haben.
Quasi-Experiment
- Die Aufteilung in Gruppen erfolgt nicht per Zufall
- Geringere Aussagekraft als die randomisierte kontrollierte Studie
- Wird herangezogen, wenn Unterschiede zwischen natürlich vorhandenen Gruppen untersucht werden sollen

Beispiel: Randomisierte kontrollierte Studie zu Rückenschmerzen

Fragestellung: Wirkt sich ein Bewegungsprogramm positiv auf Rückenschmerzen aus?
Teilnehmer: 60
- Randomisierung computergestützt über Zufallszahlen → 30 Teilnehmer in Experimentalgruppe (EG) und 30 in Kontrollgruppe (KG)
  - Damit handelt es sich um eine randomisierte Studie
- EG: Bekommt Intervention (Bewegungsprogramm)
- KG: Bekommt keine Intervention
  - Damit handelt es sich um eine randomisierte kontrollierte Studie
Alternativhypothese: Das Bewegungsprogramm senkt die Rückenschmerzen
Nullhypothese: Das Bewegungsprogramm hat keine Wirkung, evtl. Veränderungen der Rückenschmerzen sind zufällig
Datenerhebung: Nach acht Wochen Erfassung der Veränderungen der Rückenschmerzen (bspw. anhand eines Fragebogens unter Verwendung einer Ratingskala)
Auswertung: Über statistische Tests

Charakteristika einer Ratingskala

Verwendung zur Erfassung subjektiver Einschätzungen von bspw. Schmerzen
Aufbau
- Numerische Ratingskala: Beurteilung anhand von Zahlenwerten
- Symbolische Ratingskala: Beurteilung anhand von Symbolen
- Verbale Ratingskala: Beurteilung anhand eines beschreibenden Textes
Ratingskalen ermöglichen das Bilden einer Rangfolge (Indexbildung) und haben somit mindestens das Niveau einer Ordinalskala
Ratingskalen, die von einem Extrem über einen neutralen Wert zu einem anderen Extrem reichen, werden als Likert-Skala bezeichnet

Schmerzskalen

Fehler in Studien

Systematische Fehler in Studien können das Untersuchungsergebnis verfälschen, indem sie es in eine bestimmte Richtung verschieben (verminderte Validität). Um diesen Fehlern entgegenzuwirken, wendet man die Einfach- bzw. Doppelverblindung und Randomisierung an.

Systematische Fehler
- Hawthorne-Effekt (Versuchspersonenfehler):
  - Durch die bewusste Teilnahme an einer Studie ändern die Versuchspersonen ihr Verhalten und beeinflussen so das Ergebnis.
  - Gegenmaßnahme → Einfachverblindung: Um den Effekt einzudämmen, wissen die Versuchspersonen nicht, ob sie der EG oder KG angehören
- Rosenthal-Effekt (Versuchsleiterfehler):
  - Durch die Erwartungen des Versuchsleiters verhält sich dieser unterschiedlich gegenüber den Teilnehmern der Studie und beeinflusst so das Ergebnis
  - Gegenmaßnahme → Doppelverblindung: Um auch diesen Effekt zu vermindern, kennen weder Patient noch Arzt die Gruppenzugehörigkeit des Patienten
Zufällige Fehler
- Infolge von Ungenauigkeiten bei der Studiendurchführung weicht das Ergebnis einer Studie zufällig vom wahren Effekt in der Population ab
- Haben zur Folge, dass ein Test unter gleichen Bedingungen bei mehrfacher Messung unterschiedliche Ergebnisse liefert (verminderte Reliabilität)
- Umfangreiche Stichprobengrößen und reliable Messinstrumente wirken zufälligen Fehlern entgegen

Die randomisierte kontrollierte Studie ist der Studientyp mit der höchsten methodischen Qualität!

Epidemiologische Studienarten

Epidemiologische Daten können auf verschiedene Arten gewonnen werden. Prospektive Studien sind aussagekräftiger, aber auch deutlich aufwendiger.

Primärdaten: Daten, die für eine bestimmte Fragestellung unmittelbar erhoben werden
Sekundärdaten: Daten, die nicht direkt erhoben, sondern aus Primärdaten gewonnen werden, indem diese zu einem späteren Zeitpunkt mit einer anderen Fragestellung erneut ausgewertet werden
- Beispiel: Daten, die ursprünglich zur Erfassung der Versorgungssituation chronisch Kranker erhoben wurden, werden erneut analysiert, um Risikofaktoren für bestimmte Erkrankungen zu ermitteln

Studienart	Design	Vorteile	Nachteile	Beispiel
Querschnittsstudie	Zu einem einzigen Zeitpunkt wird eine oder mehrere Gruppen auf ein Merkmal hin untersucht	Geringer Aufwand Erste Orientierung	Konfundierung Rein deskriptiv	Prävalenzmessung einer Krankheit
Prospektive Längsschnittstudie	Prospektiv=vorausschauend Eine oder mehrere Gruppen (Kohorten) werden jetzt und zu einem späteren Zeitpunkt untersucht	Entwicklungsverläufe können erfasst werden	Hoher zeitlicher und finanzieller Aufwand	Zwei Gruppen (Risikofaktor Exponierte/Nicht-Exponierte) werden jetzt und zu einem späteren Zeitpunkt hinsichtlich des Erkrankungsrisiko verglichen
Fall-Kontroll-Studie	Retrospektiv Eine Fall- und eine Kontrollgruppe werden auf zurückliegende Faktoren untersucht	Erste Orientierung	Hohe Fehleranfälligkeit Geringe Aussagekraft Selection bias: Wahl der Kontrollgruppe kann das Ergebnis verändern Recall bias: Verzerrte Erinnerungen und die Neubewertung von Vergangenem können das Ergebnis verfälschen	Eine Gruppe von Erkrankten wird mit einer Gruppe von Gesunden hinsichtlich der vergangenen Aussetzung eines Risikofaktors verglichen
Ein-Gruppen-Prä-Post-Studie (Vorher-Nachher-Studie)	Prospektiv In einer einzigen Gruppe wird ein Merkmal vor und nach einer Intervention verglichen	Geringer Aufwand Erste Hinweise auf mögliche Auswirkungen einer Intervention	Geringe Aussagekraft Merkmalsveränderungen können auch unabhängig von der Intervention zustande gekommen sein	Bei einer Gruppe von Erkrankten wird der Krankheitsverlauf nach einer Intervention beobachtet

Stichproben

Stichprobe: Eine zu untersuchende Teilmenge, durch die man auf Eigenschaften der Grundgesamtheit schließen möchte
Repräsentativität: Gibt an, ob eine Teilmenge hinsichtlich relevanter Merkmale einer übergeordneten Menge gleicht
- Aus hoher Repräsentativität folgt, dass Eigenschaften der Stichprobe wahrscheinlich auch auf die Grundgesamtheit übertragbar sind.
Vor der Durchführung wissenschaftlicher Studien wird mittels einer sog. Fallzahlberechnung geschätzt, wie groß die Stichprobe mind. sein sollte.
- Zur Berechnung der Fallzahl werden i.d.R. das α-Fehler-Risiko auf 5% und die Power (= 1 - β-Fehler-Risiko) auf 80% festgesetzt. Darüber hinaus wird eine Schätzung der Größe des erwarteten Unterschieds zwischen Experimentalgruppe und Kontrollgruppe benötigt (Effektstärke).

Stichprobenart	Beschreibung
Einfache Zufallsstichprobe	Jedes Mitglied einer Population kann mit der gleichen Wahrscheinlichkeit in die Stichprobe mit aufgenommen werden. Dadurch erhofft man sich eine repräsentative Darstellung der Gesamtpopulation.
Geschichtete Zufallsstichprobe	Die Population wird hinsichtlich eines Merkmals aufgeteilt, das mit dem zu messenden Merkmal in Zusammenhang stehen kann.
Klumpenstichprobe	Aus einer Gesamtpopulation werden Gruppen per Zufall ausgewählt, innerhalb derer dann alle Personen untersucht werden.
Konsekutive Stichprobe	Alle Teilnehmer, die während eines Zeitraum behandelt werden und dabei ein bestimmtes Kriterium erfüllen, werden in die Stichprobe mit aufgenommen.
Quotenstichprobe	Die Stichprobe wird prozentual (nach Quoten) gemäß der Gesamtpopulation aufgeteilt. Aus den jeweiligen Gruppen kann der Untersucher aber frei auswählen.
Ad-hoc-Stichprobe	Der Untersucher wählt die Teilnehmer aus, die gerade verfügbar sind. Diese Stichprobe ist nicht sehr zufällig und daher wahrscheinlich nur wenig repräsentativ.
Mehrstufige Stichprobe	Die zufällige Auswahl der Teilnehmer erfolgt in zwei oder mehr Stufen: Aus einer Gruppe wird eine Zufallsauswahl gezogen, aus der im Anschluss erneut eine Zufallsauswahl ausgewählt wird. Diese Methode kann – je nach Gruppengröße – weiter fortgeführt werden.

Auditor: Statistik Teil 8 - Studientypen

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Ergebnisbewertung

Am Ende bleibt zu entscheiden, wie verlässlich eine Studie mitsamt ihrer Ergebnisse ist und wie man gegebenenfalls zu noch verlässlicheren Analysen gelangen kann. Folgende Stichpunkte seien in diesem Zusammenhang genannt:

Replizierbarkeit
- Bezieht sich auf die Wiederholbarkeit von Ergebnissen, d.h., dass verschiedene Studien zu gleichen Ergebnissen kommen müssen, damit ein Sachverhalt als verlässlich eingestuft werden kann.
- Eine einzige Studie zu einem Thema reicht nicht aus, um die Ergebnisse als verlässlich einzustufen.
- Fehler können durch besondere Bedingungen oder zufällig entstanden sein.
Metaanalyse: Studienart, die Primärdaten aus anderen Studien zu einem bestimmten Thema zusammenfasst und quantitativ analysiert
- Systematische Vorgehensweise
- Effektstärken der einzelnen Studien werden zusammengefasst
- Durch eine hohe Gesamteffektstärke kann die Wirksamkeit einer Intervention erwiesen werden
- Publikationsbias
  - Bevorzugtes Veröffentlichen von Studien mit signifikanten Ergebnissen
  - Hinweis auf einen Publikationsbias: Kleine Studien zeigen größere Effekte als große Studien ^[1]
Generalisierbarkeit (Externe Validität)
- Beschreibt die Verallgemeinerungsfähigkeit der Ergebnisse auf andere Situationen oder Populationen.
Evidenzbasierte Medizin
- Medizinische Behandlungen sollen nach Möglichkeit nur noch angewendet werden, wenn ihre Wirksamkeit durch Studien belegt ist
- Eine Metaanalyse über viele randomisierte kontrollierte Einzelstudien hat die höchste Evidenz.

Leitlinien

Leitlinien sind Handlungsempfehlungen für Ärzte zum therapeutischen Vorgehen bei bestimmten Krankheiten. Sie werden im Allgemeinen von den medizinischen Fachgesellschaften erstellt (Expertenkonsens) und basieren auf einer aufwändigen Literaturrecherche (v.a. Metaanalysen). Leitlinien werden in Entwicklungsgrade (S1–3) eingeteilt und Empfehlungen innerhalb der Leitlinien mit Evidenzklassen (Ia–IV) versehen, um dem Leser eine Einordnung der Wirksamkeit von Therapiemaßnahmen zu ermöglichen.

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Wiederholungsfragen zum Kapitel Grundlagen wissenschaftlicher Studien

Hypothesenbildung

Was bedeuten die Begriffe Induktion und Deduktion?

Was versteht man unter dem Falsifikationsprinzip?

Wodurch unterscheiden sich eine deterministische und eine probabilistische Hypothese voneinander?

Was versteht man unter einem Fehler 1. Art und einem Fehler 2. Art? Erkläre dabei auch den Unterschied zwischen Null- und Alternativhypothese!

Untersuchungsplanung

Was wird in einer Interventionsstudie untersucht und welche Studienform besitzt dabei die höchste Aussagekraft?

Wie läuft eine randomisierte kontrollierte Studie ab?

Wie nennt man die Vorgehensweise, bei der alle Versuchspersonen (auch Studienabbrecher) einer randomisierten kontrollierten Studie in die Auswertung miteinbezogen werden und warum ist sie so wichtig?

Wie kann man subjektive Einschätzungen (z.B. Schmerzen) erfassen?

Was versteht man unter dem Rosenthal-Effekt und wie kann man diesen verhindern?

Wie läuft eine Querschnittsstudie ab?

Was ist der Unterschied zwischen einer prospektiven Längsschnittstudie und einer Fall–Kontroll–Studie?

Wie wird eine Klumpenstichprobe gebildet?

Wie wird eine Quotenstichprobe gebildet?

Wie wird eine Zufallsstichprobe gebildet?

Ergebnisbewertung

Was versteht man unter einer Metaanalyse?

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

AMBOSS-Podcast zum Thema

Promotion im Arztberuf: Zwischen Klinik und Wissenschaft (Mai 2022)

AMBOSS-Podcast: Promotion im Arztberuf: Zwischen Klinik und Wissenschaft (08.05.2022)

Interesse an noch mehr Medizinwissen zum Hören? Abonniere jetzt den AMBOSS-Podcast über deinen Podcast-Anbieter oder den Link am Seitenende unter "Tipps & Links."

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Meditricks

In Kooperation mit Meditricks bieten wir durchdachte Merkhilfen an, mit denen du dir relevante Fakten optimal einprägen kannst. Dabei handelt es sich um animierte Videos und Erkundungsbilder, die auf AMBOSS abgestimmt oder ergänzend sind. Die Inhalte liegen meist in Lang- und Kurzfassung vor, enthalten Basis- sowie Expertenwissen und teilweise auch ein Quiz sowie eine Kurzwiederholung. Eine Übersicht aller Inhalte findest du im Kapitel „Meditricks“. Meditricks gibt es in unterschiedlichen Paketen – für genauere Informationen empfehlen wir einen Besuch im Shop.

Stichproben in der Statistik

Meditricks - Stichproben in der Statistik

Inhaltliches Feedback zu den Meditricks-Videos bitte über den zugehörigen Feedback-Button einreichen (dieser erscheint beim Öffnen der Meditricks).

Anmelden oder Einloggen , um den ganzen Artikel zu lesen.

Probiere die Testversion aus und erhalte 30 Tage lang unbegrenzten Zugang zu über 1.400 Kapiteln und +17.000 IMPP-Fragen.

Kostenfrei testen

Evidenzbasierte Inhalte, von festem ärztlichem Redaktionsteam erstellt & geprüft. Disclaimer aufrufen.