Symbolbild Labor: Eine Person hält mit einer Hand ein Reagenzglas, mit dem anderen eine Pipette. Blau gefärbte Flüssigkeit wird pipettiert.
Bildrechte: stock.adobe.com/LIGHTFIELD STUDIOS

Wann sind Studien gut gemacht?

Per Mail sharen
Artikel mit Bild-InhaltenBildbeitrag

#Faktenfuchs - Wann ist eine Studie aussagekräftig?

Während der Corona-Pandemie werden in einem noch nie dagewesenen Tempo wissenschaftliche Erkenntnisse veröffentlicht. Doch wann sind die Aussagen einer Studie belastbar? Ein #Faktenfuchs.

Als Laie eine wissenschaftliche Studie zu beurteilen ist gar nicht so einfach. Auch Journalistinnen und Politiker tun sich damit oft schwer. Doch während der Corona-Pandemie sind derartige Veröffentlichungen in die Wahrnehmung vieler Menschen gerückt und dienen auch als Grundlage für wichtige Entscheidungen.

Zuletzt hat eine Veröffentlichung der Universität Hamburg zur Herkunft des SARS-CoV-2-Erregers für Aufsehen gesorgt. Dabei hat ein Professor der Universität in einer Dokumentation behauptet, er sei auf Basis von Indizien zu dem Schluss gekommen, dass die Pandemie auf einen Labor-Unfall in der chinesischen Stadt Wuhan zurückgehe. Der ARD-Faktenfinder hat sie sich genauer angesehen und auf ihre Schwachstellen hingewiesen.

Die Dokumentation wurde auf der Webseite researchgate.com veröffentlicht. Dort können Wissenschaftlerinnen und Wissenschaftler ihre Forschungsergebnisse selbstständig hochladen, sie werden vorher nicht auf ihre Qualität kontrolliert: "Teilen Sie ihre Veröffentlichungen, erhalten Sie Zugang zu Millionen anderen und veröffentlichen Sie ihre Daten", so beschreibt das Portal seine Ziele.

Wie kann man nun die Qualität solch einer oder anderer Veröffentlichung beurteilen? Dazu gibt es mehrere Kriterien.

Studie: kein geschützter Begriff

Holger Wormer ist Lehrstuhlinhaber für Wissenschaftsjournalismus an der Technischen Universität Dortmund und langjähriger Wissenschaftsjournalist. Er sagt: Beim Lesen einer Studie sollte man sich darüber bewusst sein, dass der Begriff "Studie" nicht geschützt ist. Es gibt dafür keine allgemeinen Anforderungen oder Ausschlusskriterien. Theoretisch könnte jeder etwas veröffentlichen, und es einfach "Studie" nennen.

Holger Wormer vergleicht das mit dem Begriff "Fußball" - nicht alles, was unter Fußball läuft, ist auch dasselbe: "Fußball reicht von der Champions League bis zur Kreisliga. Aber niemand würde auf die Idee kommen, dass Fußball in der Champions League das gleiche ist wie Fußball in der Kreisliga."

Wie glaubwürdig ist der Autor

Es lohnt sich immer, etwas über den Autor oder die Autorin einer Studie herauszufinden. Sind sie an einer Universität angestellt? Bei welchem Fachbereich? Gibt es frühere Veröffentlichungen? Wer sind die Geldgeber?

All das kann man zum Beispiel über eine Google-Suche herausfinden, sagt Holger Wormer.

"Wenn wir jetzt den jüngsten Fall aus Hamburg nehmen, wo auch ein Professor sich exponiert hat, würde man sofort eigentlich reflexartig sagen müssen: Moment mal, der ist in einen ganz anderen Fachgebiet tätig. Was ist denn eigentlich seine Expertise zum Coronavirus?" Prof. Holger Wormer, Technische Universität Dortmund

Selbst wenn jemand also Expertenwissen vorweisen kann, heißt das noch lange nicht, dass es ein Expertenwissen zum Thema der Studie ist.

Wie ist die Studie gemacht

Es gibt mehrere Kriterien, die etwas über die Qualität einer wissenschaftlichen Studie aussagen und eine regelrechte "Hierarchie" der Studien, sagt Holger Wormer, die "Evidenz-Pyramide". Ganz unten, quasi am Boden der Pyramide sind wissenschaftliche Erkenntnisse, deren Aussagekraft nicht so stark ist. Je höher man steigt, desto belastbarer sind die Studienergebnisse.

Bildrechte: Quelle: IQWiG/Grafik: BR
Artikel mit Bild-InhaltenBildbeitrag

Die Evidenz-Pyramide

Jede Studienart hat ihre Berechtigung

Je nach Situation wählen Forscherinnen und Forscher eine Studienart aus der Evidenz-Pyramide aus, die ihre Frage am besten beantworten kann. Wenn man von einem Thema beispielsweise bislang kaum etwas weiß, muss man zunächst versuchen herauszufinden, ob an einer möglichen Hypothese überhaupt etwas dran sein könnte. Dann sucht man zum Beispiel in der Medizin erstmal Einzelfälle oder Expertenmeinungen.

Fiktives Beispiel: Haben Menschen in einer bestimmten Region häufiger eine Glatze? Dazu würde man also zunächst Einzelfälle aus der Region sammeln und sich einen Eindruck verschaffen, ob das tatsächlich gehäuft vorkommt.

Dann kann man mit Fall-Kontroll-Studien weiter machen: "Das sind zum Beispiel retrospektive Studien, wo man im Rückblick Daten auswertet, die eigentlich gar nicht zu dem Zweck erhoben worden sind", sagt Holger Wormer. Man sucht sich also in unserem Beispiel die Gruppe der Glatzenträger und die der Nicht-Glatzenträger und versucht rückblickend nach einer Ursache für die Krankheit zu suchen.

Hoher Standard: kontrollierte, doppelt verblindete Studie

Sogenannte "kontrollierte", doppelt verblindete Studien sind ein sehr hoher Standard in der evidenzbasierten Wissenschaft, die aber aufwändig und damit teuer sind. Im Grunde genommen werden dabei der Wirkstoff oder ein medizinischer Eingriff und ein Placebo verglichen. Die Teilnehmenden sind zufällig ausgewählt, die zwei Gruppen sollen aber vergleichbar sein, zum Beispiel, was ihr Alter angeht. "Doppelblind" bedeutet: Weder Teilnehmende noch Forschende wissen, wer in welcher Gruppe ist. So soll verhindert werden, dass man als Teilnehmender oder Forschender auf das Ergebnis Einfluss nehmen kann. Dabei spielt es auch eine Rolle, wie viele Teilnehmende in die Studie eingeschlossen sind, damit Ergebnisse nicht mehr zufällig sein können.

Erst ganz am Ende, wenn die Tests abgeschlossen und ausgewertet sind, wird die Verblindung aufgehoben und man kann die Effekte vergleichen. In der englischen Wissenschaftssprache verwendet man dafür den Begriff: "randomized controlled trial" oder RCT.

Überblicksstudien liefern große Zusammenhänge

Die letzte wichtige Studien-Gruppe ist die sogenannte "Meta-Analyse" oder ein "systematisches Review", also ein Überblick über alle Veröffentlichungen. Es werden zahlreiche verfügbaren Studien zu einem Thema begutachtet, bewertet und gewichtet, um zu einer allgemeinen Aussage zu einem wissenschaftlichen Thema zu kommen. Dabei werden keine neuen Studien gemacht.

Solche Meta-Analysen sind besonders aussagekräftig, weil sie das Wissen vieler Jahre und vieler Forschenden zusammenfassen. Sie sind aber auch zeitaufwändig, weil man sich zunächst einen Überblick über den aktuellen Forschungsstand machen und dann die Studien heraussuchen muss, die überhaupt miteinander vergleichbar sind. Studien, die weniger Aussagekraft haben, weil sie zum Beispiel weiter unten auf der Evidenz-Pyramide angesiedelt sind oder wenige Teilnehmende haben, gehen dann mit weniger Gewicht in die Wertung ein als andere. Und nicht alle Studien lassen sich so ohne weiteres miteinander vergleichen, weil sie zum Beispiel methodisch unterschiedlich aufgebaut sind.

Peer-Review-Verfahren in der Wissenschaft

Bevor eine wissenschaftliche Studie in einem renommierten Fachblatt erscheint, wird sie von Fachkolleginnen und -kollegen begutachtet, im sogenannten "Peer-Review".

Ein Peer-Review läuft eigentlich immer gleich ab. Zunächst reicht ein Forschender seine Studie bei einem wissenschaftlichen Fachmagazin ein. Dann wird die Studie über den Verlag an zwei bis vier Begutachter geschickt, die die Studie lesen und nachvollziehen. Je nachdem, wie ihre Begutachtung ausfällt, muss der oder die Forschende die Arbeit korrigieren oder vielleicht sogar noch ein weiteres Experiment machen, bevor sie dann veröffentlicht wird. Oder sie wird abgelehnt, weil die Schwächen doch zu groß sind.

Dieses Verfahren ist in der Wissenschaft üblich und hat sich bewährt, weil so vor der Veröffentlichung der Studienergebnisse ein fachlicher Austausch möglich ist.

Schwächen des wissenschaftlichen Peer-Reviews

Auch Ulrich Dirnagel von der Charité in Berlin wird regelmäßig als Begutachter angefragt. Er ist Neurologe und Direktor am Quest Center am Berliner Institut für Gesundheitsforschung. Dort beschäftigt er sich mit der Qualität in der Wissenschaft.

Er sagt, das Peer-Review ist sehr personenabhängig. "Manch einer nimmt das dann wahnsinnig ernst, zieht sich eine Woche zurück und studiert es von oben bis unten. Dann schreibt er fünf, sechs, manchmal zehn Seiten Begutachtung, Punkt für Punkt und macht eine Empfehlung. Und mancher Begutachter nimmt sich nicht so viel Zeit, liest nur das Abstract und ein bisschen quer und macht dann trotzdem ein paar Punkte und eine Empfehlung."

Und: Wenn eine Studie von einem Fachmagazin abgelehnt werde, müsse das noch nicht das Ende sein, sagt Ulrich Dirnagel. Denn es gibt auch eine Hierarchie der Wissenschaftsjournale.

Wer bei den renommiertesten wie Nature oder Science abgelehnt wird, kann es einfach eine Stufe tiefer nochmal versuchen: "Manche Artikel gehen zu sechs Journalen und werden beim sechsten genommen. Dieser Aspekt ist wichtig, weil er bedeutet, dass am Ende letztlich jedes Paper publiziert wird."

Und das bedeutet: Es gibt nicht nur eine Hierarchie der Studien, sondern auch eine Hierarchie der Fachmagazine. Darüber hinaus kann der Peer-Review-Prozess viel Zeit in Anspruch nehmen, oft mehrere Monate. Es gibt aber noch einen schnelleren Prozess - die Veröffentlichung auf einem sogenannten Preprint-Server.

Preprint muss nicht schlechter sein

Seit dem Beginn der Corona-Pandemie werden in der Öffentlichkeit auch immer häufiger sogenannte "Preprint-Paper" zitiert, also wissenschaftliche Studien, die noch nicht im Peer-Review waren und auch nicht in einer Fachzeitschrift veröffentlicht wurden. Sie werden auf spezielle Server hochgeladen, ohne vorher von Fachkollegen begutachtet worden zu sein. Dabei handelt es sich um Server, die zum Beispiel von Universitäten oder wissenschaftlichen Instituten gehostet werden. Preprint-Forschungsarbeiten zum SARS-CoV-2-Erreger findet man zum Beispiel hier und hier.

Das hat einen entscheidenden Vorteil: Neue Erkenntnisse werden viel schneller verbreitet. Aber sind Preprint-Paper nicht von schlechterer Qualität, weil sie keinem Peer-Review-Verfahren unterzogen wurden?

Nicht unbedingt, sagt Ulrich Dirnagel. In der Physik und der Mathematik werden schon seit Jahrzehnten Preprint-Server genutzt. Sie können nämlich auch dem wissenschaftlichen Austausch dienen: "Wenn man seinen Computer morgens einschaltet, geht man erstmal auf den Server und guckt, was ist heute Nacht hochgeladen worden und dann liest man das. Wenn man was dazu zu sagen hat, meldet man sich in der Community und zwar in der Regel erst mal bei den Autoren dieses Papers per E-Mail."

Und die wichtigen Server, wie die oben genannten, unterziehen alle Studien auch einem grundlegenden Qualitätscheck, sagt Dirnagl.

"Da kann man nicht irgendwie das Telefonbuch hochladen und dann ist es ein Preprint, sondern das wird angeguckt: Macht das überhaupt Sinn? Ist das Wissenschaft? Oder ist es totaler Blödsinn?" Prof. Ulrich Dirnagel, Neurologe, Charité Berlin

Bei manchen dieser Server kann man sogar direkt unter der Datei kommentieren und seine Anmerkungen loswerden, sagt Ulrich Dirnagl.

Schnelligkeit und Genauigkeit müssen sich nicht ausschließen

Preprint-Server haben den Vorteil, dass Studien schnell einer breiten Fachöffentlichkeit zugänglich gemacht werden können. Gerade während der Corona-Pandemie beschleunigt das den wissenschaftlichen Austausch enorm, sagt Ulrich Dirnagl: "Unter diesen extremen Zeitdruck stehen wir normalerweise nicht. Grundsätzlich glaube ich, das ist eine Entwicklung, die weder aufzuhalten ist, noch sollten wir versuchen sie aufzuhalten, weil sie nämlich sehr, letztlich sehr sinnvoll ist."

Denn auch auf diese Weise kann ein Peer-Review stattfinden, innerhalb der Wissenschaftsgemeinschaft. Der Nachteil: Manche Studien auf Preprint-Servern bekommen überhaupt kein Feedback und damit auch kein "inoffizielles" Peer-Review, weil es kein strukturierter Prozess ist und von Zufällen abhängen kann.

Viele Fachblätter gehen sogar schon dazu über, eingereichte Studien erst auf einem eigenen Preprint-Server zu veröffentlichen, bevor sie ihren eigenen Peer-Review starten.

Auch geht die Entwicklung dahin, dass Forscherinnen und Forscher das Konzept ihrer Studien schon im Vorhinein veröffentlichen und zur Diskussion stellen, sagt Ulrich Dirnagl. Ein Vorteil: "Dann kann ich das Studien-Design ändern, bevor ich Tierversuche mache, bevor ich Patienten eingeschlossen habe und kann die Studie wirklich besser machen."

Fazit: Innerhalb der Wissenschaft gibt es klare Kriterien, was eine aussagekräftige Studie ausmacht und was nicht - wenngleich der Begriff selbst nicht geschützt ist. Je höher eine Studie auf der sogenannten Evidenz-Pyramide angesiedelt ist, desto glaubwürdiger ist sie. Auch das Fachmagazin, in dem eine Studie veröffentlicht wurde, kann ein Hinweis darauf sein, wie gut sie ist. Darüber hinaus solle der Autor oder die Autorin vom Fach sein und im besten Fall auch schon häufiger zu diesem Thema veröffentlicht haben.

Für Laien ist das alles aber nicht auf den ersten Blick erkenntlich. Das nutzen manche Gruppen aus, um mit "Studien" zu beeindrucken oder die öffentliche Meinung zu manipulieren, auch wenn die Erkenntnisse solcher Veröffentlichungen im wissenschaftlichen Sinne nicht belastbar sind.

Warum uns Fakten so schwer überzeugen

Denkfehler Confirmation Bias
Bildrechte: BR
Artikel mit Video-InhaltenVideobeitrag

Mann denkt nach, hat einen roten Kopf. Symbolbild für Denkfehler, die wir alle begehen.

"Darüber spricht Bayern": Der neue BR24-Newsletter informiert Sie immer montags bis freitags zum Feierabend über das Wichtigste vom Tag auf einen Blick – kompakt und direkt in Ihrem privaten Postfach. Hier geht’s zur Anmeldung!