Direkt zum Inhalt

FAIR-Prinzipien bei Forschungs- und Metadaten

Warum sie für die Gesundheitsforschung der Zukunft wegweisend sind

Haben Wissenschaftler:innen eine Idee für eine Forschungsfrage, müssen sie oftmals „bei Null anfangen”: Zwar mögen durchaus bereits relevante Datenerhebungen anderer Wissenschaftler:innen existieren (auf denen sich aufbauen ließe), jedoch sind diese häufig weder auffindbar, geschweige denn frei verfügbar. So müssen zahlreiche Arbeitsschritte erneut angegangen werden, die eigentlich – von Anderen – schon längst gemacht worden sind. Auch werden Transparenz und einheitliche technische Standards in Zeiten von Digitalisierung und wachsenden Datenmengen auch im Gesundheitswesen immer wichtiger, um Forschungsdaten austauschen zu können. Die FAIR-Prinzipien sollen Abhilfe schaffen.

1. FAIR-Prinzipien – Eine Definition

Die sogenannten FAIR-Prinzipien wurden erstmals 2016 in einem Nature-Artikel veröffentlicht, werden seitdem von der „GO FAIR"-Initiative vorangetrieben und sind bereits für zahlreiche Forschungseinrichtungen weltweit Standard [1-3].

Dabei handelt es sich um ein aus vier Grundsätzen bestehendes Konzept, das den Austausch und die Wiederverwendbarkeit von Forschungsdaten fördern soll. „FAIR” ist ein englisches Akronym, bei dem jeder Buchstabe für einen der vier Grundsätze steht [3, 4].

Die vier Grundsätze der FAIR-Prinzipien lauten [4, 5]:

Abbildung der FAIR-Prinzipien
Die FAIR-Prinzipien

2017 hat die Europäische Kommission die FAIR-Prinzipien in ihre Förderrichtlinien („EU Horizon 2020”) aufgenommen. Wird ein Antrag für dieses Förderprogramm gestellt, ist die Anwendung der Prinzipien somit verpflichtend [4, 6]. 

Weitere Institutionen, die eine Förderung an die Umsetzung der FAIR-Prinzipien knüpfen, finden Sie hier.

Um die Notwendig- und Sinnhaftigkeit dieses Ansatzes besser nachvollziehen zu können, lohnt der Blick aufs Detail:

2. Die Kriterien der FAIR-Prinzipien im Detail

Um die FAIR-Prinzipien in Gänze verstehen zu können, ist es wichtig, sich zuvor kurz die Begriffe „Metadaten” und „Identifier” klarzumachen:

Metadaten sind strukturierte Informationen über Forschungsdaten und können beispielsweise der Name von Autor:innen, des Projekts oder der untersuchten Stichprobe sowie andere Angaben hierzu sein [4, 15].


Bei den sogenannten Identifiern (oder auch Identifikatoren) handelt es sich um eine eindeutige Zeichenfolge – ähnlich einem URL-Link –, die direkt einer digitalen Ressource zugeordnet ist. Die in der Gesundheitsforschung genutzten Identifier sind dauerhaft und unabhängig vom physischen Speicherort eines Datensatzes. Das Problem von defekten Links wird so umgangen [14].

2.1. Auffindbarkeit („F”)

Unter dem Grundsatz der Auffindbarkeit („Findability”) versteht man Folgendes [4, 7, 8]:

  • 1: Den (Meta-)Daten wird ein global eindeutiger und dauerhafter Identifier zugewiesen.
  • 2: Sämtliche Daten werden mit umfangreichen Metadaten beschrieben (siehe 2.4.).
  • 3: Metadaten beinhalten eindeutig und explizit den Identifier der Daten, die sie beschreiben.

So wird transparent, welche Datensätze bestehen, wo diese gespeichert sind und welche Art von Daten sie enthalten. Die Daten werden also auch für Wissenschaftler:innen, die zuvor nie mit „Datensatz XY” gearbeitet haben, potenziell leicht auffindbar – und das global [4, 7, 8].

Denn dadurch, dass die Kennzeichnung mit einem global einheitlichen Identifier erfolgt, gibt es keine Barrieren mehr zwischen verschiedenen Nationalitäten [4, 7, 8].

Je umfangreicher die Metadaten sind, desto leichter sind die Forschungsdaten am Ende auch zu finden [4, 15]. 

Die Verknüpfung von Metadaten mit dem entsprechenden Datensatz gelingt z.B., indem der entsprechende Dateiname sowie der Speicherort (beides Metadaten) klar aufgeführt werden [4].

2.2. Zugänglichkeit

Unter dem Grundsatz der Zugänglichkeit („Accessibility”) versteht man Folgendes [4, 7, 8]:

  • 1: (Meta)-Daten sind über ihren Identifier mithilfe eines standardisierten Kommunikationsprotokolls abrufbar.
    • 1.1: Das Protokoll ist offen, frei und universell implementierbar.
    • 1.2: Das Protokoll unterstützt, wo notwendig, die Authentifizierung und Rechteverwaltung.
  • 2: Metadaten sind/bleiben verfügbar, auch für den Fall, dass die zugehörigen Forschungsdaten nicht mehr vorhanden sind.

Mithilfe der entsprechenden Software kann also von überall auf der Welt eingesehen werden, welche Datensätze existieren und wie es um die Zugangsrechte bestellt ist [4]. 

Handelt es sich beispielsweise um sensible Gesundheitsdaten, die von externen Personen nicht ohne weiteres eingesehen werden dürfen, kann das System dies anzeigen und gegebenenfalls bei der Kontaktierung helfen. Da es sich in der Gesundheitsforschung natürlich immer um ausgesprochen schützenswerte Daten handelt, ist dieser Aspekt stets von großer Bedeutung [4]. 

Der Vorteil der Metadaten ist, dass sie stets zugänglich sind, auch wenn die eigentlichen Forschungsdaten nicht zur Verfügung stehen. Außenstehende wissen dann zumindest grob, welche Art der Ergebnisse dort einmal bestanden haben oder sogar weiterhin – bei entsprechendem Zugriffsrecht – bestehen [4].

2.3. Interoperabilität

Unter dem Grundsatz der Interoperabilität („Interoperability”) versteht man Folgendes [4, 7, 8]:

  • 1: (Meta-)Daten nutzen eine formale, zugängliche, gemeinsam genutzte und breit anwendbare Sprache für die Wissensrepräsentation.
  • 2: (Meta-)Daten benutzten Vokabularien, welche den FAIR Prinzipien folgen.
  • 3: (Meta-)Daten beinhalten qualifizierte Verweise auf andere (Meta-)Daten.

Am Ende macht es wenig Sinn, Forschungsdaten für einen späteren Austausch aufzubewahren, wenn diese für andere Personen schlicht nicht verständlich sind [4]. 

Dies kriegt besondere Relevanz vor dem Hintergrund, dass zunehmend Computersysteme automatisiert Datensätze durchforsten und analysieren sollen. Die Computersysteme müssen folglich erfassen können, ob die entsprechenden Daten inhaltlich mit anderen Datensätzen kombiniert werden können [4].

In einer für Menschen allein nicht mehr fassbaren Datenflut ist dieses Prinzip somit unerlässlich [4].

2.4. Wiederverwendbarkeit

Unter dem Grundsatz der Wiederverwend- oder Nachnutzbarkeit („Reusability") versteht man Folgendes [4, 7, 8]:

  • 1: (Meta-)Daten sind detailliert beschrieben und enthalten präzise, relevante Attribute.
    • 1.1: (Meta-)Daten enthalten eindeutige und zugreifbare Angaben zur Nutzungslizenz.
    • 1.2: (Meta-)Daten enthalten detaillierte Informationen über die Entstehung.
    • 1.3: (Meta-)Daten entsprechen den fachgebietsrelevanten Community-Standards.

Damit andere Wissenschaftler:innen die Forschungsdaten zu einem späteren Zeitpunkt – und womöglich mit einer komplett anderen Forschungsfrage – wiederverwenden können, muss für sie klar verständlich sein, wie die Daten entstanden sind und welche Nutzungsbedingungen vorliegen [4].

Auch dies sollte bereits automatisiert für Computersysteme erfassbar sein [4].

3. Vorteile der FAIR-Prinzipien

Die FAIR-Prinzipien gehen mit einer ganzen Reihe an Vorteilen einher. Zu den wichtigsten zählen Folgende [4]:

  • Datensätze werden leichter auffindbar und gehen seltener verloren.
  • Dadurch werden auch die ursprünglichen „Erschaffer” des Datensatzes für andere besser sichtbar.
  • Daten können erneut genutzt werden. Doppelte Erhebungen oder Mehrfacharbeit werden daher vermieden. Dies macht die Forschung effizienter.
  • Forschungsergebnisse werden nachvollziehbarer, wenn die Daten zu einer Publikation mitveröffentlicht werden.
  • Ist der Datensatz erst einmal für andere Wissenschaftler:innen „durchforstbar”, können diese auf neue Forschungsfragen stoßen und so zum wissenschaftlichen Fortschritt beitragen. Durch die Nachnutzung können also ganz neue Impulse für die Forschung entstehen. Zudem können bestehende Forschungsergebnisse mit weiteren  Studienergebnissen angereichert werden.
  • Auch die Sekundärforschung – also die Arbeit mit bereits vorhandenem Datenmaterial, aber häufig für andere Untersuchungszwecke – gelangt so an wesentlich größere Datensätze.
  • Wenn klarer ist, woran andere Wissenschaftler:innen gearbeitet haben und über welche Datensätze sie verfügen, wird auch die generelle Zusammenarbeit potenziell erleichtert. Dies gilt sowohl innerhalb eines Forschungsprojekt als auch global.

Im Wesentlichen kommt es also zu einer Transparenz- und Effizienzsteigerung. 

Die folgenden Aspekte sollten dabei besondere Erwähnung finden.

3.1. Neue Erkenntnisse durch gutes Datenmanagement

Durch die Anwendung der FAIR-Prinzipien wird ein regelrechter Kulturwandel in der Forschungsgemeinschaft angestoßen, bei dem Datensilos erfolgreich aufgebrochen werden. Austausch und Handhabung von Daten werden immens vereinfacht [1].

Zudem ist gutes Datenmanagement keineswegs ein Selbstzweck. Es ist vielmehr das Schlüsselelement, wenn es darum geht, Wissenszuwachs und Erkenntnisgewinn systematisch zu beschleunigen [1]. 

Denn so wie Forschungdsdaten bisher veröffentlicht und damit mit der Wissenschafts-Community geteilt wurden, war es nur schwer möglich, den maximalen Ertrag aus dem geleisteten Aufwand zu ziehen. Schließlich konnten nur die ursprünglichen „Datenerheber” – meist einmalig – eine Auswertung ihrer Daten vornehmen [1].

Statt also – wie bisher – nur über die wichtigsten Ergebnisse der eigenen Datenauswertungen zu berichten, werden dank der FAIR-Prinzipien die weltweit erfassten Datensätze immer weiter zusammenwachsen [1]. 

Und vier Augen sehen bekanntlich mehr als zwei – Tausende dann sowieso [1].

3.2. Die Rolle von maschineller Datenverarbeitung

Die FAIR-Prinzipien sind auch deswegen so wegweisend, weil wir uns im Zeitalter der technologischen Transformation befinden. Die schiere Zahl an verfügbaren Daten ist für das menschliche Gehirn schlichtweg nicht mehr fassbar [1].

Computersysteme und KI-Algorithmen können genau diese Lücke schließen und Wissenschaftler:innen aktiv bei den Arbeitsschritten unterstützen, zu denen sie allein gar nicht mehr in der Lage wären [1].

Voraussetzung hierfür ist jedoch, dass die Daten – und zwar sowohl die Forschungs- als auch die Metadaten – für die Computersysteme korrekt interpretierbar sind. Ein grundlegendes Element der FAIR-Prinzipien [1].

4. FAIR-Prinzipien in der Deutschen Forschungsgemeinschaft (DFG)

Auch die deutsche Wissenschaft hat sich längst den FAIR-Prinzipien gegenüber geöffnet. So hat beispielsweise die Deutsche Forschungsgemeinschaft (DFG) 2019 ihre Standards „zur Sicherung guter wissenschaftlicher Praxis“ grundlegend überarbeitet [9, 10].

Darin heißt es fortan: „Aus Gründen der Nachvollziehbarkeit, Anschlussfähigkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrunde liegenden Forschungsdaten und zentralen Materialien – den FAIR-Prinzipien („Findable, Accessible, Interoperable, Re-Usable“) folgend – zugänglich in anerkannten Archiven und Repositorien.“

5. „Open Access” bei Forschungsdaten

Ein häufiges Missverständnis liegt in der Annahme, „FAIRe” Daten entsprächen automatisch „Open Data” – also frei verfüg- und nutzbaren Daten. Dies ist jedoch derzeit nicht der Fall [4, 11, 12]. 

Hintergrund sind dabei meist wirtschaftliche sowie rechtliche Gründe. Viele wissenschaftliche Institutionen wollen mit dem zögerlichen Teilen der Daten entweder einem Kontrollverlust bei der Datenverwertung oder einem erhöhten Zeitaufwand für die Aufbereitung der Daten vorbeugen [4, 11, 13].

Die aktuell teils noch gängigen Einschränkungen beim Datenzugriff sind jedoch durchaus mit den FAIR-Prinzipien vereinbar. Voraussetzung hierfür ist jedoch, dass – ganz im Sinne des Wiederverwendbarkeits-Prinzipis („R”) – die Bedingungen und Wege zum Zugang für Andere ersichtlich sind [4, 11, 13].

Dank Vorteilen wie einer deutlich erleichterten Zusammenarbeit werden „Open Access”- und „Open Data”-Ansätze jedoch immer geläufiger [4, 11].

Das Zusammenwachsen der Forschungswelt dürfte also auch nach erfolgreicher FAIR-Prinzipien-Umsetzung weiter voranschreiten.

6. FAIR-Prinzipien für eine bessere Gesundheitsforschung

Spätestens seit Beginn der Corona-Pandemie ist überdeutlich geworden, wie essenziell der globale Austausch von Daten für das Gesundheitssystem ist. Denn nur wenn wirklich alle verfügbaren Informationen in die Auswertungen einfließen, können daraus – schnellstmöglich – die richtigen Schlüsse gezogen werden [16].

Dabei stehen Wissenschaftler:innen immer wieder vor dem Dilemma, dass Gesundheitsdaten zu Recht ein höchst schützenswertes Gut sein sollten. Gleichzeitig aber „blinde Flecken” entstehen, wenn wichtige Informationen der Forschung vorenthalten werden [16].

Die FAIR-Prinzipien bieten daher auch für die Gesundheitsforschung ein immenses Potenzial. 

Ist beispielsweise die Studienpopulation einer Forschungsgruppe zu klein, um statistisch fundierte Aussagen treffen zu können, kann der globale Austausch von Daten genau den Unterschied machen. Das ist höchst relevant für Menschen mit seltenen Erkrankungen und auch für marginalisierte Minderheiten [16].

Für die personalisierte Medizin – also den Ansatz, die Gesundheit eines jeden Menschen individuell zu betrachten – ist es ebenfalls unabdingbar, über so viele Informationen wie möglich zu verfügen. So können vermeintlich unerklärliche „statistische Ausreißer” plötzlich Sinn ergeben, wenn sie in einem größeren Datenkontext beleuchtet werden [16]. 

Und nicht zuletzt ist es auch im Gesundheitsbereich für den erfolgreichen Einsatz von modernen KI-Algorithmen entscheidend, dass die relevanten Datensätze leicht auffindbar, vollständig sowie – weltweit interoperabel – verwertbar sind [16]. 

Die FAIR-Prinzipien machen es möglich. 

Data4Life

Digitale Lösungen für eine gesündere Welt