FAIR-Prinzipien bei Forschungs- und Metadaten
Warum sie fĂŒr die Gesundheitsforschung der Zukunft wegweisend sind
Haben Wissenschaftler:innen eine Idee fĂŒr eine Forschungsfrage, mĂŒssen sie oftmals âbei Null anfangenâ: Zwar mögen durchaus bereits relevante Datenerhebungen anderer Wissenschaftler:innen existieren (auf denen sich aufbauen lieĂe), jedoch sind diese hĂ€ufig weder auffindbar, geschweige denn frei verfĂŒgbar. So mĂŒssen zahlreiche Arbeitsschritte erneut angegangen werden, die eigentlich â von Anderen â schon lĂ€ngst gemacht worden sind. Auch werden Transparenz und einheitliche technische Standards in Zeiten von Digitalisierung und wachsenden Datenmengen auch im Gesundheitswesen immer wichtiger, um Forschungsdaten austauschen zu können. Die FAIR-Prinzipien sollen Abhilfe schaffen.
1. FAIR-Prinzipien â Eine Definition
Die sogenannten FAIR-Prinzipien wurden erstmals 2016 in einem Nature-Artikel veröffentlicht, werden seitdem von der âGO FAIR"-Initiative vorangetrieben und sind bereits fĂŒr zahlreiche Forschungseinrichtungen weltweit Standard [1-3].
Dabei handelt es sich um ein aus vier GrundsĂ€tzen bestehendes Konzept, das den Austausch und die Wiederverwendbarkeit von Forschungsdaten fördern soll. âFAIRâ ist ein englisches Akronym, bei dem jeder Buchstabe fĂŒr einen der vier GrundsĂ€tze steht [3, 4].
Die vier GrundsÀtze der FAIR-Prinzipien lauten [4, 5]:
2017 hat die EuropĂ€ische Kommission die FAIR-Prinzipien in ihre Förderrichtlinien (âEU Horizon 2020â) aufgenommen. Wird ein Antrag fĂŒr dieses Förderprogramm gestellt, ist die Anwendung der Prinzipien somit verpflichtend [4, 6].Â
Weitere Institutionen, die eine Förderung an die Umsetzung der FAIR-Prinzipien knĂŒpfen, finden Sie hier.
Um die Notwendig- und Sinnhaftigkeit dieses Ansatzes besser nachvollziehen zu können, lohnt der Blick aufs Detail:
2. Die Kriterien der FAIR-Prinzipien im Detail
Um die FAIR-Prinzipien in GĂ€nze verstehen zu können, ist es wichtig, sich zuvor kurz die Begriffe âMetadatenâ und âIdentifierâ klarzumachen:
Metadaten sind strukturierte Informationen ĂŒber Forschungsdaten und können beispielsweise der Name von Autor:innen, des Projekts oder der untersuchten Stichprobe sowie andere Angaben hierzu sein [4, 15].
Bei den sogenannten Identifiern (oder auch Identifikatoren) handelt es sich um eine eindeutige Zeichenfolge â Ă€hnlich einem URL-Link â, die direkt einer digitalen Ressource zugeordnet ist. Die in der Gesundheitsforschung genutzten Identifier sind dauerhaft und unabhĂ€ngig vom physischen Speicherort eines Datensatzes. Das Problem von defekten Links wird so umgangen [14].
2.1. Auffindbarkeit (âFâ)
Unter dem Grundsatz der Auffindbarkeit (âFindabilityâ) versteht man Folgendes [4, 7, 8]:
- 1: Den (Meta-)Daten wird ein global eindeutiger und dauerhafter Identifier zugewiesen.
- 2: SĂ€mtliche Daten werden mit umfangreichen Metadaten beschrieben (siehe 2.4.).
- 3: Metadaten beinhalten eindeutig und explizit den Identifier der Daten, die sie beschreiben.
So wird transparent, welche DatensĂ€tze bestehen, wo diese gespeichert sind und welche Art von Daten sie enthalten. Die Daten werden also auch fĂŒr Wissenschaftler:innen, die zuvor nie mit âDatensatz XYâ gearbeitet haben, potenziell leicht auffindbar â und das global [4, 7, 8].
Denn dadurch, dass die Kennzeichnung mit einem global einheitlichen Identifier erfolgt, gibt es keine Barrieren mehr zwischen verschiedenen NationalitÀten [4, 7, 8].
Je umfangreicher die Metadaten sind, desto leichter sind die Forschungsdaten am Ende auch zu finden [4, 15].Â
Die VerknĂŒpfung von Metadaten mit dem entsprechenden Datensatz gelingt z.B., indem der entsprechende Dateiname sowie der Speicherort (beides Metadaten) klar aufgefĂŒhrt werden [4].
2.2. ZugÀnglichkeit
Unter dem Grundsatz der ZugĂ€nglichkeit (âAccessibilityâ) versteht man Folgendes [4, 7, 8]:
- 1: (Meta)-Daten sind ĂŒber ihren Identifier mithilfe eines standardisierten Kommunikationsprotokolls abrufbar.
- 1.1: Das Protokoll ist offen, frei und universell implementierbar.
- 1.2: Das Protokoll unterstĂŒtzt, wo notwendig, die Authentifizierung und Rechteverwaltung.
- 2: Metadaten sind/bleiben verfĂŒgbar, auch fĂŒr den Fall, dass die zugehörigen Forschungsdaten nicht mehr vorhanden sind.
Mithilfe der entsprechenden Software kann also von ĂŒberall auf der Welt eingesehen werden, welche DatensĂ€tze existieren und wie es um die Zugangsrechte bestellt ist [4].Â
Handelt es sich beispielsweise um sensible Gesundheitsdaten, die von externen Personen nicht ohne weiteres eingesehen werden dĂŒrfen, kann das System dies anzeigen und gegebenenfalls bei der Kontaktierung helfen. Da es sich in der Gesundheitsforschung natĂŒrlich immer um ausgesprochen schĂŒtzenswerte Daten handelt, ist dieser Aspekt stets von groĂer Bedeutung [4].Â
Der Vorteil der Metadaten ist, dass sie stets zugĂ€nglich sind, auch wenn die eigentlichen Forschungsdaten nicht zur VerfĂŒgung stehen. AuĂenstehende wissen dann zumindest grob, welche Art der Ergebnisse dort einmal bestanden haben oder sogar weiterhin â bei entsprechendem Zugriffsrecht â bestehen [4].
2.3. InteroperabilitÀt
Unter dem Grundsatz der InteroperabilitĂ€t (âInteroperabilityâ) versteht man Folgendes [4, 7, 8]:
- 1: (Meta-)Daten nutzen eine formale, zugĂ€ngliche, gemeinsam genutzte und breit anwendbare Sprache fĂŒr die WissensreprĂ€sentation.
- 2: (Meta-)Daten benutzten Vokabularien, welche den FAIR Prinzipien folgen.
- 3: (Meta-)Daten beinhalten qualifizierte Verweise auf andere (Meta-)Daten.
Am Ende macht es wenig Sinn, Forschungsdaten fĂŒr einen spĂ€teren Austausch aufzubewahren, wenn diese fĂŒr andere Personen schlicht nicht verstĂ€ndlich sind [4].Â
Dies kriegt besondere Relevanz vor dem Hintergrund, dass zunehmend Computersysteme automatisiert DatensĂ€tze durchforsten und analysieren sollen. Die Computersysteme mĂŒssen folglich erfassen können, ob die entsprechenden Daten inhaltlich mit anderen DatensĂ€tzen kombiniert werden können [4].
In einer fĂŒr Menschen allein nicht mehr fassbaren Datenflut ist dieses Prinzip somit unerlĂ€sslich [4].
2.4. Wiederverwendbarkeit
Unter dem Grundsatz der Wiederverwend- oder Nachnutzbarkeit (âReusability") versteht man Folgendes [4, 7, 8]:
- 1: (Meta-)Daten sind detailliert beschrieben und enthalten prÀzise, relevante Attribute.
- 1.1: (Meta-)Daten enthalten eindeutige und zugreifbare Angaben zur Nutzungslizenz.
- 1.2: (Meta-)Daten enthalten detaillierte Informationen ĂŒber die Entstehung.
- 1.3: (Meta-)Daten entsprechen den fachgebietsrelevanten Community-Standards.
Damit andere Wissenschaftler:innen die Forschungsdaten zu einem spĂ€teren Zeitpunkt â und womöglich mit einer komplett anderen Forschungsfrage â wiederverwenden können, muss fĂŒr sie klar verstĂ€ndlich sein, wie die Daten entstanden sind und welche Nutzungsbedingungen vorliegen [4].
Auch dies sollte bereits automatisiert fĂŒr Computersysteme erfassbar sein [4].
3. Vorteile der FAIR-Prinzipien
Die FAIR-Prinzipien gehen mit einer ganzen Reihe an Vorteilen einher. Zu den wichtigsten zÀhlen Folgende [4]:
- DatensÀtze werden leichter auffindbar und gehen seltener verloren.
- Dadurch werden auch die ursprĂŒnglichen âErschafferâ des Datensatzes fĂŒr andere besser sichtbar.
- Daten können erneut genutzt werden. Doppelte Erhebungen oder Mehrfacharbeit werden daher vermieden. Dies macht die Forschung effizienter.
- Forschungsergebnisse werden nachvollziehbarer, wenn die Daten zu einer Publikation mitveröffentlicht werden.
- Ist der Datensatz erst einmal fĂŒr andere Wissenschaftler:innen âdurchforstbarâ, können diese auf neue Forschungsfragen stoĂen und so zum wissenschaftlichen Fortschritt beitragen. Durch die Nachnutzung können also ganz neue Impulse fĂŒr die Forschung entstehen. Zudem können bestehende Forschungsergebnisse mit weiteren Studienergebnissen angereichert werden.
- Auch die SekundĂ€rforschung â also die Arbeit mit bereits vorhandenem Datenmaterial, aber hĂ€ufig fĂŒr andere Untersuchungszwecke â gelangt so an wesentlich gröĂere DatensĂ€tze.
- Wenn klarer ist, woran andere Wissenschaftler:innen gearbeitet haben und ĂŒber welche DatensĂ€tze sie verfĂŒgen, wird auch die generelle Zusammenarbeit potenziell erleichtert. Dies gilt sowohl innerhalb eines Forschungsprojekt als auch global.
Im Wesentlichen kommt es also zu einer Transparenz- und Effizienzsteigerung.Â
Die folgenden Aspekte sollten dabei besondere ErwÀhnung finden.
3.1. Neue Erkenntnisse durch gutes Datenmanagement
Durch die Anwendung der FAIR-Prinzipien wird ein regelrechter Kulturwandel in der Forschungsgemeinschaft angestoĂen, bei dem Datensilos erfolgreich aufgebrochen werden. Austausch und Handhabung von Daten werden immens vereinfacht [1].
Zudem ist gutes Datenmanagement keineswegs ein Selbstzweck. Es ist vielmehr das SchlĂŒsselelement, wenn es darum geht, Wissenszuwachs und Erkenntnisgewinn systematisch zu beschleunigen [1].Â
Denn so wie Forschungdsdaten bisher veröffentlicht und damit mit der Wissenschafts-Community geteilt wurden, war es nur schwer möglich, den maximalen Ertrag aus dem geleisteten Aufwand zu ziehen. SchlieĂlich konnten nur die ursprĂŒnglichen âDatenerheberâ â meist einmalig â eine Auswertung ihrer Daten vornehmen [1].
Statt also â wie bisher â nur ĂŒber die wichtigsten Ergebnisse der eigenen Datenauswertungen zu berichten, werden dank der FAIR-Prinzipien die weltweit erfassten DatensĂ€tze immer weiter zusammenwachsen [1].Â
Und vier Augen sehen bekanntlich mehr als zwei â Tausende dann sowieso [1].
3.2. Die Rolle von maschineller Datenverarbeitung
Die FAIR-Prinzipien sind auch deswegen so wegweisend, weil wir uns im Zeitalter der technologischen Transformation befinden. Die schiere Zahl an verfĂŒgbaren Daten ist fĂŒr das menschliche Gehirn schlichtweg nicht mehr fassbar [1].
Computersysteme und KI-Algorithmen können genau diese LĂŒcke schlieĂen und Wissenschaftler:innen aktiv bei den Arbeitsschritten unterstĂŒtzen, zu denen sie allein gar nicht mehr in der Lage wĂ€ren [1].
Voraussetzung hierfĂŒr ist jedoch, dass die Daten â und zwar sowohl die Forschungs- als auch die Metadaten â fĂŒr die Computersysteme korrekt interpretierbar sind. Ein grundlegendes Element der FAIR-Prinzipien [1].
4. FAIR-Prinzipien in der Deutschen Forschungsgemeinschaft (DFG)
Auch die deutsche Wissenschaft hat sich lĂ€ngst den FAIR-Prinzipien gegenĂŒber geöffnet. So hat beispielsweise die Deutsche Forschungsgemeinschaft (DFG) 2019 ihre Standards âzur Sicherung guter wissenschaftlicher Praxisâ grundlegend ĂŒberarbeitet [9, 10].
Darin heiĂt es fortan: âAus GrĂŒnden der Nachvollziehbarkeit, AnschlussfĂ€higkeit der Forschung und Nachnutzbarkeit hinterlegen Wissenschaftlerinnen und Wissenschaftler, wann immer möglich, die der Publikation zugrunde liegenden Forschungsdaten und zentralen Materialien â den FAIR-Prinzipien (âFindable, Accessible, Interoperable, Re-Usableâ) folgend â zugĂ€nglich in anerkannten Archiven und Repositorien.â
5. âOpen Accessâ bei Forschungsdaten
Ein hĂ€ufiges MissverstĂ€ndnis liegt in der Annahme, âFAIReâ Daten entsprĂ€chen automatisch âOpen Dataâ â also frei verfĂŒg- und nutzbaren Daten. Dies ist jedoch derzeit nicht der Fall [4, 11, 12].Â
Hintergrund sind dabei meist wirtschaftliche sowie rechtliche GrĂŒnde. Viele wissenschaftliche Institutionen wollen mit dem zögerlichen Teilen der Daten entweder einem Kontrollverlust bei der Datenverwertung oder einem erhöhten Zeitaufwand fĂŒr die Aufbereitung der Daten vorbeugen [4, 11, 13].
Die aktuell teils noch gĂ€ngigen EinschrĂ€nkungen beim Datenzugriff sind jedoch durchaus mit den FAIR-Prinzipien vereinbar. Voraussetzung hierfĂŒr ist jedoch, dass â ganz im Sinne des Wiederverwendbarkeits-Prinzipis (âRâ) â die Bedingungen und Wege zum Zugang fĂŒr Andere ersichtlich sind [4, 11, 13].
Dank Vorteilen wie einer deutlich erleichterten Zusammenarbeit werden âOpen Accessâ- und âOpen Dataâ-AnsĂ€tze jedoch immer gelĂ€ufiger [4, 11].
Das Zusammenwachsen der Forschungswelt dĂŒrfte also auch nach erfolgreicher FAIR-Prinzipien-Umsetzung weiter voranschreiten.
6. FAIR-Prinzipien fĂŒr eine bessere Gesundheitsforschung
SpĂ€testens seit Beginn der Corona-Pandemie ist ĂŒberdeutlich geworden, wie essenziell der globale Austausch von Daten fĂŒr das Gesundheitssystem ist. Denn nur wenn wirklich alle verfĂŒgbaren Informationen in die Auswertungen einflieĂen, können daraus â schnellstmöglich â die richtigen SchlĂŒsse gezogen werden [16].
Dabei stehen Wissenschaftler:innen immer wieder vor dem Dilemma, dass Gesundheitsdaten zu Recht ein höchst schĂŒtzenswertes Gut sein sollten. Gleichzeitig aber âblinde Fleckenâ entstehen, wenn wichtige Informationen der Forschung vorenthalten werden [16].
Die FAIR-Prinzipien bieten daher auch fĂŒr die Gesundheitsforschung ein immenses Potenzial.Â
Ist beispielsweise die Studienpopulation einer Forschungsgruppe zu klein, um statistisch fundierte Aussagen treffen zu können, kann der globale Austausch von Daten genau den Unterschied machen. Das ist höchst relevant fĂŒr Menschen mit seltenen Erkrankungen und auch fĂŒr marginalisierte Minderheiten [16].
FĂŒr die personalisierte Medizin â also den Ansatz, die Gesundheit eines jeden Menschen individuell zu betrachten â ist es ebenfalls unabdingbar, ĂŒber so viele Informationen wie möglich zu verfĂŒgen. So können vermeintlich unerklĂ€rliche âstatistische AusreiĂerâ plötzlich Sinn ergeben, wenn sie in einem gröĂeren Datenkontext beleuchtet werden [16].Â
Und nicht zuletzt ist es auch im Gesundheitsbereich fĂŒr den erfolgreichen Einsatz von modernen KI-Algorithmen entscheidend, dass die relevanten DatensĂ€tze leicht auffindbar, vollstĂ€ndig sowie â weltweit interoperabel â verwertbar sind [16].Â
Die FAIR-Prinzipien machen es möglich.Â