Daten für alle

09.06.2020 von Ronja Münch in Wissenschaft
Damit Forschungsdaten besser digital verfügbar sind, haben Bund und Länder das Programm „Nationale Forschungsdateninfrastruktur“ (NFDI) gestartet. Auch die hallesche Historikerin Dr. Katrin Moeller wirkt an einem der Konsortien mit, die Richtlinien, Grundlagen und Infrastrukturen für die Datenspeicherung schaffen sollen. Die Leiterin des Historischen Datenzentrums Sachsen-Anhalt, das an der Uni angesiedelt ist, spricht im Interview über die Bedeutung der Initiative.
Katrin Moeller leitet das Historische Datenzentrum Sachsen-Anhalt und ist am Konsortium NFDI4Memory beteiligt.
Katrin Moeller leitet das Historische Datenzentrum Sachsen-Anhalt und ist am Konsortium NFDI4Memory beteiligt. (Foto: Michael Deutsch)

Warum ist eine nationale Initiative zu Forschungsdaten wichtig?
Dr. Katrin Moeller: Das Problem ist, dass Forschungsdaten bisher oft einige Zeit nach dem Ende von Projekten „verschwinden“. Gerade digitale Daten, die mittlerweile in großem Umfang entstehen, werden meist nirgendwo langfristig gespeichert und archiviert. Die Nationalen Forschungsdateninfrastrukturen sind eine bundesweite Aktivität, um genau diesen Prozess von der Entstehung von Forschungsdaten bis zur Ablage, Speicherung, dem Auffinden und auch der Nachnutzung der Daten sicherzustellen. Es sollen Strukturen und Infrastrukturen geschaffen werden, um zu verhindern, dass solche wertvollen Forschungsdaten, die mit sehr viel Geld produziert werden, einfach wieder verloren gehen.

Und wie funktioniert der Aufbau von einer NFDI konkret?
Die Initiative zum Aufbau von NFDI etabliert aus den Fachcommunitys heraus verlässliche Regeln im Umgang mit Forschungsdaten. Generell gelten dabei die sogenannten FAIR-Prinzipien. Daten sollen zukünftig auffindbar, zugänglich, interoperabel und wiederverwendbar sein (auf Englisch: Findable, Accessible, Interoperable, Reusable). Dazu müssen nicht nur Infrastrukturen geschaffen beziehungsweise angepasst werden, sondern vor allem müssen sich Forschende in ihren Arbeitsweisen und Workflows auf die Publikation und Nachnutzung von Daten einstellen. Um diesen Prozess zu begleiten, wurden mit der NFDI fachspezifische Konsortien gebildet, die solche Prozesse für größere Communitys organisieren und gemeinsame Strategien sowie Richtlinien entwickeln.

Kann man sich jetzt noch an NFDI beteiligen? Ist es noch möglich, ein neues Konsortium anzumelden?
Die Anmeldung der Konsortien ist abgeschlossen, neue Konsortien können sich nicht mehr bilden. Was aber viel von NFDI ausmacht, ist das Community-gesteuerte Verfahren. Die NFDI-Konsortien bauen flexible Organisationsformen auf und dort kann sich jeder einbringen. Das heißt, wenn man über Ideen, Services und Angebote verfügt, dann ist es immer möglich, sich damit an die jeweiligen Konsortien zu wenden. Das finde ich das wirklich Gelungene an der Konstruktion von NFDI: Man verbindet die Infrastrukturen mit der dynamischen Wissenschaftswelt und entwickelt dafür geeignete, flexible Verfahren und setzt erst einmal auf die Selbstorganisation der Fachcommunitys.

Sie selbst sind an dem Konsortium „NFDI4Memory“ beteiligt. Worum geht es da?
Forschungsdaten sind in jeder Disziplin unterschiedlich strukturiert. Bei „NFDI4Memory“ erfassen wir nicht nur Daten aus den historisch arbeitenden Disziplinen und den Geisteswissenschaften, sondern schließen eine institutionell übergreifende Kooperation – von der Forschung über die Bibliotheken und Museen bis hin zu den Archiven. Wir wollen das, was diese vier Institutionen sonst immer separat gemacht haben, in ein gemeinsames Vorgehen überführen, wobei jeder seine Stärken mit in den Prozess einbringt: auf der einen Seite die Datenproduktion in der Wissenschaft, dann auf der anderen Seite die Bereitstellung und Auffindbarkeit durch die Bibliotheken und die langfristige Speicherung durch die Archive. „NFDI4Memory“ möchte einen Data Space für historische Daten aufbauen, die dann über Normdaten und Taxonomien interoperabel und vergleichbar nachnutzbar werden.

Was ist Ihr Beitrag zu dem Konsortium?
Bei „NFDI4Memory“ sind wir Co-Applicants, das heißt wir bauen das Konsortium verantwortlich mit auf. Wir beschäftigen uns im Historischen Datenzentrum vor allem sehr stark mit Normdaten sowie Datenerschließung und Werkzeugen, um die Analyse von Daten zu fördern und vernetzte Datenstrukturen zu schaffen. Unter Normdaten versteht man standardisierte Daten, um zum Beispiel eine bestimmte Person oder einen Ort immer eindeutig zuordnen zu können. Wir entwickeln unter anderem ein Klassifikationsmodell für historische Berufe.

Und wofür ist das gut?
Die Klassifikation kann man für wissenschaftliche Analysen nutzen. Wenn Sie Daten nach sozialen Gruppen strukturieren oder analysieren, dann benutzen Sie dafür Berufsgruppen. Berufsangaben sind die häufigste individualspezifische Angabe, die wir über Personen außer dem Namen besitzen. Wenn ich mir zum Beispiel einen Brief angucke: Da schreiben die meisten Menschen ihren Namen rein, eventuell noch den Wohnort und häufig einen Beruf oder Tätigkeiten, die sie ausüben. Wir haben jahrelang solche Berufsbezeichnungen gesammelt. Und haben jetzt ein Werkzeug, mit dem wir die verschiedensten Schreibweisen einem Normbegriff und dann einer Berufsklassifikation zuordnen können: Bäcker zum Beispiel wird in der Vergangenheit mal mit Doppel-K, mal mit CK, mal mit Ä, mal mit AE und so weiter geschrieben. Mithilfe dieser Daten kann man dann Berufsbezeichnungen in verschiedenen Quelle auffinden und automatisiert auswerten. Gleichzeitig lassen sich Sprachvarianten untersuchen und wie sich diese zeitlich verändert haben. Ökonomisch ist wichtig, wann welche Berufe entstehen oder auch wieder verschwinden.

Was ist der Vorteil gegenüber der händischen Analyse?
Durch sogenannte ontologische Modelle, Algorithmen und Muster kann man dynamische Klassifikationsansätze entwickeln und vielleicht zu ganz anderen Ansätzen und Verbindungen kommen als heute durch die inhaltliche Clusterung nach einem Merkmal. Wenn alle ihre Berufsdaten oder andere Analysedaten nach demselben Standard erheben, werden solche Ansätze außerdem vergleichbar. Zudem wird transparent nachverfolgbar, wie Ergebnisse entstehen. Solche Techniken sind eine wichtige Grundlage für das sogenannte Semantic Web, welches Daten im Internet standardisiert strukturiert und einem Kontext zuordnet, sodass sie zum Beispiel durch Suchmaschinen besser automatisiert ausgelesen werden können.

Wie funktionieren dann die Forschungsdateninfrastrukturen ganz praktisch?
Die meisten Konsortien arbeiten als verteilte Netzwerke. An der Universitäts- und Landesbibliothek Sachsen-Anhalt ist zum Beispiel mit share_it eine digitale Plattform entstanden, in der Forschungsdaten abgelegt und publiziert werden können. Das Historische Datenzentrum Sachsen-Anhalt unterstützt diesen Prozess über Datenkuration und Hilfestellungen zu Dokumentationsprozessen. Solche Infrastrukturen werden momentan an vielen Stellen geschaffen und dann gegebenenfalls als vertrauenswürdige Einrichtungen zertifiziert. Der gemeinsame Data Space, den wir für die historisch arbeitenden Disziplinen schaffen wollen, nutzt diese dezentralen Server und ermöglicht es, über eine zentrale Suchplattform auf die verschiedenen Datenbanken zuzugreifen.

Kategorien

Wissenschaft

Weitere Artikel zum Thema

07.04.2016 in Im Fokus

Daten erzählen Geschichte

Ganz gleich, ob es sich um alte Fotos oder mittelalterliche Stadtbücher handelt – historische Daten bilden die Grundlage für die Forschung am Institut für Geschichte. Doch was ist bei der Arbeit mit Daten und bei deren Digitalisierung und zu beachten? Dazu berät Dr. Katrin Moeller angehende Historiker. Artikel lesen

Kommentar schreiben