Daten erzählen Geschichte

07.04.2016 von wpunktw in Im Fokus
Ganz gleich, ob es sich um alte Fotos oder mittelalterliche Stadtbücher handelt – historische Daten bilden die Grundlage für die Forschung am Institut für Geschichte. Doch was ist bei der Arbeit mit Daten und bei deren Digitalisierung und zu beachten? Dazu berät Dr. Katrin Moeller angehende Historiker.
Katrin Moeller arbeitet im Instituts-Neubau am Steintor-Campus. Dort befindet sich auch das Historische Datenzentrum Sachsen-Anhalt.
Katrin Moeller arbeitet im Instituts-Neubau am Steintor-Campus. Dort befindet sich auch das Historische Datenzentrum Sachsen-Anhalt. (Foto: Michael Deutsch)

Was passiert mit Daten, wenn ein Forschungsprojekt zu Ende geht oder der Wissenschaftler, der es einst bearbeitete, die Uni wechselt oder emeritiert wird? „Dann sind die Daten bisher nicht selten einfach verloren gegangen“, sagt Dr. Katrin Moeller. Sie muss es wissen, denn als sie 2008 Leiterin des neu gegründeten Historischen Datenzentrums an der Martin-Luther-Universität wurde, ist sie auch mit dem Ziel angetreten, so etwas künftig verhindern zu helfen. Am Datenzentrum werden vor allem historische Quellen computergestützt aufbereitet, bereitgestellt und ausgewertet.

Wie wichtig ihr Job inzwischen ist, merkt Moeller nicht nur daran, dass es vorkommen kann, dass plötzlich Kollegen mit riesigen alten Disketten vor ihr stehen, und fragen, ob sie noch auf die darauf befindlichen Daten zugreifen könne, sondern auch daran, dass jeder Masterstudent des Instituts für Geschichte zu einer Beratung bei ihr erscheint. Sie erklärt dann nicht nur, wie Datensätze grundsätzlich erstellt und dokumentiert werden, sondern auch, wie diese später der Forschung zur weiteren Nutzbarmachung zur Verfügung gestellt werden können. Zugleich hilft sie den Kollegen, ihre Daten zu publizieren und baut dafür derzeit diverse Forschungsdatenserver mit auf.

Moeller im Gespräch mit Studierenden der Geschichte.
Moeller im Gespräch mit Studierenden der Geschichte.
(Foto: Michael Deutsch)

Außerdem müssten Studenten wie Mitarbeiter des Instituts für Geschichte den Umgang mit Daten im digitalen Zeitalter neu lernen. Um diesen Prozess zu erleichtern, wurde inzwischen einiges getan: „Mit der Novellierung unserer Masterstudiengänge haben wir auch eine Beratungspflicht zum Datenmanagement als Pflichtteil des Moduls Masterarbeit festgeschrieben. Wahrscheinlich tritt diese ab Wintersemester 2016/17 in Kraft“, so die Historikerin. Bereits im Bachelorstudiengang gibt es eine Vorlesung, in der es auch um den Einsatz digitaler Methoden in den Geisteswissenschaften geht. Während die Vorlesung eher den theoretischen Rahmen vorgibt, soll die Beratung ganz praktisch und individuell Fragen zu Forschungen während der Masterarbeit beantworten.

Bislang finden Studierende und Wissenschaftler häufig erst am Ende ihrer Arbeit, wenn es dann um konkrete Fragen der Auswertung von Daten geht, zur Leiterin des Historischen Datenzentrums. Oft habe sie dann feststellen müssen, dass die Daten – so wie sie aufgenommen und strukturiert wurden – gar nicht auswertbar sind oder erst mit großem Aufwand in die richtige Form gebracht werden müssen. Durch die Beratungspflicht sollen künftig bereits am Anfang eines Projekts grundlegende Regeln zur Anlage von Datenbanken oder Tabellen berücksichtigt werden.

Daten zerlegen, um sie nutzbar zu machen

Ein gutes Beispiel dafür ist die so genannte Atomisierung von Daten. Das bedeutet: In jeder Variable beziehungsweise in jeder Tabellenspalte darf auch nur eine Information stecken. Straßenname, Hausnummer, Postleitzahl und der Ort sind als vier Einzelinformationen festzuhalten, denn zusammenführen lassen sich Informationen immer leicht. Trennen dagegen kann man sie nur schwer. Überdies müssen auch die „versteckten“ Informationen erfasst werden. Werden beispielsweise Namen erfasst, erfährt man damit auch das Geschlecht einer Person. Dies muss jedoch separat erfasst werden, wenn man später mit diesen Namen zum Beispiel das Geschlecht als Kategorie auswerten will.

Grundsätzlich geht es Moeller darum, Daten langfristig nutzbar zu machen und zu bewahren. Man könne dabei schon deshalb nichts dem Zufall überlassen, weil historische Datensätze aus Forschungsprojekten bereits anlässlich ihrer Erstellung viel Geld gekostet haben. Zum Vergleich: Der Löwenanteil, nämlich bis zu 80 Prozent der Arbeit an einem Forschungsprojekt, fließt in die Aufbereitung der Quellen. Für die Analyse und Publikation von Ergebnissen benötigt man die restlichen 20 Prozent der Zeit. In gewisser Weise, so Katrin Moeller, sei das ein Missverhältnis.

Zugleich sei es aber auch Beleg für die Dringlichkeit, solche Daten künftig zu archivieren. Wie das gehen soll, darüber wird momentan in der Wissenschaft heftig diskutiert. „Open Access“ lautet das Stichwort. „Natürlich ist es gut, wenn Forschungsdaten künftig der Allgemeinheit zur Verfügung gestellt werden sollen“, meint Katrin Moeller. Mancher, sagt sie, habe dabei riesige anonyme Datenbanken vor Augen, die jeder nutzen könne. Dieses Szenario werfe allerdings Fragen auf, die bisher keiner genau beantworten könne. Etwa die Frage, wie man wissenschaftliche Leistungen messen kann und will, wenn es dann möglicherweise keine Urheberschaft von Daten mehr gibt.

Studenten digitalisieren historische Quellen

Wie groß der Aufwand einer Forschungsarbeit sein kann, zeigt ein Beispiel aus der Praxis: Drei Jahre hat es zum Beispiel gedauert, bis Katrin Moeller und ihre studentischen Hilfskräfte die historischen Aufzeichnungen von Sterbe-, Tauf- und Heiratsdaten aus der halleschen Mariengemeinde der Jahre von 1670 bis 1820 digitalisiert und transkribiert hatten.

Digitalisierte Daten sind schnell grafisch darstellbar. Die Grafik zeigt die Anzahl der Gestorbenen der halleschen Mariengemeinde zwischen 1600 und 1820. Deutlich zu erkennnen ist die Auswirkung der Pestepidemie 1682. (Quelle: Katrin Moeller)
Digitalisierte Daten sind schnell grafisch darstellbar. Die Grafik zeigt die Anzahl der Gestorbenen der halleschen Mariengemeinde zwischen 1600 und 1820. Deutlich zu erkennnen ist die Auswirkung der Pestepidemie 1682. (Quelle: Katrin Moeller)

Was zunächst banal klingt, war ein langwieriger diffiziler Prozess: Zunächst galt es, die zahllosen Blätter aus den Verzeichnissen einzeln zu lesen und zu erfassen. Damit das gelingen konnte, mussten sich die beteiligten Studenten zunächst mit den Details der Kurrentschrift vertraut machen, um die handschriftlichen Einträge überhaupt entziffern zu können.

In einem weiteren Schritt haben dann alle in den Registern genannten Personen eine ID-Nummer erhalten. „Record-Linkage“ nennt sich dieses Verfahren, das sicherstellen soll, dass alle mehrfach auftauchenden Personen sicher wieder identifiziert werden können.

Nicht zuletzt sieht die Historikerin ihre Aufgabe im Datenzentrum auch darin, neue digitale Methoden zu vermitteln. Um gerade Frauen für das digitale Arbeiten in Forschung und Lehre zu gewinnen, hat sie finanzielle Mittel eingeworben: Unter dem Titel „Frauenschlaue Datenpower“ wird sie demnächst in mehreren Workshops die Analyse und das Management von Forschungsdaten an Frauen vermitteln. Moeller: „Frauen denken oft, sie könnten weniger gut mit Computertechniken umgehen. Aus meiner Lehrpraxis weiß ich, dass dies ein Irrtum ist. Deshalb möchte ich Berührungsängste abbauen helfen.“ ­Ines Godazgar

 

ALT-TEXTWissenschaft auf einen Klick

Wie die Open Access-Bewegung die Wissenschaft verändert und welche Chancen und Herausforderungen diese Entwicklung bietet, darüber sprechen Stephan Feller und Stefan Artmann im Interview. Zum Interview


ALT-TEXTOffene Datenbanken helfen

Forschern weltweit

Ohne öffentliche Datenbanken wäre ein großer Teil der Bioinformatik nur schwer möglich. Auch in Halle nutzen die Wissenschaftler solche Datensätze intensiv. Zum Artikel


ALT-TEXTFreie Bildungsressourcen für jeden?

Nicht nur Forschungsdaten und wissenschaftliche Publikationen sind online oftmals frei zugänglich: Viele Lehr- und Lernmaterialien sind heute unter dem Begriff der „Open Educational Resources“ im Internet zu finden. Zum Artikel

Kategorien

Im Fokus

Kommentar schreiben