Bioinformatik: Offene Datenbanken helfen Forschern weltweit

07.04.2016 von Tom Leonhardt in Im Fokus, Forschung, Wissenschaft
Ohne öffentlich zugängliche Datenbanken wäre ein großer Teil der Bioinformatik-Forschung nicht oder nur schwer möglich. Auch an der Uni Halle nutzen die Forscher die öffentlichen Datensätze intensiv und geben im Gegenzug ihre Erkenntnisse wieder in die Gemeinschaft zurück.
Drei Milliarden Basenpaare sind auf der DNA-Doppelhelix angeordnet. Bioinformatiker entwickeln Algorithmen, mit deren Hilfe sich derart große Datensätze computergestützt analysieren lassen.
Drei Milliarden Basenpaare sind auf der DNA-Doppelhelix angeordnet. Bioinformatiker entwickeln Algorithmen, mit deren Hilfe sich derart große Datensätze computergestützt analysieren lassen. (Foto: Colourbox)

23 Chromosomen-Paare, etwa 23.000 Gene und mehr als drei Milliarden Basenpaare. So umfangreich ist das menschliche Erbgut. Darin liegen nicht nur Informationen darüber, ob ein Mensch grüne Augen und braune Haare hat. Auch Hinweise auf ein mögliches Krebsrisiko lassen sich im menschlichen Genom finden – wenn man denn weiß, an welcher Stelle man zu suchen hat und auch, wonach man sucht. Damit Mediziner, Genetiker und Biologen nicht über Jahre hinweg in riesigen Tabellen suchen müssen, entwickeln sie gemeinsam mit Bioinformatikern Algorithmen, mit denen sich diese riesengroßen Datensätze computergestützt und schneller durchsuchen lassen.

Dr. Jan Grau
Dr. Jan Grau
(Foto: Jan Grau)

Einer von ihnen ist Dr. Jan Grau, der in der Arbeitsgruppe Mustererkennung und Bioinformatik bei Prof. Dr. Stefan Posch an der Uni Halle forscht. „Unsere Methoden lassen sich aber nicht nur auf die menschliche DNA anwenden, sondern auch im Bereich der Pflanzengenetik oder auf Genome von Bakterien“, sagt Grau. Der Ansatz, große Daten mit Hilfe informatischer Methoden zu analysieren und daraus neue Erkenntnisse zu gewinnen, hat mittlerweile in vielen Bereichen der Natur- und auch in Teilen der Geistes- und Sozialwissenschaften Einzug gehalten.

Häufig forschen weltweit einige Forschergruppen zu ähnlichen Themen und Fragen. Es wäre mühsam, wenn die Wissenschaftler immer wieder von neuem Genome entschlüsseln oder die Struktur von Proteinen analysieren müssten. „Deshalb speisen Forscher ihre gewonnen Datensätze in große, öffentlich zugängliche Datenbanken – so genannte Repositorien“, berichtet Grau. So können hallesche Wissenschaftler auf Daten zurückgreifen, die in anderen Forschergruppen weltweit gewonnen wurden. „Wir profitieren von den offenen Daten in den großen Datenbanken. Dafür stellen wir Daten, die wir gemeinsam mit experimentellen Partnern gewinnen, ebenso in öffentlichen Datenbanken zur Verfügung. Außerdem geben wir neu entwickelte Methoden, die häufig auch auf Basis offener Daten entwickelt und getestet wurden, in die Community zurück.“ Mit Methoden meint er zum Beispiel Algorithmen, die schneller und besser nach Gemeinsamkeiten oder Mustern in den großen Datensätzen suchen können – das Erbgut eines Menschen etwa umfasst rund drei Gigabyte.

Derzeit arbeitet Grau in einem Forschungsprojekt mit dem ehemaligen halleschen Pflanzengenetiker Prof. Dr. Jens Boch, der inzwischen an die Universität Hannover berufen wurde. In ihrem Projekt untersuchen sie das Erbgut bakterieller Krankheitserreger, die unter anderem Reis-Pflanzen befallen.

Weltweit gibt es viele Repositorien, in denen Wissenschaftler ihre Rohdaten für andere Forscher öffentlich zur Verfügung stellen. Zwei der größten Plattformen sind das Portal „Genbank“, das vom National Center for Biotechnology Information in den USA betrieben wird, und die Datenbanken des European Bioinformatics Institute. Daneben gibt es aber noch viele kleine Datenbanken für spezielle Bereiche.

Viele internationale Fachzeitschriften fordern mittlerweile, dass die Rohdaten, auf denen ein Forschungsartikel basiert, öffentlich zugänglich sind. So können andere Wissenschaftler nicht nur die Angaben in einem Paper überprüfen, sondern sie können die Daten auch für ihre eigene Forschung weiterverwenden. Außerdem lassen sich Daten aus unterschiedlichen Quellen kombinieren und so Fragen beantworten, die mit einzelnen Datensätzen nicht zu ergründen wären, etwa über die Evolution im Pflanzen- und im Tierreich.

Damit die Forscher, die die Daten erhoben haben, nicht von anderen Kollegen bei der Publikation überholt werden, lässt sich der Zugang auf die Daten auch teilweise beschränken: Bis zur Veröffentlichung des eigenen Artikels etwa können die Daten nur für die Gutachter einsehbar sein. Die Forscher können auch entscheiden ihre Daten zwar vorab zu veröffentlichen, deren Verwendung bis zur Veröffentlichung des eigenen Artikels für weitere Publikationen jedoch einzuschränken.

Kontakt: Dr. Jan Grau
Bioinformatik
Tel.: 0345 5524768
E-Mail schicken

Weitere Artikel zum Thema

07.04.2016 in Im Fokus

Daten erzählen Geschichte

Ganz gleich, ob es sich um alte Fotos oder mittelalterliche Stadtbücher handelt – historische Daten bilden die Grundlage für die Forschung am Institut für Geschichte. Doch was ist bei der Arbeit mit Daten und bei deren Digitalisierung und zu beachten? Dazu berät Dr. Katrin Moeller angehende Historiker. Artikel lesen

07.04.2016 in Im Fokus

Freie Bildungsressourcen für jeden?

Nicht nur Forschungsdaten und wissenschaftliche Publikationen sind online oftmals frei zugänglich verfügbar: Viele Lehr- und Lernmaterialien sind heute unter dem Begriff der „Open Educational Resources“ im Internet zu finden. Uni-Dozenten, Lehrern und jedem Lernwilligen steht damit eine große Auswahl an Materialien zur Verfügung, bei deren Nutzung jedoch einiges zu beachten ist. Artikel lesen

Kommentar schreiben