Internationale DNA- und RNA-Datenbanken erreichen einen "gigantischen" Meilenstein

Die drei Mitglieder der International Nucleotide Sequence Database Collaboration (INSDC) haben mitgeteilt, dass ihre öffentlichen Archive für DNA- und RNA-Sequenzinformationen jetzt über 55 Millionen Sequenzen enthalten. Das entspricht 100 Gigabasen oder 100.000.000.000 Basen, den molekularen Bausteinen der DNA, die genetische Informationen kodieren. Die drei Mitglieder, die EMBL-Bank (im Europäischen Institut für Bioinformatik in Hinxton, VK, einer Einheit des Europäischen Laboratoriums für Molekularbiologie, EMBL), die GenBank in den USA und die DNA Data Bank in Japan, haben dank ihrer Datenaustauschpolitik gemeinsam diesen Meilenstein erreicht. Die drei Organisationen tauschen die ihnen zur Verfügung gestellten biologischen Informationen untereinander aus und machen so alle öffentlichen Nukleotidsequenzdaten weltweit und schnellstmöglich frei zugänglich. Je zwei der vier Basen - Adenin (A), Thymin (T), Guanin (G) und Cytosin (C) - sind zu Paaren verbunden, die dann wiederum eine lange Kette bilden, die bekannte Doppelhelix der Desoxyribonukleinsäure (DNA). Löst man die Verbindungen zwischen den Basenpaaren, die Wasserstoffbrücken, die A an T und C an G binden, so können die beiden Stränge der Doppelhelix getrennt werden. Die genetischen Informationen der DNA sind in der Basenabfolge kodiert. Normalerweise werden Sequenzen einfach anhand der Auflistung der Reihenfolge der Einzelbasen (oder Nukleotiden) auf einem der beiden Stränge (z. B. CCAAATATGGATT) beschrieben. Das genau ist die Art von Informationen, die zusammen mit Anmerkungen zu Herkunftsspezies und Funktion in den INSDC-Datenbanken gespeichert werden. "Das ist ein wichtiger Meilenstein in der Geschichte der Nukleotidsequenz-Datenbanken", so Graham Cameron, Associate Director des Europäischen Instituts für Bioinformatik des EMBL. "Vom ersten Eintrag in die EMBL-Datenbibliothek, der 1982 zur Verfügung gestellt wurde, bis zu den heute über 55 Millionen Sequenzeinträgen von mindestens 200.000 verschiedenen Organismen haben diese Ressourcen die Bedürfnisse der Molekularbiologen vorweggenommen und sie bedient - oft trotz ernsthafter Mittelknappheit." Die INSC besteht formell seit Februar 1987 und alle drei Datenbanken stammen aus den 1980er Jahren: Die EMBL-Bank, heute im EBI im VK, entstand als die EMBL-Datenbibliothek in Heidelberg in Deutschland; die GenBank aus den USA wurde kurze Zeit später im Los Alamos National Laboratory eingerichtet und ist dann ins National Center for Biotechnological Information in Bethesda, USA, umgezogen; die japanische DNA-Datenbank wurde 1986 im National Institute of Genetics in Mishima gegründet. David Lipman, Direktor des National Center for Biotechnology Information, erklärte weiterhin: "Die heutigen Nukleotidsequenz-Datenbanken ermöglichen es den Forschern, vollständige Genome, den genetischen Aufbau ganzer Ökosysteme und Sequenzen im Zusammenhang mit Patenten gemeinsam zu nutzen." Zu Beginn wurden die Daten auf Magnetband ausgetauscht und von Hand oder über Floppy-Disketten eingegeben. Heute kommen die Daten direkt aus den Genomsequenzierungsprojekten und dem Europäischen Patentamt, wodurch sichergestellt wird, dass alle öffentlichen Sequenzen so schnell wie möglich zugänglich sind. Forscher können ihre Daten auch direkt an eine der Organisationen liefern. Dank der einheitlichen Datenmodelle der drei Datenbanken werden alle Sequenzen automatisch über Nacht ausgetauscht und stehen dann in allen drei Datenbanken zur Verfügung. Ursprünglich wurden die Sequenzen manuell aus den Fachzeitschriften abgeschrieben und eingegeben. Aber im Laufe der Zeit hat sich der Prozess so weiterentwickelt, dass die direkte Eingabe der Nukleotidsequenzen in die Datenbanken ein Teil des Veröffentlichungsprozesses wurde. Das Prinzip wurde auch auf andere Bereiche ausgeweitet, einschließlich Proteomik und Modelle biologischer Prozesse. "Die INSDC hat den Grundstein für den Austausch von vielen Arten von biologischer Information gelegt", erklärt Takashi Gojobori, Direktor des japanischen Center for Information Biology and DNA Data Bank. "Wir treten gerade in das Zeitalter der Systembiologie ein und Forscher beginnen, komplexe Informationstypen auszutauschen, wie zum Beispiel die Ergebnisse von Versuchen, die die Aktivitäten von Tausenden von Genen messen, oder rechnergestützte Modelle ganzer Prozesse. Deshalb ist es wichtig, den Erfolg dieser drei Datenbanken, die Vorreiter für den offenen Austausch biologischer Informationen, zu feiern."

Herunterladen Den Inhalt der Seite herunterladen