Wenn es darum geht, Wirtszellen zu kapern und sich deren Maschinerie zu bemächtigen, um den eigenen „Nachwuchs" zu produzieren, sind Viren Meister. Genau dabei offenbaren sie jedoch Bioinformatiker Andreas Dräger, Professor an der Universität Halle-Wittenberg, ihre Achillesferse: chemische Prozesse, die für die Virusreplikation unbedingt erforderlich sind, die die Wirtszelle jedoch nicht zwingend braucht. Um diese Schwachstellen vorhersagen zu können, hat Drägers Team ein Computermodell entwickelt, in das die kompletten Genomdaten des Stoffwechsels menschlicher Zellen einfließen. Indem dem Computer nur Informationen über die in einem bestimmten Zelltyp aktiven Gene zur Verfügung gestellt werden, können Modelle für Zehntausende verschiedene Zell- und Gewebetypen des Körpers erstellt werden. „Und dann haben wir dort quasi die Virusreplikation hinzugefügt", erklärt Dräger. Ihn interessiert, was sich dadurch am Zellstoffwechsel fundamental ändert, und wie wichtig diese Änderung für das Virus ist.
Erste Berechnung mit Daten des SARS-CoV-2-Coronavirus
Dazu müssen die Forschenden vorab ein paar Dinge wissen: die Genomsequenz des Virus, welche neuen Enzyme es in die Zelle einbringt und aus welchen Strukturen das Virus besteht. Anders als im Labor kann im Computer jede der etwa 13.000 Stoffwechselreaktionen in der Zelle einzeln ausgeschaltet und dann simuliert werden, ob nun noch Viruspartikel entstehen können. Dräger, damals noch Professor an der Universität Tübingen, und sein Team haben dies erstmals 2020 für das SARS-CoV-2-Coronavirus rechnen lassen – und zwar für die Infektion von Alveolar-Makrophagenzellen, nicht wissend, dass genau dieser Zelltyp das Virus bis tief in die Lunge tragen und damit zu den schwereren Krankheitsbildern von COVID-19 beitragen kann. Diese Technik wurde später gemeinsam mit Prof. Christoph Kaleta von der Universität Kiel verfeinert. Die ersten Ergebnisse – etliche für die Virusvermehrung essenzielle Reaktionen – spuckte der Computer bereits nach zwei Arbeitswochen aus.
Am Ende blieben zwei für das Virus wichtige zelluläre Stoffwechselreaktionen übrig, die zwar in allen menschlichen Körperzellen stattfinden, aber notfalls für die Zellen verzichtbar oder zumindest nicht alternativlos sind. Werden sie blockiert, wird jeweils eine für die Replikation von SARS-CoV-2 essenzielle Reaktion ausgeschaltet. Katalysiert werden diese zwei Reaktionen durch das Enzym Succinatdehydrogenase beziehungsweise den Komplex I der Atmungskette – ein Redoxsystem in der Zellmembran, das eine wichtige Komponente der zellulären Energiegewinnung darstellt. Für Enzyme gibt es in der Regel Hemmstoffe, denn jede Zelle muss die Produktion einer Substanz wieder drosseln können, wenn sie ausreichend davon hergestellt hat. Für etliche gibt es heute bereits synthetische Inhibitoren.
Wiederentdeckung bekannter Wirkstoffe als Virusinhibitoren
Phenformin blockiert effektiv den Komplex I der Atmungskette. Der Wirkstoff war bereits als Diabetes-Mittel zugelassen, wurde wegen Nebenwirkungen aber wieder vom Markt genommen. „Wenn sich diese reduzieren lassen, könnte die Substanz in leicht veränderter Form erneut zugelassen werden", sagt Andreas Dräger. Atpenin A5, ein experimenteller Wirkstoff, hemmt die Succinatdehydrogenase. Beide Substanzen wurden inzwischen im Tübinger Labor von Prof. Michael Schindler erfolgreich in vitro getestet – sowohl gegen SARS-CoV-2 als auch gegen das Denguevirus, das durch Mücken übertragen wird und weltweit zu schweren Infektionen führt. Atpenin A5 war auch gegen weitere Atemwegserreger wie Influenza und das Respiratorische Synzytialvirus aktiv. „Da die durch das Computermodell vorhergesagten Stoffwechselwege und deren Produkte essenzielle Bausteine für die Vermehrung sehr vieler Viren darstellen, haben wir vermutet, dass die Substanzen gegen viele unterschiedliche Viren wirken. Diese Hypothese hat sich bestätigt", sagt Dräger. Mit Phenformin und Atpenin A5 haben die Forschenden also zwei neue Virostatika entdeckt, die gegen mehrere verschiedene Viren aktiv sind.
DIE ACHILLESFERSE VON VIREN SIND CHEMISCHE PROZESSE, DIE FÜR DIE VIRUSREPLIKATION UNBEDINGT ERFORDERLICH SIND, DIE DIE WIRTSZELLE JEDOCH NICHT ZWINGEND BRAUCHT.
Wenn es darum geht, Wirtszellen zu kapern und sich deren Maschinerie zu bemächtigen, um den eigenen „Nachwuchs" zu produzieren, sind Viren Meister.
Eigenschaften von Bakterien vorhersagen
Völlig anders arbeitet Dr. Philip Münch, Bioinformatiker in der von Prof. Alice McHardy geleiteten Abteilung „Bioinformatik der Infektionsforschung" am Helmholtz-Zentrum für Infektionsforschung in Braunschweig. Im Rahmen eines DZIF-Projektes trainiert er mit Deep-Learning-Ansätzen eine künstliche Intelligenz (KI), die Eigenschaften von Bakterien vorhersagen soll. Basis für Münchs Arbeit ist BacDive (Bacterial Diversity Metadatabase), die weltweit größte Datenbank für standardisierte Informationen zu Eigenschaften, sogenannten Phänotypen, von Bakterien und Archaeen – einer neben den Bakterien weiteren Domäne zellkernloser einzelliger Organismen. Sie wird von Forschenden des Braunschweiger Leibniz-Instituts DSMZ–Deutsche Sammlung von Mikroorganismen und Zellkulturen mit Daten gefüttert.
Aktuell verfügt BacDive über Genomdaten zu 20.060 Stämmen. Jedoch ist nur ein kleiner Bruchteil dieser Stämme phänotypisiert – also ihre Eigenschaften erfasst. Wichtig zu wissen: Ist ein Bakterienstamm Gram-positiv oder -negativ (ein Merkmal, das sich aus der Gram-Differenzialfärbung ergibt und auf signifikante Unterschiede in der Zellwandstruktur hinweist)? Auf welchem Nährboden (meist zuckerhaltig) und bei welcher Temperatur und welchem pH-Wert wächst er? Ist er aerob oder anaerob? Philipp Münch interessieren jedoch vorrangig die „gefährlichen Eigenschaften": Können die Bakterien Sporen bilden, sind sie schwerer abzutöten, weil sie in diesen Dauerstadien wesentlich unempfindlicher sind? Beweglichkeit (Motility) ist ebenfalls ein Risikofaktor, und natürlich Antibiotikaresistenz. Ziel der Forschung ist es, die Eigenschaften Tausender Bakterienstämme vorherzusagen. Die Daten werden der Forschungsgemeinschaft frei zur Verfügung gestellt werden. Das wird Forschenden weltweit viel Arbeit abnehmen und es ermöglichen, sich im Labor auf die wesentlichen Tests zu konzentrieren.
MÜNCHS ANSATZ IST SPEZIELL, DENN ER MACHT DEM COMPUTER PRAKTISCH KEINE VORGABEN.
Münchs Ansatz ist speziell, denn er macht dem Computer praktisch keine Vorgaben. Er stellt ihm lediglich eine Frage – zum Beispiel: Bildet das Bakterium Sporen oder nicht? – und das Programm muss nun selbst herausfinden, welche Bereiche im Genom dafür wichtig sind. „Wir geben dem Modell die Daten als Input, die dann durch mehrere Schichten (Layer) des neuronalen Netzes verarbeitet werden. Am Ende liefert das Modell eine Vorhersage", erklärt Münch. Die Layer bestehen aus miteinander verbundenen künstlichen Neuronen. Zu Beginn des Trainings ist die Gewichtung dieser Verbindungen zunächst zufällig. Ist die Vorhersage falsch, passt das Programm die Gewichtung mithilfe eines Optimierungsalgorithmus an, um den Fehler zu minimieren. Dieser Prozess wird wiederholt, bis das Modell eine akzeptable Genauigkeit erreicht hat. „Die ersten Layer extrahieren meist einfache Merkmale aus den Daten, ähnlich wie bei der Bilderkennung, wo zunächst Kanten und Ecken erkannt werden. Die späteren Schichten kombinieren diese Merkmale zu komplexen Mustern, bis schließlich die Vorhersage getroffen werden kann", sagt Münch.
Deep Learning optimal auf genomische Daten anwenden
Die meisten Fortschritte im Bereich des Deep Learnings wurden bisher bei der Sprach- und Bildverarbeitung erzielt. Hier haben sich bestimmte „Layer-Architekturen" als besonders effektiv erwiesen, und es gibt umfangreiches Wissen und Erfahrung in der Anwendung dieser Techniken. Bei der Analyse von Genomdaten stellt sich jedoch die Frage, ob das Genom eher wie ein Text oder wie ein Bild verarbeitet werden sollte. Im Gegensatz zu Sprach- oder Bildverarbeitung ist noch nicht klar, welche „Layer-Architektur" für genetische Daten am besten geeignet ist. Diese Frage ist von großer Bedeutung, da die Wahl der richtigen Architektur entscheidend für die Leistungsfähigkeit des Deep-Learning-Modells ist.
Um diese Frage zu beantworten, untersucht Münch, wie „Layer-Architekturen" für die Analyse genetischer Daten optimiert werden können. In seiner Arbeit evaluierte er zusammen mit seinem Team systematisch über 2.000 verschiedene Architektur-Designs, um herauszufinden, welche Konfiguration für die Analyse von Genomdaten am effektivsten ist.
„Unsere Ergebnisse deuten darauf hin, dass für die Analyse von Genomdaten die ersten Schichten des neuronalen Netzes eher wie bei der Bildverarbeitung aussehen sollten", erklärt Münch. „Die ‚Convolutional Layer‘-genannten Faltungsschichten zu Beginn des Netzes scheinen besonders wichtig zu sein, um lokale Muster und Motive in den DNA-Sequenzen zu erkennen – ähnlich wie Kanten und Texturen in Bildern. Die globale Zusammenfassung dieser lokalen Merkmale erfolgt dann in späteren Schichten." Die gewonnenen Erkenntnisse über die optimale Anwendung von Deep Learning auf genomische Daten ebnen den Weg für die Entwicklung leistungsfähiger Modelle, die zukünftig die Vorhersage der Eigenschaften von Bakterien ermöglichen werden.
DIE DATEN WERDEN DER FORSCHUNGSGEMEINSCHAFT FREI ZUR VERFÜGUNG GESTELLT WERDEN.