Services

Das IBG-5 stellt Dienstleistungen und Werkzeuge für die Forschung zur Verfügung, insbesondere im Bereich der Metagenomik und der Lebenswissenschaften. Dabei werden Kompetenzen aus den zentralen Forschungsbereichen des IBG-5, der computergestützten Metagenomik und dem Cloud Computing eingebracht.

de.NBI Cloud

Die de.NBI Cloud bietet als föderal organisierte, akademische Cloud kostenlose Rechen- und Speicherressourcen für Forschende der Lebenswissenschaften. Die Ressourcen werden von 8 verschiedenen Standorten gemeinschaftlich zur Verfügung gestellt. Durch die leistungsstarke Hardware und die Bereitstellung spezieller Ressourcen, wie etwa GPUs, können Forschende Daten von nahezu beliebiger Menge und Komplexität verarbeiten und analysieren. Ein zentrales Cloud-Portal ermöglicht es, Cloud-Ressourcen einfach anzufragen und zu verwalten. Der Zugriff auf die Plattform und die Cloud-Ressourcen wird über eine zentrale Authentifizierungs- und Autorisierungs-Infrastruktur (LifeScience Login) gesteuert.

cloud.denbi.de

SimpleVM

Diese aus einem de.NBI-Cloud-Projekttyp hervorgegangene Plattform macht Cloud-Computing für jedermann zugänglich. Virtuelle Maschinen und skalierbare Cluster können unabhängig von der Cloud-Erfahrung der Nutzer mit wenigen Klicks gestartet und verwaltet werden. Dabei können beliebte Tools wie RStudio® und andere Forschungsumgebungen in der Cloud genutzt und über den Webbrowser bedient werden. Hinzu kommt die einfache Installation von Paketen über Anaconda®. Der Workshop-Modus ermöglicht die einfache Durchführung von Kursen und Trainings in der Cloud, da virtuelle Maschinen beliebig und einfach vorkonfiguriert und den Teilnehmern zur Verfügung gestellt werden können.

SimpleVM

Tools

Metagenomic Toolkit

Die Metagenomanalyse komplexer Ökosysteme mit Tausenden von Datensätzen, wie sie im Sequence Read Archive des NCBI verfügbar sind, erfordert erhebliche Rechenressourcen, um die Analyse in akzeptabler Zeit durchzuführen. Darüber hinaus ist eine effiziente Nutzung der zugrundeliegenden Infrastruktur unabdingbar. Jede Analyse muss vollständig reproduzierbar und der Workflow öffentlich zugänglich sein, damit die Logik hinter den berechneten Ergebnissen nachvollziehbar ist.

Darüber hinaus beinhaltet das Metagenomics Toolkit einen für das maschinelle Lernen optimierten Assemblierungsschritt, der den von einem Metagenom-Assembler benötigten Peak-RAM an die tatsächlichen Anforderungen anpasst und so die Abhängigkeit von dedizierter Hardware mit hohem Arbeitsspeicher minimiert. Das Metagenomics Toolkit kann auf einzelnen Workstations ausgeführt werden, bietet aber auch verschiedene Optimierungen für eine effiziente Cloud-basierte Ausführung in Clustern.

EMGB

Der Exploratory MetaGenome Browser (EMGB) ist eine webbasierte Plattform zur interaktiven Visualisierung und Analyse von Metagenomdatensätzen, die mit dem Metagenomics Toolkit bearbeitet wurden. Er ermöglicht Echtzeit-Suchen in großen Datensätzen, die Millionen von Genen und Annotationen enthalten. Zu den Hauptfunktionen gehören ein interaktiver taxonomischer Baum, Gene Ontology (GO) und KEGG-Stoffwechselkarten, die es den Nutzern ermöglichen, Gene, Contigs, MAGs, Stoffwechselwege und biologische Prozesse zu erkunden.

Die Plattform unterstützt vielfältige Filteroptionen und ermöglicht den Vergleich von Datensätzen, um das metabolische Potential mikrobieller Gemeinschaften zu bewerten. Ein integrierter Contig Viewer bietet detaillierte Einblicke in den genetischen Kontext und regulatorische Muster. Über Blastp/Blastx können Forscher in allen Datensätzen auch nach externen Nukleotid- und Proteinsequenzen suchen. Zusätzlich enthält die Plattform das "Insights"-Modul, das die Identifizierung von MAGs mit Schlüsselenzymen für die anaerobe Gärung erleichtert und so die Rekonstruktion mikrobieller Funktionen in Fermentationsprozessen unterstützt. EMGB wurde mit HTML5 und AngularJS entwickelt und unterstützt sowohl Desktop- als auch Mobilgeräte.

Reflexiv

Reflexiv ist ein quelloffener, paralleler De-novo-Genom-Assembler, der in einem Computer-Cluster oder in der Cloud skaliert werden kann. Er löst das Problem des hohen Speicherverbrauchs bei der De-novo-Genomassemblierung, indem er verteilte Rechenressourcen nutzt. Außerdem verbessert es die Laufzeitleistung durch einen parallelen Assembler-Algorithmus. Es basiert auf der Apache Spark-Plattform, verwendet Spark RDD (resilient distributed dataset), um große Mengen an k-mers über den Cluster zu verteilen, und assembliert das Genom auf rekursive Weise. Auf der Ebene des Algorithmus haben wir eine K-Mer-Reduktionsstrategie eingeführt, mit der große Mengen redundanter K-Mere aus den Sequenzierungsdaten entfernt werden, wodurch die wiederholte Assemblierung verschiedener K-Mer-Längen vermieden und die Laufzeitleistung weiter verbessert wird. Das Ergebnis ist, dass Reflexiv Terabytes von Metagenomics-Sequenzierungsdaten auf einem gewöhnlichen Inhouse-Cluster mit weniger als 200 Gigabytes Speicherverbrauch verarbeiten kann.

Letzte Änderung: 27.03.2025

Institut für Bio- und Geowissenschaften (IBG)

Computergestützte Metagenomik (IBG-5)

Services

de.NBI Cloud

SimpleVM

Tools

Metagenomic Toolkit

EMGB

Reflexiv

Forschungszentrum Jülich GmbH