OneProt: Auf dem Weg zu multimodalen Protein-Grundlagenmodellen

Eine neue Studie, die von Forschenden in Helmholtz AI durchgeführt und in PLOS Computational Biology veröffentlicht wurde, stellt OneProt vor, ein neues und flexibles KI-System, das Wissenschaftler:innen helfen soll, Proteine besser zu verstehen. OneProt führt mithilfe des ImageBind-Frameworks viele Arten von Informationen über Proteine zusammen – beispielsweise ihre 3D-Strukturen, Aminosäuresequenzen, schriftliche Beschreibungen und Details zu Bindungsstellen. Dadurch kann das System verschiedene Datentypen effizient abgleichen, auch wenn sie nicht perfekt übereinstimmen.

Durch die Kombination von Graph Neural Networks mit Transformer-Modellen und die Nutzung der Rechenleistung von JUWELS Booster erzielt OneProt besonders gute Ergebnisse bei Aufgaben wie der Vorhersage von Enzymfunktionen und der Analyse von Proteinbindungsstellen. Es kann auch Informationen zwischen verschiedenen Datentypen austauschen, wodurch es einfacher wird, Ähnlichkeiten zwischen Proteinen zu erkennen.

OneProt: Auf dem Weg zu multimodalen Protein-Grundlagenmodellen
Übersicht des OneProt-Modells. Das Modell gleicht mehrere Modalitäten ab, darunter die primäre Proteinsequenz, die 3D-Proteinstruktur, Bindungsstellen und Textanmerkungen. Jede Modalität wird von ihrem jeweiligen Encoder verarbeitet, wodurch Einbettungen erzeugt werden, die in einem gemeinsamen latenten Raum abgeglichen sind, was das modalitätsübergreifende Lernen und die Integration erleichtert.

Das neue KI-System bietet zwei wesentliche Vorteile: Es kann während des Vortrainings neue Arten von Daten einbeziehen und lässt sich mit nur einer kleinen Ebene des neuronalen Netzwerks leicht feinabstimmen. Die Studie zeigt auch, dass die Verwendung mehrerer Datentypen den Bedarf an sehr großen Trainingsdatensätzen reduziert und dennoch eine starke Leistung erzielt. Darüber hinaus wurde durch eine detaillierte Ablationsstudie die Bedeutung des Bindungsstellen-Encoders hervorgehoben – eine Innovation, die in ähnlichen Modellen nicht zu finden ist. Insgesamt stellt OneProt einen bedeutenden Fortschritt in der multimodalen Proteinmodellierung dar und hat ein großes Potenzial für die Weiterentwicklung der Arzneimittelforschung und des Protein-Engineering.

Das Nachfolgeprojekt von OneProt, OneProtGPT, ist Teil der Gauss AI Compute Competition und läuft derzeit auf JUPITER. Es handelt sich um ein leistungsstarkes KI-Modell, das Proteindaten mit großen Sprachmodellen verbindet und so ein tieferes Verständnis von Proteinen über mehrere Arten von Informationen hinweg ermöglicht. Wissenschaftler:innen können damit konsistente und angereicherte Beschreibungen von Proteinen aus verschiedenen Eingaben generieren. Zu den Anwendungsbereichen gehören das Design neuer Proteine und die Optimierung industrieller Enzyme, was es zu einem potenziell wertvollen Werkzeug für Forschung und Industrie macht.

Der Artikel ist hier verfügbar (Open Access): OneProt: Towards multi-modal protein foundation models via latent space alignment of sequence, structure, binding sites and text encoders. Flöge K, Udayakumar S, Sommer J, Piraud M, Kesselheim S, et al. (2025). PLOS Computational Biology 21(11): e1013679. https://doi.org/10.1371/journal.pcbi.1013679

Kontakt: Alina Bazarova

Letzte Änderung: 25.11.2025