Analog in-memory computing attention mechanism for fast and energy-efficient large language models
Nature Computational Science Veröffentlicht am 08. September 2025
Large language models (LLMs) werden zunehmend in alltägliche Anwendungen integriert, doch ihr wachsender Energieverbrauch stellt eine große Herausforderung dar. Während sich ein Großteil der Hardwareforschung auf MLP-Schichten konzentriert hat, die Modellparameter speichern, liegt ein wesentlicher Engpass im Aufmerksamkeitsmechanismus, der häufige Aktualisierungen des KV-Caches erfordert und daher einen schnellen, energieeffizienten und beschreibbaren Speicher benötigt.

In dieser Arbeit stellen wir eine analoge In-Memory-Computing-Aufmerksamkeitsarchitektur vor, die auf Gain-Cell-Speichern basiert. Diese Bauelemente sind CMOS-kompatibel, einfach zu beschreiben und eignen sich gut für die wiederholten Aktualisierungen, die für die Aufmerksamkeit erforderlich sind. Obwohl die Technologie noch nicht ausgereift ist, stellt sie einen vielversprechenden Weg in die Zukunft dar.
Autoren: Nathan Leroux, Paul-Philipp Manea, Chirag Sudarshan, Jan Finkbeiner, Sebastian Siegel, John Paul Strachan & Emre Neftci
https://doi.org/10.1038/s43588-025-00854-1
Kontakt
- Peter Grünberg Institut (PGI)
- Neuromorphic Compute Nodes (PGI-14)
Raum C0.11
Dr. Nathan Leroux
Postdoctoral Researcher
- Peter Grünberg Institut (PGI)
- Neuromorphic Software Ecosystems (PGI-15)