Analog in-memory computing attention mechanism for fast and energy-efficient large language models

Nature Computational Science Veröffentlicht am 08. September 2025

Large language models (LLMs) werden zunehmend in alltägliche Anwendungen integriert, doch ihr wachsender Energieverbrauch stellt eine große Herausforderung dar. Während sich ein Großteil der Hardwareforschung auf MLP-Schichten konzentriert hat, die Modellparameter speichern, liegt ein wesentlicher Engpass im Aufmerksamkeitsmechanismus, der häufige Aktualisierungen des KV-Caches erfordert und daher einen schnellen, energieeffizienten und beschreibbaren Speicher benötigt.

Analog in-memory computing attention mechanism for fast and energy-efficient large language models

In dieser Arbeit stellen wir eine analoge In-Memory-Computing-Aufmerksamkeitsarchitektur vor, die auf Gain-Cell-Speichern basiert. Diese Bauelemente sind CMOS-kompatibel, einfach zu beschreiben und eignen sich gut für die wiederholten Aktualisierungen, die für die Aufmerksamkeit erforderlich sind. Obwohl die Technologie noch nicht ausgereift ist, stellt sie einen vielversprechenden Weg in die Zukunft dar.

Autoren: Nathan Leroux, Paul-Philipp Manea, Chirag Sudarshan, Jan Finkbeiner, Sebastian Siegel, John Paul Strachan & Emre Neftci
https://doi.org/10.1038/s43588-025-00854-1

Kontakt

  • Peter Grünberg Institut (PGI)
  • Neuromorphic Compute Nodes (PGI-14)
Gebäude TZA-Aachen /
Raum C0.11
+49 241/92-780421
E-Mail

Dr. Nathan Leroux

Postdoctoral Researcher

  • Peter Grünberg Institut (PGI)
  • Neuromorphic Software Ecosystems (PGI-15)
Gebäude TZA-Aachen Aachen
+49 241/92-780921
E-Mail

Letzte Änderung: 19.09.2025