Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben in Zusammenarbeit mit anderen Instituten wie dem Max-Planck-Institut und der ETH Zürich eine neue Methode namens CompreSSM entwickelt. Diese Technik ermöglicht es, KI-Modelle bereits während der Lernphase schlanker und schneller zu machen, ohne dabei deutliche Leistungseinbußen in Kauf nehmen zu müssen. CompreSSM richtet sich speziell an eine Familie von KI-Architekturen, die als Zustandsraummodelle (State-Space Models) bekannt sind und unter anderem in der Sprachverarbeitung, Audiogenerierung und Robotik eingesetzt werden.
Der Ansatz: Komprimierung direkt im Lernprozess
Bisher standen Entwickler vor einem Dilemma: Entweder man trainiert ein massives, teures Modell und kürzt es nachträglich (Pruning), oder man trainiert von vornherein ein kleines Modell und akzeptiert eine schwächere Leistung.
CompreSSM bietet eine Alternative, indem es die Komprimierung nicht als nachträglichen Schritt, sondern als Teil des Lernprozesses selbst betrachtet. Die Methode bedient sich mathematischer Werkzeuge aus der Kontrolltheorie, um frühzeitig zu identifizieren, welche Teile des Modells tatsächlich nützlich sind und welche nicht.
Eine wichtige Erkenntnis der Forscher ist, dass sich die relative Wichtigkeit der verschiedenen Modellkomponenten überraschend früh stabilisiert. Durch die Nutzung der Hankel Singularwerte, einer mathematischen Größe, lässt sich messen, wie viel jeder interne Zustand zum Gesamtverhalten des Modells beiträgt. Nach nur etwa 10 Prozent des Trainingsprozesses lässt sich zuverlässig einstufen, welche Dimensionen wichtig sind. Die unwichtigen Komponenten werden dann sicher entfernt, sodass die verbleibenden 90 Prozent des Trainings mit der deutlich höheren Geschwindigkeit eines kleinen Modells ablaufen können.
Vorteile gegenüber herkömmlichen Methoden
Im Vergleich zu etablierten Alternativen bietet CompreSSM entscheidende Vorzüge:
- Keine verschwendete Rechenleistung: Beim klassischen Pruning muss zunächst das volle, rechenintensive Training eines großen Modells abgeschlossen werden. CompreSSM spart diese Kosten durch die Komprimierung bereits mitten im Prozess.
- Kein doppelter Aufwand: Bei der „Knowledge Distillation" muss erst ein großes Lehrermodell und anschließend ein kleineres Distilled Modell trainiert werden. CompreSSM erzielt die Leistung eines großen Modells, indem es komplexe Dynamiken in einer Aufwärmphase erfasst und nur die nützlichsten Zustände behält.
- Hohe Geschwindigkeit: Im Vergleich zu einer anderen aktuellen Spektraltechnik, der „Hankel Nuclear Norm Regularization", erwies sich CompreSSM als mehr als 40-mal schneller und erreichte dabei sogar eine höhere Genauigkeit.
Beeindruckende Leistungsdaten und ein integriertes Sicherheitsnetz
Die empirischen Ergebnisse von CompreSSM sind bemerkenswert. Bei Bildklassifizierungs-Benchmarks wie CIFAR-10 wurden die komprimierten Modelle bis zu 1,5-mal schneller trainiert, während sie nahezu die gleiche Genauigkeit wie die vollformatigen Versionen beibehielten. Ein Modell, dessen Zustandsdimension auf etwa ein Viertel reduziert wurde, erreichte eine Genauigkeit von 85,7 Prozent. Zum Vergleich: Ein Modell, das von Beginn an in dieser kleinen Größe trainiert wurde, lag die Genauigkeit bei nur 81,8 Prozent.
Noch größere Unterschiede zeigten sich bei der weit verbreiteten Architektur „Mamba": Hier konnte CompreSSM ein 128-dimensionales Modell auf etwa 12 Dimensionen komprimieren, die wettbewerbsfähige Leistung beibehalten und dabei eine etwa 4-fache Steigerung der Trainingsgeschwindigkeit erzielen.
Zusätzlich bietet die Methode ein pragmatisches Sicherheitsnetz: Weil das Team mathematisch beweisen konnte, dass sich die Wichtigkeit der Zustände während des Trainings reibungslos ändert und stabil bleibt, sind unerwünschte Überraschungen unwahrscheinlich. Sollte ein Komprimierungsschritt dennoch zu einem unerwarteten Leistungsabfall führen, können Entwickler jederzeit zu einem zuvor gespeicherten Checkpoint zurückkehren.
Anwendungsbereiche und Zukunftsausblick
In der Praxis funktioniert CompreSSM am besten bei sogenannten MIMO-Modellen (Multi-Input, Multi-Output), weil hier der Zusammenhang zwischen der Größe des Zustandsraums und der Leistungsfähigkeit besonders stark ausgeprägt ist.
Die Forscher betrachten CompreSSM jedoch lediglich als Sprungbrett für weitere Entwicklungen. Während sich die Theorie am saubersten auf lineare, zeitinvariante Systeme anwenden lässt, hat das Team bereits Erweiterungen für zeitvariable Systeme wie Mamba demonstriert. Zukünftig planen sie, den Ansatz auf matrixwertige dynamische Systeme in linearen Aufmerksamkeitsmechanismen (Linear Attention) auszuweiten, bei denen der Zustand des Systems nicht durch einen Vektor, sondern durch eine Matrix bestimmt wird. Diese Erweiterung würde die Technik den Transformer-Architekturen näherbringen, auf denen die meisten der heutigen, massiven KI-Systeme basieren.
Ihr Wartungsspezialist für alle großen Hardware Hersteller
Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.
Weitere Artikel
KI-Revolution in Medizin und Raumfahrt Alpha Genome, EDEN und die Zukunft der Rechenzentren im All
️ Über diese Episode Episode 58 ist vollgepackt mit bahnbrechenden KI-Entwicklungen: Von Rechenzentren im Weltraum über Open-Source-Modelle, die
Zusammenarbeit: Snowflake integriert KI-Modelle von OpenAI
Der Data-Cloud-Anbieter Snowflake und OpenAI haben eine Zusammenarbeit im Volumen von 200 Millionen US-Dollar vereinbart. Kern dieser Kooperation ist die
Fujitsu startet neue Plattform für autonome und souveräne generative KI im Unternehmen
Fujitsu hat einen neue KI-Plattform entwickelt, die Unternehmen autonom verwenden können. Die Plattform soll die Entwicklung, den Betrieb und das
Zum Inhalt springen



