CompreSSM: Neues Verfahren ermöglicht schlankere KI-Modelle

Forscher des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) haben in Zusammenarbeit mit anderen Instituten wie dem Max-Planck-Institut und der ETH Zürich eine neue Methode namens CompreSSM entwickelt. Diese Technik ermöglicht es, KI-Modelle bereits während der Lernphase schlanker und schneller zu machen, ohne dabei deutliche Leistungseinbußen in Kauf nehmen zu müssen. CompreSSM richtet sich speziell an eine Familie von KI-Architekturen, die als Zustandsraummodelle (State-Space Models) bekannt sind und unter anderem in der Sprachverarbeitung, Audiogenerierung und Robotik eingesetzt werden.

Der Ansatz: Komprimierung direkt im Lernprozess

Bisher standen Entwickler vor einem Dilemma: Entweder man trainiert ein massives, teures Modell und kürzt es nachträglich (Pruning), oder man trainiert von vornherein ein kleines Modell und akzeptiert eine schwächere Leistung.

CompreSSM bietet eine Alternative, indem es die Komprimierung nicht als nachträglichen Schritt, sondern als Teil des Lernprozesses selbst betrachtet. Die Methode bedient sich mathematischer Werkzeuge aus der Kontrolltheorie, um frühzeitig zu identifizieren, welche Teile des Modells tatsächlich nützlich sind und welche nicht.

Eine wichtige Erkenntnis der Forscher ist, dass sich die relative Wichtigkeit der verschiedenen Modellkomponenten überraschend früh stabilisiert. Durch die Nutzung der Hankel Singularwerte, einer mathematischen Größe, lässt sich messen, wie viel jeder interne Zustand zum Gesamtverhalten des Modells beiträgt. Nach nur etwa 10 Prozent des Trainingsprozesses lässt sich zuverlässig einstufen, welche Dimensionen wichtig sind. Die unwichtigen Komponenten werden dann sicher entfernt, sodass die verbleibenden 90 Prozent des Trainings mit der deutlich höheren Geschwindigkeit eines kleinen Modells ablaufen können.

Vorteile gegenüber herkömmlichen Methoden

Im Vergleich zu etablierten Alternativen bietet CompreSSM entscheidende Vorzüge:

Keine verschwendete Rechenleistung: Beim klassischen Pruning muss zunächst das volle, rechenintensive Training eines großen Modells abgeschlossen werden. CompreSSM spart diese Kosten durch die Komprimierung bereits mitten im Prozess.
Kein doppelter Aufwand: Bei der „Knowledge Distillation" muss erst ein großes Lehrermodell und anschließend ein kleineres Distilled Modell trainiert werden. CompreSSM erzielt die Leistung eines großen Modells, indem es komplexe Dynamiken in einer Aufwärmphase erfasst und nur die nützlichsten Zustände behält.
Hohe Geschwindigkeit: Im Vergleich zu einer anderen aktuellen Spektraltechnik, der „Hankel Nuclear Norm Regularization", erwies sich CompreSSM als mehr als 40-mal schneller und erreichte dabei sogar eine höhere Genauigkeit.

Beeindruckende Leistungsdaten und ein integriertes Sicherheitsnetz

Die empirischen Ergebnisse von CompreSSM sind bemerkenswert. Bei Bildklassifizierungs-Benchmarks wie CIFAR-10 wurden die komprimierten Modelle bis zu 1,5-mal schneller trainiert, während sie nahezu die gleiche Genauigkeit wie die vollformatigen Versionen beibehielten. Ein Modell, dessen Zustandsdimension auf etwa ein Viertel reduziert wurde, erreichte eine Genauigkeit von 85,7 Prozent. Zum Vergleich: Ein Modell, das von Beginn an in dieser kleinen Größe trainiert wurde, lag die Genauigkeit bei nur 81,8 Prozent.

Noch größere Unterschiede zeigten sich bei der weit verbreiteten Architektur „Mamba": Hier konnte CompreSSM ein 128-dimensionales Modell auf etwa 12 Dimensionen komprimieren, die wettbewerbsfähige Leistung beibehalten und dabei eine etwa 4-fache Steigerung der Trainingsgeschwindigkeit erzielen.

Zusätzlich bietet die Methode ein pragmatisches Sicherheitsnetz: Weil das Team mathematisch beweisen konnte, dass sich die Wichtigkeit der Zustände während des Trainings reibungslos ändert und stabil bleibt, sind unerwünschte Überraschungen unwahrscheinlich. Sollte ein Komprimierungsschritt dennoch zu einem unerwarteten Leistungsabfall führen, können Entwickler jederzeit zu einem zuvor gespeicherten Checkpoint zurückkehren.

Anwendungsbereiche und Zukunftsausblick

In der Praxis funktioniert CompreSSM am besten bei sogenannten MIMO-Modellen (Multi-Input, Multi-Output), weil hier der Zusammenhang zwischen der Größe des Zustandsraums und der Leistungsfähigkeit besonders stark ausgeprägt ist.

Die Forscher betrachten CompreSSM jedoch lediglich als Sprungbrett für weitere Entwicklungen. Während sich die Theorie am saubersten auf lineare, zeitinvariante Systeme anwenden lässt, hat das Team bereits Erweiterungen für zeitvariable Systeme wie Mamba demonstriert. Zukünftig planen sie, den Ansatz auf matrixwertige dynamische Systeme in linearen Aufmerksamkeitsmechanismen (Linear Attention) auszuweiten, bei denen der Zustand des Systems nicht durch einen Vektor, sondern durch eine Matrix bestimmt wird. Diese Erweiterung würde die Technik den Transformer-Architekturen näherbringen, auf denen die meisten der heutigen, massiven KI-Systeme basieren.

Erfahren Sie mehr

Ihr Wartungsspezialist für alle großen Hardware Hersteller

Durch Jahrzehnte lange Erfahrung wissen wir worauf es bei der Wartung Ihrer Data Center Hardware ankommt. Profitieren Sie nicht nur von unserer Erfahrung, sondern auch von unseren ausgezeichneten Preisen. Holen Sie sich ein unverbindliches Angebot und vergleichen Sie selbst.

Erfahren Sie mehr