Neuer Maßstab Butter-Bench: Große Sprachmodelle scheitern an praktischer Intelligenz in der Robotik
Andon Labs hat mit Butter-Bench einen neuen Benchmark zur Bewertung der praktischen Intelligenz von Robotern veröffentlicht, die durch große Sprachmodelle (LLMs) gesteuert werden. Praktische Intelligenz wird als die Fähigkeit definiert, sich in realen Situationen zurechtzufinden - im Gegensatz zur analytischen Intelligenz. Obwohl LLMs in Bewertungen der analytischen Intelligenz teilweise besser als Menschen abschneiden, zeigt
Zum Inhalt springen




