In den letzten Jahren hat sich die Künstliche Intelligenz (KI) rasant entwickelt, insbesondere im Bereich der Sprachverarbeitung. Große Sprachmodelle (Large Language Models, LLMs) wie GPT (Generative Pre-trained Transformer) haben in der Forschung und Anwendung erhebliche Fortschritte erzielt. Diese Modelle sind jedoch oft proprietär und nicht für die breite Öffentlichkeit zugänglich, was sowohl die Transparenz als auch die Reproduzierbarkeit wissenschaftlicher Ergebnisse behindert. Vor diesem Hintergrund gewinnt die Entwicklung offener und modularer Rahmenwerke zur Schulung von KI-Agenten zunehmend an Bedeutung.
Ein solches Rahmenwerk ist Agent Lumos, das von einem internationalen Forscherteam entwickelt wurde. Es handelt sich um eines der ersten einheitlichen und modularen Frameworks für die Ausbildung von Open-Source-LLM-basierten Agenten. Agent Lumos zeichnet sich durch eine lernfähige, einheitliche und modulare Architektur aus, die aus einem Planungsmodul zur Generierung von hochrangigen Teilzielen und einem Verankerungsmodul besteht, das diese in Aktionen umsetzt, die mit verschiedenen Werkzeugen im Ausführungsmodul ausgeführt werden können.
Die Gestaltung von Lumos ermöglicht modulare Upgrades und eine breitere Anwendbarkeit auf vielfältige interaktive Aufgaben. Um ein generalisierbares Agentenlernen zu fördern, wurden umfangreiche, einheitliche und hochwertige Trainingsannotationen gesammelt, die sich aus vielfältigen, wahrheitsgetreuen Begründungsrationalen über verschiedene komplexe interaktive Aufgaben hinweg ableiten. In Experimenten mit neun Datensätzen zeigt Lumos mehrere Schlüsselvorteile:
1. Lumos übertrifft mehrere größere Open-Source-Agenten auf den zurückgehaltenen Datensätzen (nicht für das Training verwendet) für jeden Aufgabentyp. Lumos übertrifft sogar GPT-Agenten bei Frage-Antwort- und Web-Aufgaben.
2. Lumos erzielt bessere Ergebnisse als Open-Source-Agenten, die durch Gedankengänge (Chain-of-Thoughts) und nicht modulare integrierte Trainingsansätze erzeugt wurden.
3. Lumos generalisiert effektiv auf unvorhergesehene Aufgaben und übertrifft dabei 33B-große Agenten und domänenspezifische Agenten.
Die Anwendungsbereiche für Agent Lumos sind vielfältig und umfassen Frage-Antwort-Systeme, Mathematikaufgaben, Web-Browsing, multimodales Schließen und Textspiele. Um hochwertige Annotationen für das Training von Lumos zu erhalten, nutzt das Team die Begründungsrationale aus bestehenden Benchmarks über verschiedene Aufgabentypen hinweg und konvertiert sie in ein einheitliches Format. Mit Hilfe von starken LLMs wird sichergestellt, dass die konvertierten Annotationen einem universell anwendbaren Format folgen, das mit dem modularen Design von Lumos konsistent ist. Die vorgeschlagene Methodik zur Umwandlung von Annotationen resultiert in rund 56.000 Multi-Task-Multi-Domain-Agenten-Trainingsannotationen – eine der größten Open-Source-Ressourcen für das Feintuning von Agenten.
Die Ergebnisse der Evaluation zeigen, dass Lumos eine verbesserte oder vergleichbare Leistung mit GPT-basierten oder größeren Open-Source-Agenten über verschiedene komplexe interaktive Aufgaben hinweg bietet, die üblicherweise für die Evaluierung von Agenten verwendet werden. Insbesondere zeigt Lumos eine Verbesserung von 5,0 % gegenüber GPT-4 bei Mind2Web und von 4,1 % bzw. 3,5 % bei der LLM-Genauigkeit auf HotpotQA gegenüber den vollständig auf GPT-3.5-Turbo basierenden ReAct- und ReWOO-Agenten.
Das Team hinter Lumos plant, den Code und die Daten öffentlich zugänglich zu machen, was weitere Forschung und Entwicklung im Bereich der offenen Sprachagenten ermöglichen soll. Das Projekt hat bereits jetzt erhebliche Aufmerksamkeit in der KI-Community erregt, was sich in der breiten Diskussion auf sozialen Medien und Fachforen widerspiegelt.
Die Entwicklung von Lumos ist ein bedeutender Schritt in Richtung einer transparenteren und demokratischeren KI-Forschung und -Anwendung. Durch die Bereitstellung eines Open-Source-Frameworks können Forscher und Entwickler weltweit auf die Ressourcen zugreifen und diese verbessern, was zu einer schnelleren Innovation und einer breiteren Akzeptanz führen könnte.
Die im Rahmen dieser Entwicklung veröffentlichten wissenschaftlichen Arbeiten sind über das Preprint-Server arXiv zugänglich, und der Code ist auf Plattformen wie GitHub und Hugging Face veröffentlicht worden. Diese Ressourcen bieten wertvolle Einblicke in die Struktur und Funktionsweise von Agent Lumos und ermöglichen es der KI-Gemeinschaft, auf der Arbeit des Forscherteams aufzubauen.
Quellen:
- Da Yin et al. "Agent Lumos: Unified and Modular Training for Open-Source Language Agents". arXiv:2311.05657
- Projektwebsite von Agent Lumos: https://github.com/allenai/lumos
- Hugging Face-Modelle & Daten: https://huggingface.co/ai2lumos
- Lumos-Datendemo: https://huggingface.co/spaces/ai2lumos/lumos_data_demo