In den letzten Jahren hat sich die Robotik rasant weiterentwickelt, und es wurden bemerkenswerte Fortschritte in der Entwicklung autonomer Agenten erzielt. Diese Entwicklung wird maßgeblich von der Integration Künstlicher Intelligenz (KI) und insbesondere durch den Einsatz von Foundation Models vorangetrieben. Ein kürzlich auf der Plattform arXiv veröffentlichtes Papier mit dem Titel "AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents" gibt Einblicke in eine innovative Methode, wie solche Modelle dazu beitragen können, eine große Flotte von Robotern mit minimaler menschlicher Aufsicht zu steuern.
Foundation Models sind KI-Systeme, die Sprache, Bildverarbeitung und neuerdings auch Aktionen integrieren können, um aus Internetdaten zu lernen und für nützliche Aufgaben zu argumentieren. Die Herausforderung bei der Entwicklung solcher umfassenden Modelle liegt in der Begrenztheit von Daten, die in der physischen Welt verankert sind. Das Team hinter AutoRT, bestehend aus Forschern verschiedener Institutionen, hat eine Methode entwickelt, die vorhandene Foundation Models nutzt, um den Betrieb von Robotern in völlig unbekannten Szenarien zu skalieren.
AutoRT setzt Vision-Language Models (VLMs) zur Szenenverständigung und -verankerung ein und nutzt Large Language Models (LLMs), um eine Vielzahl von Anweisungen für eine Roboterschwarm auszugeben. Diese Anweisungen werden von über 20 Robotern in verschiedenen Gebäuden ausgeführt, wobei insgesamt 77.000 Echtzeit-Roboterepisoden gesammelt wurden. Diese Datensammlung erfolgte sowohl durch Teleoperation als auch durch autonome Roboterpolitiken. Das Sammeln solcher "in-the-wild" Daten ermöglicht es AutoRT, effektiv über Autonomieabwägungen und Sicherheit nachzudenken und gleichzeitig die Datenerfassung für das Roboterlernen deutlich zu skalieren.
Interessant ist, dass die mit AutoRT gesammelten Daten erheblich vielfältiger sind als bisherige Datensätze. Zudem ermöglicht der Einsatz von LLMs die Sammlung von Anweisungsbefolgungsdaten für Roboter, die mit menschlichen Präferenzen übereinstimmen. Das heißt, dass die durch AutoRT generierten Anweisungen in einer Weise formuliert werden, die den menschlichen Erwartungen und der Art und Weise, wie wir Anweisungen erteilen, entspricht.
Ein weiterer Aspekt dieses Ansatzes ist die Fähigkeit von AutoRT, die Autonomie der Roboter zu erhöhen, ohne dabei die Sicherheit zu kompromittieren. Dies wird durch eine Kombination aus Überwachung der Roboterperformance und der Implementierung von Sicherheitsrichtlinien erreicht.
Die Forschungsergebnisse wurden zudem auf der Konferenz ICLR 2024 vorgestellt, wo sie eine breite Diskussion über die Möglichkeiten und Herausforderungen der Integration von Foundation Models in der Robotik anregten. Zu den diskutierten Themen gehörte auch die Frage, ob und inwieweit solche Systeme in der Lage sind, physisches Reasoning durchzuführen, also Schlussfolgerungen über physische Eigenschaften wie Gewicht und Materialbeschaffenheit zu ziehen.
Die Entwicklung von AutoRT ist ein Beispiel dafür, wie die Kombination aus fortgeschrittener KI und Robotik neue Möglichkeiten zur Automatisierung und Datenverarbeitung eröffnet. Mit der fortschreitenden Integration solcher Systeme in die Praxis könnten sie die Art und Weise, wie wir mit Robotern interagieren und sie für verschiedene Aufgaben einsetzen, grundlegend verändern.
Dieser Fortschritt in der Robotik weist auf eine Zukunft hin, in der Roboter in der Lage sein könnten, eine Vielzahl von Aufgaben mit größerer Autonomie und weniger menschlichen Eingriffen auszuführen. Die Implikationen für Industrie, Forschung und Alltag sind enorm, und es bleibt abzuwarten, wie sich diese Technologien weiterentwickeln und welche neuen Anwendungen sie ermöglichen werden.