Die Stanford Universität hat kürzlich ein neues Projekt namens Mobile ALOHA vorgestellt, das sich auf die Entwicklung von kostengünstigen und mobilen Manipulationssystemen für Robotik konzentriert. Die Besonderheit dieses Projekts liegt in der Verwendung von ganzkörperlichen Teleoperationssystemen zur Datensammlung, die darauf abzielen, die Fähigkeiten von Robotern zur Ausführung komplexer Aufgaben unter Verwendung beider Hände – sogenannte bimanuelle Manipulation – zu verbessern.
Im Bereich der Robotikforschung hat das Imitationslernen, bei dem Roboter durch das Beobachten menschlicher Demonstrationen lernen, bereits vielversprechende Ergebnisse erzielt. Bisher wurden die meisten Forschungen jedoch auf Manipulationen beschränkt, die auf einem Tisch stattfinden, wodurch Mobilität und Geschicklichkeit, die für allgemein nützliche Aufgaben erforderlich sind, vernachlässigt wurden. Mit Mobile ALOHA soll diese Lücke geschlossen werden, indem ein System entwickelt wird, das mobile Manipulationsaufgaben imitieren kann, die den Einsatz des ganzen Körpers erfordern.
Das Mobile ALOHA-System ergänzt das bereits existierende ALOHA-System durch eine mobile Basis und eine Schnittstelle für die ganzkörperliche Teleoperation. Durch das Sammeln von Daten mittels Mobile ALOHA wird anschließend ein überwachtes Verhalten, das sogenannte Behavior Cloning, durchgeführt. Die Forscher fanden heraus, dass eine gemeinsame Ausbildung mit bereits vorhandenen statischen ALOHA-Datensätzen die Leistung bei mobilen Manipulationsaufgaben steigert. Mit 50 Demonstrationen pro Aufgabe kann das gemeinsame Training die Erfolgsraten um bis zu 90% erhöhen, was es Mobile ALOHA ermöglicht, komplexe mobile Manipulationsaufgaben autonom auszuführen. Dazu zählen beispielsweise das Schwenken und Servieren einer Garnele, das Öffnen eines zweitürigen Wandschranks zur Aufbewahrung von schweren Kochtöpfen, das Rufen und Betreten eines Aufzugs sowie das leichte Spülen einer benutzten Pfanne mit einem Küchenhahn.
Ein weiterer Aspekt des Projekts ist die Entwicklung eines neuartigen Algorithmus, der als "Action Chunking with Transformers" (ACT) bezeichnet wird. Dieser Algorithmus reduziert den effektiven Horizont, indem er Aktionen in Blöcken vorhersagt, anstatt einzelne Aktionen wie beim standardmäßigen Behavior Cloning. Dadurch ist es möglich, schwierige Aufgaben wie das Öffnen eines durchsichtigen Würzbechers oder das Einsetzen einer Batterie mit einer Erfolgsquote von 80-90% zu erlernen, und das mit nur 10 Minuten an Demonstrationsdaten.
Das Teleoperationssystem ALOHA ist ein kostengünstiges Open-Source-Hardware-System für die bimanuelle Teleoperation. Mit einem Budget von 20.000 US-Dollar ist es in der Lage, präzise Aufgaben wie das Einfädeln eines Kabelbinders, dynamische Aufgaben wie das Jonglieren mit einem Tischtennisball und kontaktreiche Aufgaben wie das Zusammenbauen einer Kette auf einer NIST-Platine zu teleoperieren.
Die ACT-Politik kann in Echtzeit auf neue Umgebungsstörungen reagieren und ist gegenüber einem gewissen Grad an Ablenkung robust. Beispielsweise zeigen Videos, wie die ACT-Politik erfolgreich auf das Einsetzen einer Batterie in einen Schlitz oder das Öffnen eines Bechers reagiert. Die Effektivität des ACT-Algorithmus zeigt sich auch darin, dass er bei vier verschiedenen Aufgaben Erfolgsquoten von 96%, 84%, 64% bzw. 92% erreicht.
Die Einführung von Mobile ALOHA und ACT in die Robotik könnte einen signifikanten Fortschritt in der Entwicklung von autonomen Robotern darstellen, die in der Lage sind, Aufgaben in unstrukturierten und dynamischen Umgebungen auszuführen. Die potenziellen Anwendungen sind vielfältig und reichen von der Unterstützung im Haushalt über industrielle Montage bis hin zur Pflege. Die Forschungsergebnisse und die zugrunde liegende Technologie könnten dazu beitragen, die Barriere für den Einstieg in die Robotik zu senken und diese Technologien einem breiteren Publikum zugänglich zu machen.