Von Science-Fiction zur Wirklichkeit: Die Evolution der Robotik und künstlichen Intelligenz

Kategorien:
No items found.
Freigegeben:
June 26, 2024

In den letzten Jahrzehnten hat sich die Robotik rasant entwickelt und ist aus der Welt der Science-Fiction in die Realität übergegangen. Mit den neuesten Fortschritten im Bereich der künstlichen Intelligenz und maschinellen Lernverfahren eröffnen sich neue Perspektiven für die Interaktion zwischen Mensch und Roboter. Insbesondere das Team von Google DeepMind hat bedeutende Fortschritte in der Entwicklung generativer und ausdrucksstarker Roboterverhaltensweisen erzielt, indem es große Sprachmodelle nutzt.

Menschen verwenden expressive Verhaltensweisen, um effektiv zu kommunizieren und ihre Handlungen mit anderen zu koordinieren. Dazu gehören Gesten wie Nicken, um Zustimmung zu signalisieren, oder verbale Äußerungen wie "Entschuldigung", um sich einen Weg durch eine belebte Gasse zu bahnen. In der Mensch-Roboter-Interaktion ist es wünschenswert, dass auch Roboter solche ausdrucksstarken Verhaltensweisen demonstrieren können. Bisherige Ansätze umfassten regelbasierte Methoden, die jedoch Schwierigkeiten hatten, auf neue Kommunikationsformen oder soziale Situationen zu skalieren. Datengesteuerte Methoden wiederum benötigten spezialisierte Datensätze für jede soziale Situation, in der der Roboter eingesetzt wird.

Das Team von Google DeepMind schlägt einen neuen Ansatz vor, der die reiche soziale Kontextinformation aus großen Sprachmodellen (Large Language Models, LLMs) nutzt. Diese Modelle sind in der Lage, Bewegungen auf Basis von Anweisungen oder Benutzerpräferenzen zu generieren. Die Idee ist, expressive Roboterbewegungen zu erzeugen, die anpassbar und kombinierbar sind und aufeinander aufbauen. Der Ansatz verwendet "few-shot chain-of-thought prompting", um menschliche Sprachanweisungen in parametrisierten Steuercode zu übersetzen, der die verfügbaren und erlernten Fähigkeiten des Roboters nutzt. Durch Benutzerstudien und Simulationsexperimente konnte gezeigt werden, dass dieser Ansatz Verhaltensweisen produziert, die von Benutzern als kompetent und leicht verständlich empfunden werden.

Eines der Schlüsselkonzepte in dieser Forschung ist das "Robotics Transformer 2" (RT-2) Modell, ein visionärer Ansatz, der auf dem Transformer-Modell basiert und auf Text- und Bildmaterial aus dem Web trainiert wurde. RT-2 kann direkt robotische Aktionen ausgeben, was es von herkömmlichen Modellen unterscheidet, die oft zwischen hoch- und niedrigstufigen Systemen unterschieden haben. Diese Unterteilung führte zu Komplexität und Ineffizienz, weil die Systeme quasi "Stille Post" spielten, um den Roboter zu bedienen. RT-2 vereinfacht diesen Prozess, indem es ein einzelnes Modell ermöglicht, sowohl komplexe Überlegungen als auch robotische Aktionen auszuführen. Mit einer geringen Menge an Robotiktrainingsdaten ist das System in der Lage, Konzepte aus seinen Sprach- und Visionstrainingsdaten zu übertragen und direkt in Roboteraktionen umzusetzen. Dies ist selbst dann möglich, wenn es für bestimmte Aufgaben nicht explizit trainiert wurde.

Die Fähigkeit von RT-2, Informationen in Aktionen zu übertragen, zeigt vielversprechende Möglichkeiten für Roboter auf, sich schneller an neue Situationen und Umgebungen anzupassen. In mehr als 6.000 Robotertrials hat das Team festgestellt, dass das RT-2-Modell in Bezug auf Aufgaben, für die es trainiert wurde, genauso gut funktioniert wie das vorherige Modell RT-1. Bei neuen, nicht trainierten Szenarien verdoppelte es seine Leistung nahezu auf 62% im Vergleich zu den 32% von RT-1.

Die Arbeit von Google DeepMind zeigt nicht nur, wie Fortschritte in der KI schnell in die Robotik einfließen, sondern auch ein enormes Potenzial für vielseitig einsetzbare Roboter. Obwohl noch viel Arbeit zu leisten ist, um hilfreiche Roboter in menschenzentrierten Umgebungen zu ermöglichen, weist RT-2 auf eine aufregende Zukunft der Robotik hin, die zum Greifen nahe ist.

Diese Forschung ist ein Beispiel dafür, wie die Grenzen zwischen Mensch und Maschine zunehmend verschwimmen. Mit Robotern, die in der Lage sind, ausdrucksstarkes Verhalten zu zeigen und zu lernen, wie Menschen in neuen Situationen zu agieren, wird die Vision von assistierenden Robotern, die in einer Vielzahl von Umgebungen agieren können, immer realistischer. Die Entwicklungen von Google DeepMind sind dabei nur ein Vorgeschmack auf das, was die Zukunft der Robotik noch bereithalten könnte.

Was bedeutet das?
No items found.