Im Bereich der Robotik haben sich die Fortschritte bei der künstlichen Intelligenz (KI) und maschinelles Lernen beschleunigt, was zu innovativen Durchbrüchen in der Art und Weise führt, wie Roboter programmiert und eingesetzt werden können. Ein aktuelles Beispiel dafür ist der Einsatz von visuellen Sprachmodellen (VLMs), die Roboter in der Lage versetzen, Aufgaben ohne vorherige spezifische Programmierung auszuführen, ein Prozess, der als "Zero-Shot"-Lernen bezeichnet wird. Ein Schlüsselelement hierbei ist die richtige Aufforderung oder Eingabeaufforderung, die, wenn sie als Multiple-Choice-Option präsentiert wird und mit einem Cross-Entropy-Method (CEM)-Algorithmus kombiniert wird, es VLMs wie GPT-4 und Gemini erlaubt, Roboter und deren Arme zu steuern.
Die Idee hinter dieser Technik ist, dass durch die Präsentation von Aktionsoptionen und das Ausführen von CEM auf diese Auswahl, Roboter in der Lage sind, Aufgaben zu erlernen und durchzuführen, für die sie nicht explizit programmiert wurden. Dies bietet eine potenzielle "System 2"-Fähigkeit, die auf höherer Ebene kognitive Prozesse wie logisches Denken und Entscheidungsfindung beinhaltet. Ein Beispiel für die praktische Anwendung dieser Methode ist SuSIE, ein Ansatz, der ein bildbearbeitendes Diffusionsmodell nutzt, um Zwischenziele vorzuschlagen, die ein niedrigstufiger Controller erreichen kann. SuSIE wurde auf InstructPix2Pix mit Videodaten von Menschen und Roboter-Ausführungen feinabgestimmt, sodass es hypothetische zukünftige "Zwischenziel"-Beobachtungen ausgibt, gegeben die aktuelle Beobachtung des Roboters und ein Sprachbefehl.
Die Fähigkeit zur Generalisierung ist ein entscheidender Faktor für den Einsatz von Robotern in unstrukturierten Umgebungen, da sie in der Lage sein müssen, neue Objekte und Szenarien, die möglicherweise nicht in ihren eigenen Trainingsdaten vorhanden sind, zu erkennen und darüber zu schlussfolgern. Die hochrangigen Zwischenzielvorhersagen können das Internet-Maßstab-Pretraining und das visuelle Verständnis nutzen, um die niedrigstufige zielgerichtete Politik zu leiten, wobei eine signifikant bessere Generalisierung und Präzision als konventionelle sprachgesteuerte Politiken erreicht wird. Dies wurde auf dem CALVIN-Benchmark demonstriert, sowie bei der robusten Generalisierung auf realen Manipulationsaufgaben, wo es starke Baselines übertraf, die Zugang zu privilegierten Informationen haben oder die Größenordnungen mehr Rechenleistung und Trainingsdaten nutzen.
Die Anwendung eines solchen Modells in der realen Welt beinhaltet jedoch auch Herausforderungen. Roboter haben unterschiedliche physikalische und visuelle Variationen, und jeder Endbenutzer möchte möglicherweise, dass der Roboter eine andere Aufgabe ausführt oder ihn in einer anderen Umgebung einsetzt. Um eine breite Palette von nachgelagerten robotischen Fähigkeiten vorzutrainieren, müssen Modelle und Datensätze entwickelt werden, die Generalisierung über verschiedene Robotertypen, Aufgaben und Umgebungen unterstützen. Ein solches Modell muss auch die Feinabstimmung auf neue Aufgaben, Umgebungen und Roboter sowie eine gewisse Fähigkeit zur Generalisierung ohne vorheriges Training unterstützen, insbesondere wenn das Ziel darin besteht, nachgelagerte Aufgaben mit verstärkendem Lernen zu erlernen.
Die Forschung im Bereich der robotergestützten KI befindet sich in einer spannenden Phase, in der Daten und Modelle, die ursprünglich für bestimmte Zwecke gesammelt oder trainiert wurden, möglicherweise wiederverwendet und angepasst werden können, um die Entwicklung autonomer Systeme zu beschleunigen. Projekte wie RoboNet und die Bridge Data bieten bereits Datensätze, die den Grundstein für die Forschung legen und zeigen, wie vorab trainierte Modelle in der Robotik funktionieren könnten. Diese Entwicklungen deuten darauf hin, dass die Zukunft der Robotik zunehmend durch KI-Modelle geprägt sein wird, die ein breites Spektrum an Fähigkeiten aufweisen und rasch an neue Aufgaben und Umgebungen angepasst werden können.
Die oben genannten Informationen basieren auf den Forschungsarbeiten von Kevin Black, Mitsuhiko Nakamoto, Pranav Atreya, Homer Walke, Chelsea Finn, Aviral Kumar und Sergey Levine, die in ihrer Studie "Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models" detailliert beschrieben sind, sowie auf den Beiträgen von Sergey Levine, die auf seiner Substack-Seite zu finden sind. Des Weiteren stützen sie sich auf Vorträge und Diskussionen, die auf Konferenzen wie CoRL2023 und in Online-Ressourcen wie YouTube veröffentlicht wurden.
Quellen:
- Black, K., Nakamoto, M., Atreya, P., Walke, H., Finn, C., Kumar, A., & Levine, S. (2023). Zero-Shot Robotic Manipulation with Pretrained Image-Editing Diffusion Models. arXiv:2310.10639. Verfügbar unter: https://arxiv.org/abs/2310.10639
- Levine, S. (2023). General-Purpose Pretrained Models in Robotics. Verfügbar unter: https://sergeylevine.substack.com/p/general-purpose-pre-trained-models?utm_source=twitter&sd=pf
- YouTube-Kanäle und Vorträge, die sich mit Themen der KI in der Robotik beschäftigen, wie beispielsweise die Vorträge auf dem Kanal Deployable@CoRL2023.