Integration von 2D und 3D Wahrnehmung revolutioniert KI-Forschung

Kategorien:
No items found.
Freigegeben:
June 26, 2024

In der Welt der künstlichen Intelligenz und des maschinellen Lernens hat die Integration von 2D- und 3D-Wahrnehmung zu einem bahnbrechenden Fortschritt geführt. Wissenschaftler von Microsoft, der Stanford University und der Carnegie Mellon University haben kürzlich ein Modell namens ODIN (Omni-Dimensional INstance segmentation) vorgestellt, das sowohl 2D-Bilder als auch 3D-Punktwolken segmentieren und beschriften kann. Dieser Durchbruch hat die traditionelle Annahme hinterfragt, dass die Wahrnehmung in zwei und drei Dimensionen unterschiedliche Modellarchitekturen erfordert.

ODIN verwendet eine Transformer-Architektur, die zwischen der Fusion von Informationen innerhalb von 2D-Ansichten und der Fusion von Informationen über 3D-Ansichten abwechselt. Das Besondere an dieser Architektur ist ihre Fähigkeit, die Mehrheit ihrer Modellparameter zwischen 2D- und 3D-Eingaben zu teilen. Dies ermöglicht es, auf starken, vortrainierten 2D-Gewichten aufzubauen und gleichzeitig Herausforderungen wie den Mangel an 3D-Daten zu bewältigen.

Das Modell unterscheidet zwischen 2D- und 3D-Feature-Operationen durch die Positionscodierungen der beteiligten Token, die Pixelkoordinaten für 2D-Patch-Token und 3D-Koordinaten für 3D-Feature-Token erfassen. Diese Innovation hat es ODIN ermöglicht, auf verschiedenen 3D-Wahrnehmungsbenchmarks wie ScanNet200, Matterport3D und AI2THOR neue Maßstäbe in der 3D-Instanzsegmentierung zu setzen. Darüber hinaus liefert es auch wettbewerbsfähige Leistungen auf Benchmarks wie ScanNet, S3DIS und COCO.

Ein entscheidender Vorteil von ODIN ist seine überlegene Leistung bei der Verwendung von 3D-Punktwolken, die direkt aus den Sensordaten gewonnen wurden, im Vergleich zu Punktwolken, die aus 3D-Meshes gesampelt wurden. Wenn ODIN als 3D-Wahrnehmungsmotor in einer instruierbaren verkörperten Agentenarchitektur verwendet wird, setzt es neue Maßstäbe auf dem TEACh-Benchmark für Aktionen aus Dialogen.

Das Forschungsteam hat sich auch mit der Frage beschäftigt, warum trotz der offensichtlichen Vorteile einer 2D-Vorverarbeitung keine Verbesserungen bei 3D-Aufgaben erzielt wurden. Ein Teil des Problems liegt in einem wesentlichen Implementierungsdetail, das diesen 3D-Benchmarks zugrunde liegt. Statt tatsächliche RGB-D-Bilder als Eingabe zu verwenden, generieren diese Benchmarks zunächst eine einzelne farbige Punktwolke und rekonstruieren die Szene so sauber wie möglich. ODIN fordert hingegen, dass 3D-Modelle vorgegebene RGB-D-Frames als Eingabe verwenden, statt vorgefertigte Rekonstruktionen.

Die Forscher haben außerdem festgestellt, dass das Abwechseln von 2D- und 3D-Fusionsoperationen Designs übertrifft, in denen zunächst in 2D verarbeitet und dann zu 3D übergegangen wird. Sie haben ODIN erfolgreich als 3D-Objektsegmentierer eines state-of-the-art verkörperten Agentenmodells auf dem Simulationsbenchmark TEACh eingesetzt und damit einen neuen Standard gesetzt.

Die Veröffentlichung des ODIN-Codes und der Checkpoints macht diesen Fortschritt der breiten Forschungsgemeinschaft zugänglich und eröffnet neue Wege in der Verbindung von 2D- und 3D-Wahrnehmung sowie in verkörperten Agentensystemen. Dieser Schritt hin zu einer vereinheitlichten Wahrnehmungsplattform hat das Potenzial, sowohl die Computer Vision als auch die Robotik grundlegend zu verändern. Mit dem Fortschritt von ODIN steht die Forschung an der Schwelle zu neuen Entdeckungen und Anwendungen, die von der verbesserten Wahrnehmungsfähigkeit künstlicher Intelligenzen profitieren werden.

Was bedeutet das?
No items found.