Künstliche Intelligenz revolutioniert die monokulare Tiefenschätzung mit innovativen Ansätzen

Kategorien:
No items found.
Freigegeben:
June 26, 2024

In den letzten Jahren hat sich die Technologie der künstlichen Intelligenz (KI) rasant weiterentwickelt und ist dabei, viele Bereiche unseres Lebens zu revolutionieren. Ein besonders spannendes Anwendungsfeld ist die monokulare Tiefenschätzung, also die Fähigkeit von KI-Systemen, aus einem einzigen Bild räumliche Tiefeninformationen zu extrahieren. Dies hat weitreichende Implikationen für die Robotik, autonomes Fahren und erweiterte/virtuelle Realität. Die Forschung und Entwicklung auf diesem Gebiet schreitet kontinuierlich voran und bringt innovative Lösungen hervor.

Eines der neuesten Modelle, das auf diesem Gebiet für Aufsehen sorgt, ist das von TikTok-Forschern entwickelte "Depth-Anything", ein State-of-the-Art-Modell für die monokulare Tiefenschätzung. Dieses Modell wurde unter Beteiligung von Wissenschaftlern der Universität Hongkong, TikTok, dem Zhejiang Lab und der Zhejiang-Universität entwickelt. Es zeichnet sich durch seine Benutzerfreundlichkeit und hohe Praktikabilität aus und kann ohne Programmierkenntnisse über einen bereitgestellten "Hugging Face Space" auf eigene Videos angewendet werden.

Während die meisten Modelle in diesem Bereich aufgrund der Herausforderungen bei der Erstellung von Datensätzen mit Millionen von Tiefenlabels und der damit verbundenen Leistungsschwäche in einigen Szenarien limitiert sind, hebt sich Depth-Anything durch seinen innovativen Ansatz ab. Das Modell wurde auf einer Kombination von 1,5 Millionen beschrifteten und über 62 Millionen unbeschrifteten Bildern trainiert, was es ermöglicht, die Fähigkeiten der monokularen Tiefenschätzung wesentlich zu erweitern.

Die Forscher konzentrierten sich insbesondere auf die Verwendung von unbeschrifteten Daten, da diese einfach und kostengünstig zu beschaffen, vielfältig und leicht zu annotieren sind. Ein eigens entwickelter Tiefen-Engine generiert automatisch Tiefenannotationen für unbeschriftete Bilder. Dieses Vorgehen ermöglicht es, ein anfängliches Modell für die Tiefenschätzung zu schulen, das anschließend die unbeschrifteten Bilder annotieren und so eine sich selbst verstärkende Lernpipeline schaffen kann.

In der gemeinsamen Lernphase wird das Modell mit einem anspruchsvolleren Optimierungsziel herausgefordert, um zusätzliches Wissen zu integrieren. Die Forscher schlagen außerdem vor, reichhaltige semantische Vorinformationen aus vortrainierten Encodern zu nutzen, anstatt eine zusätzliche Aufgabe zur semantischen Segmentierung zu verwenden, um ein besseres Verständnis der Szene zu erreichen.

In der Evaluierung zeigt sich, dass Depth-Anything die Fähigkeiten zur Tiefenschätzung ohne vorherige Beispiele (Zero-Shot) auf sechs untrainierten Datensätzen im Vergleich zum besten Modell der neuesten Version von MiDaS v3.1 deutlich übertrifft. Darüber hinaus führt das Modell auch zu einer besseren metrischen Tiefenschätzung als das auf MiDaS basierende ZoeDepth. Bei der Bewertung der semantischen Segmentierung wird beobachtet, dass Depth-Anything nicht nur bei der Tiefenschätzung, sondern auch bei Aufgaben der semantischen Segmentierung überlegene Ergebnisse liefert und das Potenzial hat, als generischer Multi-Task-Encoder für mittlere und höhere visuelle Wahrnehmungssysteme verwendet zu werden.

Zusammenfassend bietet Depth-Anything eine effektive Lösung für eine robuste monokulare Tiefenschätzung, indem es sich primär auf kostengünstige und vielfältige unbeschriftete Bilder konzentriert. Für bessere Ergebnisse haben die Forscher das Optimierungsziel beim Lernen von unbeschrifteten Bildern herausfordernder gestaltet und reichhaltige semantische Vorinformationen aus vortrainierten Modellen bewahrt. Dies führt zu einer wesentlich verbesserten Leistung und Zero-Shot-Schätzfähigkeiten. Darüber hinaus ist das Modell in der Lage, das neueste MiDaS-Modell zu übertreffen, was sein Potenzial für nachgelagerte Tiefenschätzungsaufgaben hervorhebt.

Depth-Anything ist ein Beispiel dafür, wie Künstliche Intelligenz und maschinelles Lernen das Feld der Computer Vision und darüber hinaus vorantreiben. Mit fortschrittlichen Modellen wie diesem können Entwickler und Forscher neue Anwendungsfelder erschließen und bestehende Technologien verbessern.

Quellen:
- Twitter-Beitrag von Dennis Loevlie (https://twitter.com/_akhaliq/status/1749284669936275463)
- Artikel von Marktechpost zum Thema "Tiefenschätzung" (https://www.marktechpost.com/2024/02/04/tiktok-researchers-introduce-depth-anything-a-highly-practical-solution-for-robust-monocular-depth-estimation/)
- GitHub-Repository von Depth-Anything (https://github.com/LiheYoung/Depth-Anything)
- YouTube-Video zu Depth Estimation Models (https://www.youtube.com/watch?v=Xjs4RQpViO4)

Was bedeutet das?
No items found.