In der Welt der Künstlichen Intelligenz (KI) ist das selbstüberwachte Lernen (Self-Supervised Learning, SSL) ein wachsendes Forschungsfeld, das auf der Fähigkeit von Modellen basiert, aus Daten zu lernen, ohne auf explizit annotierte Labels angewiesen zu sein. Diese Technik ist besonders in der Bildverarbeitung von Bedeutung, wo es oft kostspielig und zeitintensiv ist, große Mengen an Bilddaten manuell zu beschriften. Ein bahnbrechendes Modell in diesem Bereich ist das kürzlich von Meta AI vorgestellte DINOv2.
DINOv2 steht für "DIstillation with NO labels version 2" und ist eine fortschrittliche Technik für das selbstüberwachte Lernen, das Vision Transformers (ViTs) verwendet, um Wissen aus Bildern ohne Beschriftungen zu extrahieren. Im Gegensatz zu seinem Vorgänger, DINOv1, und anderen Modellen wie CLIP und OpenCLIP, benötigt DINOv2 keine Feinabstimmung für spezifische Aufgaben und kann viele Aufgaben direkt nach der Vortrainierung bearbeiten.
Die Entwicklung von DINOv2 ist das Ergebnis eines Trends, sich von überwachten Lernmethoden, die umfangreiche und präzise annotierte Daten benötigen, wegzubewegen. Diese Veränderung wurde durch die Erkenntnis angetrieben, dass das Sammeln von annotierten Daten in großem Maßstab teuer und schwer skalierbar ist, was die Fortschritte der Maschinenlernanwendungen, insbesondere in der Computer Vision, verlangsamt hat.
Selbstüberwachte Modelle wie DINOv2 versprechen in Anwendungen wie Bildklassifizierung, Objekterkennung und semantische Segmentierung Wettbewerbsfähigkeit oder sogar Spitzenleistungen. Sie bieten den Vorteil, dass sie weniger von beschrifteten Daten abhängig sind, sich auf große Datensätze skalieren lassen und Potenzial für Transferlernen bieten.
Die Herausforderungen bei SSL liegen in der Gestaltung effektiver Aufgaben, im Umgang mit Domänenverschiebungen und im Verständnis der Interpretierbarkeit und Robustheit von Modellen. DINOv2 überwindet einige dieser Herausforderungen durch den Einsatz von Techniken wie Wissensdestillation, die SSL und Wissens- oder Modelldestillationsmethoden kombiniert.
Wissensdestillation ist der Prozess, bei dem ein kleineres Modell trainiert wird, um das größere Modell nachzuahmen. Dabei wird das Wissen vom größeren Modell (oft als "Lehrer" bezeichnet) auf das kleinere Modell (oft als "Schüler" bezeichnet) übertragen. Der erste Schritt beinhaltet das Training des Lehrermodells mit beschrifteten Daten, gefolgt von einer Abbildung der Eingabe- und Ausgabedaten des Lehrermodells, die dann vom Schülermodell nachgeahmt werden.
Der zweite Schritt erfordert die Nutzung eines großen Datensatzes unbeschrifteter Daten, um die Schülermodelle zu trainieren, damit sie genauso gut oder besser als die Lehrermodelle abschneiden. DINOv2 ist mit dieser Technik konstruiert und ermöglicht es, große Modelle in kleinere zu komprimieren, wodurch effiziente Inferenzen mit minimalen Genauigkeitsverlusten ermöglicht werden.
DINOv2 wurde unter anderem auf einem umfangreichen Datensatz namens LVD-142M trainiert, der 142 Millionen Bilder umfasst und weitgehend durch eine selbstüberwachte Bilderfassungspipeline erstellt wurde. Der Datensatz umfasst sowohl kuratierte als auch nicht kuratierte Bilder und wurde durch eine Kombination aus Datenquellen und Verarbeitungstechniken zusammengestellt.
Meta AI hat DINOv2 als Open Source verfügbar gemacht und bietet ein interaktives Demo, um die Vielseitigkeit des Modells zu demonstrieren. DINOv2 hat das Potenzial, in einer Vielzahl von Anwendungen nützlich zu sein, darunter die Kartierung von Wäldern, Baum für Baum, über Kontinente hinweg. In Zusammenarbeit mit dem World Resources Institute hat Meta AI gezeigt, dass das Modell gut generalisiert und genaue Kartierungen an anderen Standorten auf der ganzen Welt liefert.
Die Veröffentlichung von DINOv2 kommt zu einem Zeitpunkt, an dem die Leistung von Modellen, die Merkmale durch das Abgleichen von Datenanreicherungen trainieren, stagniert. Insbesondere auf ImageNet gab es zwischen 2019 und 2021 einen Fortschritt von 10 Prozent, und seitdem nur wenig (+1 Prozent seit 2021). Die Gemeinschaft konzentrierte sich mehr auf die Entwicklung von Alternativen, wie maskierte Bildmodellierung, was den Fortschritt in diesem Bereich einschränkte. Darüber hinaus war das Training von DINO-Modellen außerhalb des klassischen Anwendungsbereichs von ImageNet schwierig, was deren Annahme für die Forschung begrenzte.
Der Fortschritt von DINO zu DINOv2 erforderte die Überwindung mehrerer Herausforderungen: die Schaffung eines großen und kuratierten Trainingsdatensatzes, die Verbesserung des Trainingsalgorithmus und der Implementierung sowie die Gestaltung einer funktionalen Destillationspipeline.
Letztendlich bietet DINOv2 eine flexible und effiziente Methode zum Trainieren von Computer Vision-Modellen durch selbstüberwachtes Lernen, ohne auf große Mengen an beschrifteten Daten angewiesen zu sein. Das Modell erzeugt leistungsstarke Merkmale, die als Backbone für verschiedene Computer Vision-Aufgaben verwendet werden können, ohne Feinabstimmung zu benötigen. DINOv2 übertrifft die Standardansätze im Bereich und erzielt starke Vorhersagefähigkeiten bei verschiedenen Sehaufgaben, einschließlich genauer Tiefenschätzung.
DINOv2 verbessert das selbstüberwachte Lernen für die Computer Vision erheblich und hat das Potenzial, Anwendungen in verschiedenen Bereichen zu finden.