Vision Transformers auf dem Vormarsch: Neue Wege zur Verbesserung der Bildverarbeitung

Kategorien:

No items found.

Freigegeben:

June 26, 2024

Vision Transformers (ViTs) sind eine aufstrebende Technologie, die in der Welt der Bildverarbeitung und des maschinellen Sehens zunehmend an Bedeutung gewinnt. Ursprünglich für Anwendungen in der natürlichen Sprachverarbeitung entwickelt, hat die Transformer-Architektur, die auf Selbst-Attention-Mechanismen basiert, sich als leistungsstarkes Werkzeug für das Lernen visueller Repräsentationen erwiesen. In diesem Kontext haben Forscher von der Cornell University und anderen Institutionen eine Studie veröffentlicht, die sich mit einem besonderen Problem von Vision Transformers beschäftigt: den Artefakten in den Merkmalskarten, die die Leistung von ViTs in nachfolgenden Aufgaben beeinträchtigen können.

Die Untersuchungen der Forschergruppe haben ergeben, dass diese Artefakte in den Merkmalskarten, die häufig rasterartige Muster aufweisen, in erheblichem Maße von den Positions-Codierungen in der Eingabephase abhängen. Um dieses Problem anzugehen, haben sie ein neuartiges Rauschmodell entwickelt, das universell auf alle Vision Transformers anwendbar ist. Dieses Modell zerlegt die Ausgabe eines ViT in drei Komponenten: einen semantischen Term ohne Rauschartefakte sowie zwei artefaktbezogene Terme, die von der Pixelposition abhängen. Diese Zerlegung wird durch die Durchsetzung von konsistenten Features zwischen verschiedenen Ansichten mit Hilfe von neuronalen Feldern auf einer pro-Bild-Basis erreicht. Dieser Prozess der Bild-Optimierung extrahiert artefaktfreie Features aus den Rohausgaben der ViTs und bietet saubere Features für Offline-Anwendungen.

Um die Anwendbarkeit in Echtzeitanwendungen zu erweitern, haben die Forscher einen lernbaren Denoiser vorgeschlagen, der direkt aus den unbearbeiteten Ausgaben des ViT artefaktfreie Merkmale vorhersagen kann. Dieser Ansatz zeigt eine bemerkenswerte Generalisierungsfähigkeit auf neue Daten, ohne dass eine pro-Bild-Optimierung erforderlich ist. Der zweistufige Ansatz, den die Forscher als Denoising Vision Transformers (DVT) bezeichnen, erfordert kein erneutes Training von bereits vortrainierten ViTs und ist sofort auf jede Transformer-basierte Architektur anwendbar.

Die Evaluierung ihrer Methode anhand einer Vielzahl repräsentativer ViTs, darunter DINO, MAE, DeiT-III, EVA02, CLIP und DINOv2, hat gezeigt, dass DVT konsistent und signifikant die Leistung bestehender State-of-the-Art-Modelle in semantischen und geometrischen Aufgaben über mehrere Datensätze hinweg verbessert (zum Beispiel +3.84 mIoU). Die Forscher hoffen, dass ihre Studie zu einer Neubewertung des Designs von Vision Transformers anregen wird, insbesondere im Hinblick auf die naive Verwendung von Positions-Codierungen.

Die Ergebnisse dieser Studie sind nicht nur für die akademische Forschung von Bedeutung, sondern haben auch praktische Implikationen für die Entwicklung und Verbesserung von Systemen, die auf künstlicher Intelligenz basieren. Vision Transformers werden in einer Vielzahl von Anwendungen eingesetzt, von der Bildklassifizierung über die Objekterkennung bis hin zur autonomen Navigation. Die Fähigkeit, Artefakte in Bildern zu reduzieren und damit die Qualität der visuellen Merkmale zu verbessern, kann die Leistungsfähigkeit solcher Systeme erheblich steigern.

Das Denoising Vision Transformers Framework und der zugrunde liegende Code sind öffentlich zugänglich, was anderen Wissenschaftlern und Entwicklern die Möglichkeit gibt, auf diesen Erkenntnissen aufzubauen und sie in ihre eigenen Projekte zu integrieren. Der Quellcode ist auf GitHub verfügbar, und das Paper kann auf der Preprint-Plattform arXiv eingesehen werden.

Die Veröffentlichung dieser Studie ist ein weiterer Schritt vorwärts in der kontinuierlichen Entwicklung von Machine Learning und Computer Vision-Technologien. Sie zeigt das Potenzial von Vision Transformers auf und bietet gleichzeitig Lösungen für bestehende Herausforderungen, die die Implementierung und Anwendung dieser Technologien in realen Szenarien beeinträchtigen könnten. Die Arbeit der Forschergruppe ist ein Beispiel dafür, wie durch kollaborative Anstrengungen und den Austausch von Wissen und Ressourcen die Grenzen dessen, was mit künstlicher Intelligenz möglich ist, ständig erweitert werden.

Was bedeutet das?

No items found.