Im Bereich des maschinellen Sehens haben sich zwei grundlegende Modelle als besonders einflussreich erwiesen: die konvolutionellen neuronalen Netzwerke (CNNs) und die Vision Transformers (ViTs). Diese Modelle haben sich als tragende Säulen für das Erlernen visueller Repräsentationen etabliert und sind aus der modernen Computer Vision nicht mehr wegzudenken.
CNNs bestechen durch ihre beeindruckende Skalierbarkeit, die mit linearer Komplexität in Bezug auf die Bildauflösung einhergeht. ViTs hingegen haben sich, trotz ihrer quadratischen Komplexität, als überlegen im Hinblick auf ihre Anpassungsfähigkeit erwiesen. Bei genauerer Betrachtung wird deutlich, dass ViTs ihre überlegene Leistung im visuellen Modellieren durch die Integration von globalen Rezeptionsfeldern und dynamischen Gewichten erzielen. Diese Beobachtung führte zur Entwicklung einer neuen Architektur, die diese Komponenten übernimmt und gleichzeitig die Recheneffizienz steigert.
Inspiriert von dem kürzlich eingeführten State-Space-Modell, wurde das Visual State Space Model (VMamba) vorgeschlagen, das lineare Komplexität erreicht, ohne auf globale Rezeptionsfelder zu verzichten. Um das problematische richtungssensitive Verhalten zu bewältigen, wurde das Cross-Scan-Modul (CSM) eingeführt, welches den räumlichen Bereich durchläuft und nicht-kausale visuelle Bilder in geordnete Patch-Sequenzen umwandelt. Umfangreiche experimentelle Ergebnisse untermauern, dass VMamba nicht nur vielversprechende Fähigkeiten in verschiedenen visuellen Wahrnehmungsaufgaben aufweist, sondern auch deutliche Vorteile gegenüber etablierten Benchmarks zeigt, insbesondere wenn die Bildauflösung steigt.
Die Vision Transformers haben mittlerweile eine vergleichbare oder sogar überlegene Leistung im Vergleich zu den CNNs im Bereich der Computer Vision erreicht. Diese empirische Entwicklung ist besonders bemerkenswert, da ViTs, im Gegensatz zu CNNs, keine eingebettete visuelle induktive Verzerrung der räumlichen Lokalität besitzen. Neuere Arbeiten haben jedoch gezeigt, dass ViTs während der Minimierung ihres Trainingsverlustes speziell räumlich lokalisierte Muster lernen. Dies wirft eine zentrale Frage auf: Wie lernen ViTs diese Muster, indem sie ausschließlich ihren Trainingsverlust mit gradientenbasierten Methoden von einer zufälligen Initialisierung aus minimieren?
In einem Papier wurde eine theoretische Rechtfertigung für dieses Phänomen vorgeschlagen. Die Autoren präsentierten ein räumlich strukturiertes Datenset und ein vereinfachtes ViT-Modell, in dem die Aufmerksamkeitsmatrix ausschließlich von den Positionsencodierungen abhängt. Sie bezeichnen diesen Mechanismus als Positions-Aufmerksamkeitsmechanismus. Theoretisch wurde eine binäre Klassifizierungsaufgabe betrachtet und nachgewiesen, dass, während das Lernproblem mehrere Lösungen zulässt, die verallgemeinern, unser Modell implizit die räumliche Struktur des Datensets erlernt und dabei verallgemeinert: ein Phänomen, das als Patch-Assoziation bezeichnet wird. Es wurde bewiesen, dass die Patch-Assoziation dazu beiträgt, effizient auf nachgelagerte Datensets zu übertragen, die die gleiche Struktur wie das vorbereitende Datenset aufweisen, sich jedoch in den Merkmalen unterscheiden. Schließlich wurde empirisch bestätigt, dass ein ViT mit Positions-Aufmerksamkeit ähnliche Leistungen wie das Original auf CIFAR-10/100, SVHN und ImageNet zeigt.
Angesichts dieser Entwicklungen stehen Forscher vor der Herausforderung, die spezifischen Stärken und Schwächen beider Modelle - CNNs und ViTs - zu verstehen und zu nutzen. Ein Ansatz, der in der wissenschaftlichen Gemeinschaft an Bedeutung gewinnt, ist die Kombination von CNNs und ViTs, um hybride Modelle zu schaffen, die sowohl lokale als auch globale Informationen effizient verarbeiten können.
Es ist ein spannender Zeitpunkt in der Welt des maschinellen Lernens, da der Fortschritt in der Theorie und die zunehmende Rechenleistung neue Möglichkeiten für die Entwicklung fortschrittlicher Modelle für die visuelle Wahrnehmung und das maschinelle Sehen eröffnen. Mit der weiteren Erforschung und Verbesserung dieser Modelle könnten wir in naher Zukunft noch leistungsfähigere und effizientere Systeme für eine Vielzahl von Anwendungen im Bereich der künstlichen Intelligenz sehen.