Innovative Verarbeitung extrem langer Videos mit Long Video Assistant

Kategorien:
No items found.
Freigegeben:
June 26, 2024

Durchbruch bei der Verarbeitung langer Videos: Der Long Video Assistant

Einleitung



Die Verarbeitung und das Verständnis extrem langer Videos stellen eine erhebliche Herausforderung für bestehende große multimodale Modelle (LMMs) dar. Während viele Studien sich darauf konzentrieren, die Anzahl der visuellen Tokens zu reduzieren, die von einem Vision-Encoder generiert werden, gehen wir in dieser Arbeit das Problem aus der Perspektive des Sprachmodells an. Durch die einfache Extrapolation der Kontextlänge des Sprachmodells ermöglichen wir es LMMs, eine Größenordnung mehr visuelle Tokens ohne zusätzliche Videotrainings zu verstehen.


Hintergrund und Problemstellung



Die Verarbeitung langer Videosequenzen bietet wertvolle zeitliche Informationen, doch bestehende LMMs haben Schwierigkeiten, extrem lange Videos zu verstehen. Ein Hauptgrund dafür ist die übermäßige Anzahl visueller Tokens, die durch den Vision-Encoder erzeugt werden. Beispielsweise kann LLaVA-1.6 zwischen 576 und 2880 visuelle Tokens für ein einzelnes Bild erzeugen. Diese Anzahl erhöht sich signifikant mit der Hinzufügung weiterer Frames. Um dieses Problem zu lösen, wurden zahlreiche Methoden vorgeschlagen, um die Anzahl der visuellen Tokens zu reduzieren.

Zusätzlich fehlt es an hochwertigen Datensätzen für die Verarbeitung langer Videos. Die meisten existierenden Datensätze bestehen aus Videoclips von weniger als einer Minute. Selbst wenn einige Datensätze längere Videos enthalten, werden die entsprechenden Textpaare nur durch die Annotation weniger Frames innerhalb des Videos generiert, was lange und dichte Aufsichtssignale vermissen lässt.


Ansatz: Kontextübertragung von Sprache auf Vision



Anstatt die visuellen Tokens zu reduzieren, identifizieren wir das kritischere Problem in bestehenden LMMs: die Kontextlänge des Sprachmodells. Durch das Training auf längeren Textdaten erweitern wir die Kontextlänge des Sprachmodells und verwenden dieses kontextverlängerte Modell als Backbone für die Modalausrichtung und visuelle Instruktionstuning, ohne lange Video-Text-Paare. Auf diese Weise wird die Kontextlänge des Sprachmodells direkt auf die der LMMs übertragen.


Long Video Assistant (LongVA)



Unser Modell, der Long Video Assistant (LongVA), kann 2000 Frames oder über 200K visuelle Tokens verarbeiten. Experimente zeigen, dass zusätzliche Frames während der Inferenz zu einer verbesserten Leistung bei langen Video-Frage-Antwort-Benchmarks führen. LongVA erreicht den neuesten Stand der Technik (SoTA) unter den 7B-Modellen auf dem Video-MME-Dataset. Unsere Arbeit ist Open-Source und kann auf GitHub eingesehen werden.


Technische Details



- **Long Context Transfer**: Wir entdeckten das Phänomen der langen Kontextübertragung, bei dem der Kontext des Sprachmodells direkt auf die modality-angepassten multimodalen Modelle übertragen werden kann.
- **Visual Needle-In-A-Haystack (V-NIAH)**: Wir entwickelten den V-NIAH-Benchmark, um die Fähigkeit von LMMs zu testen, visuelle Informationen über extrem lange Kontexte hinweg zu lokalisieren und abzurufen.
- **UniRes**: Ein einheitliches Kodierungsschema, das Videos als erweiterte Bilder darstellt und die Fähigkeit zur Fusion zwischen Bildern und Videos verbessert.


Vergleich mit bestehenden Modellen



Um längere Videoeingaben zu ermöglichen, trainieren frühere Arbeiten weniger visuelle Tokens, um die maximale Frame-Anzahl während des Trainings zu erhöhen. Unser LongVA hingegen ermöglicht lange Videofähigkeiten durch die Erweiterung des Backbone-Sprachmodells.


Beispielhafte Modelle und ihre Eigenschaften



- MPLUG-Owl-video: 256 Tokens/Frames, 4 Max Frames, LLaMA Backbone, 4K Kontextlänge
- MovieChat: 32 Tokens/Frames, 8 Max Frames, Vicuna-v0 Backbone, 2K Kontextlänge
- Video-LLaVA: 49 Tokens/Frames, 8 Max Frames, Vicuna-1.5 Backbone, 4K Kontextlänge
- LongVA (Unser Modell): 144 Tokens/Frames, unbeschränkt Max Frames, Qwen2-Extended Backbone, 224K+ Kontextlänge


Verwandte Arbeiten



Bestehende Studien erkunden unterschiedliche Architekturen, um visuelle Merkmale in LLMs zu extrahieren und zu injizieren. Eine Linie der Arbeit, angeführt von Flamingo, verwendet einen Resampler, um das visuelle Merkmal zu komprimieren und Cross-Gated-Attention-Schichten in das LLM einzufügen. Andere Arbeiten verwenden einfache und skalierbare Designs, um die Bildmerkmale direkt in das Sprachmodell zu projizieren, ohne Pooling oder Resampling.


Kontext-Extrapolation in Transformern



Transformer arbeiten nicht direkt mit Sequenzen, die länger als ihre Trainingslänge sind. Um dieses Problem zu lösen, wurden verschiedene RoPE-basierte Extrapolationstechniken vorgeschlagen. Bemühungen wurden auch unternommen, um Datenkurationen und Systemoptimierungen während des langen Kontexttrainings zu verbessern. Es gab jedoch nur begrenzte Untersuchungen zur Kontextextrapolation im Bereich der LMMs.


Benchmarking und Experimente



Um den Fortschritt der Video-LMMs-Leistung genau zu messen, haben Forscher verschiedene Benchmarks entwickelt, die ein breites Spektrum an Aufgaben abdecken. Diese reichen von grundlegenden visuellen Wahrnehmungsaufgaben wie Aktivitätserkennung und Konzeptdetektion bis hin zu komplexeren visuellen Begründungsaufgaben wie kompositionelle, kausale und situierte Begründung.


V-NIAH Benchmark



Inspiriert vom NIAH-Test in der Sprachmodell-Community haben wir V-NIAH entwickelt, um die Fähigkeit von LMMs über lange visuelle Eingaben mit minimalem Aufwand für Datenerfassung und menschliche Annotation zu bewerten.


Fazit



Unser Long Video Assistant (LongVA) bietet eine bahnbrechende Lösung für die Verarbeitung und das Verständnis extrem langer Videos. Durch die Extrapolation der Kontextlänge des Sprachmodells und die Einführung eines einheitlichen Kodierungsschemas können wir die Fähigkeiten von LMMs erheblich erweitern. Unsere Experimente zeigen, dass LongVA den aktuellen Stand der Technik übertrifft und eine vielversprechende Richtung für zukünftige Forschungen darstellt.


Bibliographie


- https://arxiv.org/html/2406.16852v1
- https://paperswithcode.com/paper/long-context-transfer-from-language-to-vision
- https://gradio.app/
- https://twitter.com/PY_Z001/status/1805478253215596750
- https://www.gradio.app/docs/gradio/video
- https://www.linkedin.com/posts/gradio_%3F%3F%3F%3F%3F%3F-%3F%3F%3F%3F%3F%3F%3F-%3F%3F%3F-%3F%3F%3F%3F-activity-7196095237285371904-kuPf
- https://www.gradio.app/guides/creating-a-chatbot-fast
- https://www.linkedin.com/posts/gradio_sharecaptioner-video-is-an-impressive-activity-7209143821408907265-meGw

Was bedeutet das?
No items found.