Innovative Verarbeitung extrem langer Videos mit Long Video Assistant

Kategorien:

No items found.

Freigegeben:

June 26, 2024

Durchbruch bei der Verarbeitung langer Videos: Der Long Video Assistant

‍

Einleitung

Die Verarbeitung und das Verständnis extrem langer Videos stellen eine erhebliche Herausforderung für bestehende große multimodale Modelle (LMMs) dar. Während viele Studien sich darauf konzentrieren, die Anzahl der visuellen Tokens zu reduzieren, die von einem Vision-Encoder generiert werden, gehen wir in dieser Arbeit das Problem aus der Perspektive des Sprachmodells an. Durch die einfache Extrapolation der Kontextlänge des Sprachmodells ermöglichen wir es LMMs, eine Größenordnung mehr visuelle Tokens ohne zusätzliche Videotrainings zu verstehen.

Hintergrund und Problemstellung

Die Verarbeitung langer Videosequenzen bietet wertvolle zeitliche Informationen, doch bestehende LMMs haben Schwierigkeiten, extrem lange Videos zu verstehen. Ein Hauptgrund dafür ist die übermäßige Anzahl visueller Tokens, die durch den Vision-Encoder erzeugt werden. Beispielsweise kann LLaVA-1.6 zwischen 576 und 2880 visuelle Tokens für ein einzelnes Bild erzeugen. Diese Anzahl erhöht sich signifikant mit der Hinzufügung weiterer Frames. Um dieses Problem zu lösen, wurden zahlreiche Methoden vorgeschlagen, um die Anzahl der visuellen Tokens zu reduzieren.

Zusätzlich fehlt es an hochwertigen Datensätzen für die Verarbeitung langer Videos. Die meisten existierenden Datensätze bestehen aus Videoclips von weniger als einer Minute. Selbst wenn einige Datensätze längere Videos enthalten, werden die entsprechenden Textpaare nur durch die Annotation weniger Frames innerhalb des Videos generiert, was lange und dichte Aufsichtssignale vermissen lässt.

Ansatz: Kontextübertragung von Sprache auf Vision

Anstatt die visuellen Tokens zu reduzieren, identifizieren wir das kritischere Problem in bestehenden LMMs: die Kontextlänge des Sprachmodells. Durch das Training auf längeren Textdaten erweitern wir die Kontextlänge des Sprachmodells und verwenden dieses kontextverlängerte Modell als Backbone für die Modalausrichtung und visuelle Instruktionstuning, ohne lange Video-Text-Paare. Auf diese Weise wird die Kontextlänge des Sprachmodells direkt auf die der LMMs übertragen.

Long Video Assistant (LongVA)

Unser Modell, der Long Video Assistant (LongVA), kann 2000 Frames oder über 200K visuelle Tokens verarbeiten. Experimente zeigen, dass zusätzliche Frames während der Inferenz zu einer verbesserten Leistung bei langen Video-Frage-Antwort-Benchmarks führen. LongVA erreicht den neuesten Stand der Technik (SoTA) unter den 7B-Modellen auf dem Video-MME-Dataset. Unsere Arbeit ist Open-Source und kann auf GitHub eingesehen werden.

Technische Details

- **Long Context Transfer**: Wir entdeckten das Phänomen der langen Kontextübertragung, bei dem der Kontext des Sprachmodells direkt auf die modality-angepassten multimodalen Modelle übertragen werden kann.
- **Visual Needle-In-A-Haystack (V-NIAH)**: Wir entwickelten den V-NIAH-Benchmark, um die Fähigkeit von LMMs zu testen, visuelle Informationen über extrem lange Kontexte hinweg zu lokalisieren und abzurufen.
- **UniRes**: Ein einheitliches Kodierungsschema, das Videos als erweiterte Bilder darstellt und die Fähigkeit zur Fusion zwischen Bildern und Videos verbessert.

Vergleich mit bestehenden Modellen

Um längere Videoeingaben zu ermöglichen, trainieren frühere Arbeiten weniger visuelle Tokens, um die maximale Frame-Anzahl während des Trainings zu erhöhen. Unser LongVA hingegen ermöglicht lange Videofähigkeiten durch die Erweiterung des Backbone-Sprachmodells.

Beispielhafte Modelle und ihre Eigenschaften

- MPLUG-Owl-video: 256 Tokens/Frames, 4 Max Frames, LLaMA Backbone, 4K Kontextlänge
- MovieChat: 32 Tokens/Frames, 8 Max Frames, Vicuna-v0 Backbone, 2K Kontextlänge
- Video-LLaVA: 49 Tokens/Frames, 8 Max Frames, Vicuna-1.5 Backbone, 4K Kontextlänge
- LongVA (Unser Modell): 144 Tokens/Frames, unbeschränkt Max Frames, Qwen2-Extended Backbone, 224K+ Kontextlänge

Benchmarking und Experimente

Um den Fortschritt der Video-LMMs-Leistung genau zu messen, haben Forscher verschiedene Benchmarks entwickelt, die ein breites Spektrum an Aufgaben abdecken. Diese reichen von grundlegenden visuellen Wahrnehmungsaufgaben wie Aktivitätserkennung und Konzeptdetektion bis hin zu komplexeren visuellen Begründungsaufgaben wie kompositionelle, kausale und situierte Begründung.

V-NIAH Benchmark

Inspiriert vom NIAH-Test in der Sprachmodell-Community haben wir V-NIAH entwickelt, um die Fähigkeit von LMMs über lange visuelle Eingaben mit minimalem Aufwand für Datenerfassung und menschliche Annotation zu bewerten.

Fazit

Unser Long Video Assistant (LongVA) bietet eine bahnbrechende Lösung für die Verarbeitung und das Verständnis extrem langer Videos. Durch die Extrapolation der Kontextlänge des Sprachmodells und die Einführung eines einheitlichen Kodierungsschemas können wir die Fähigkeiten von LMMs erheblich erweitern. Unsere Experimente zeigen, dass LongVA den aktuellen Stand der Technik übertrifft und eine vielversprechende Richtung für zukünftige Forschungen darstellt.
‍

‍
Bibliographie

‍
- https://arxiv.org/html/2406.16852v1
- https://paperswithcode.com/paper/long-context-transfer-from-language-to-vision
- https://gradio.app/
- https://twitter.com/PY_Z001/status/1805478253215596750
- https://www.gradio.app/docs/gradio/video
- https://www.linkedin.com/posts/gradio_%3F%3F%3F%3F%3F%3F-%3F%3F%3F%3F%3F%3F%3F-%3F%3F%3F-%3F%3F%3F%3F-activity-7196095237285371904-kuPf
- https://www.gradio.app/guides/creating-a-chatbot-fast
- https://www.linkedin.com/posts/gradio_sharecaptioner-video-is-an-impressive-activity-7209143821408907265-meGw

Was bedeutet das?

No items found.

Innovative Verarbeitung extrem langer Videos mit Long Video Assistant

Durchbruch bei der Verarbeitung langer Videos: Der Long Video Assistant

Einleitung

Hintergrund und Problemstellung

Ansatz: Kontextübertragung von Sprache auf Vision

Long Video Assistant (LongVA)

Technische Details

Vergleich mit bestehenden Modellen

Beispielhafte Modelle und ihre Eigenschaften

Verwandte Arbeiten

Kontext-Extrapolation in Transformern

Benchmarking und Experimente

V-NIAH Benchmark

Fazit

‍
Bibliographie

Innovative Verarbeitung extrem langer Videos mit Long Video Assistant

Durchbruch bei der Verarbeitung langer Videos: Der Long Video Assistant

Einleitung

Hintergrund und Problemstellung

Ansatz: Kontextübertragung von Sprache auf Vision

Long Video Assistant (LongVA)

Technische Details

Vergleich mit bestehenden Modellen

Beispielhafte Modelle und ihre Eigenschaften

Verwandte Arbeiten

Kontext-Extrapolation in Transformern

Benchmarking und Experimente

V-NIAH Benchmark

Fazit

‍Bibliographie

‍
Bibliographie