YOLO World Neuer Meilenstein in der Echtzeit Objekterkennung mit offenem Vokabular

Kategorien:

No items found.

Freigegeben:

June 26, 2024

In der Welt der künstlichen Intelligenz und des maschinellen Lernens hat sich die Objekterkennung als ein entscheidender Bereich für Forschung und Entwicklung etabliert. Im Zentrum dieser Bemühungen steht das Ziel, Computern das Sehen und Verstehen von Bildern auf eine Weise zu ermöglichen, die menschlichen Fähigkeiten ähnelt oder diese sogar übertrifft. Ein neuer Durchbruch in diesem Feld wurde kürzlich von Tencent mit der Veröffentlichung von YOLO-World erreicht, einer Methode zur Echtzeit-Erkennung von Objekten mit offenem Vokabular.

YOLO, die Abkürzung für "You Only Look Once", ist eine Serie von Detektoren, die sich durch Effizienz und Praxistauglichkeit auszeichnet. Die bisherigen Modelle waren jedoch darauf beschränkt, vordefinierte und trainierte Objektkategorien zu erkennen, was ihre Anwendbarkeit in offenen Szenarien limitierte. Um diese Einschränkungen zu überwinden, hat Tencent YOLO-World vorgestellt, einen innovativen Ansatz, der YOLO mit Fähigkeiten zur Erkennung eines offenen Vokabulars durch Modellierung und Vortraining auf großen Datensätzen erweitert.

Die Forscher von Tencent haben einen neuen Re-parametrisierbaren Vision-Language Path Aggregation Network (RepVL-PAN) und einen region-text-kontrastiven Verlust entwickelt, um die Interaktion zwischen visuellen und sprachlichen Informationen zu erleichtern. Diese Techniken ermöglichen es YOLO-World, eine Vielzahl von Objekten in Echtzeit und in einer Nullschuss-Manier zu erkennen, was bedeutet, dass das System keine vorherigen Beispiele der zu erkennenden Objekte benötigt.

Die Leistung von YOLO-World wurde auf dem anspruchsvollen LVIS-Datensatz getestet, auf dem es eine durchschnittliche Präzision (AP) von 35,4 bei 52,0 Bildern pro Sekunde (FPS) auf einer V100-GPU erreichte. Dieses Ergebnis übertrifft viele andere führende Methoden sowohl in Genauigkeit als auch Geschwindigkeit. Darüber hinaus zeigte YOLO-World nach einer Feinabstimmung bemerkenswerte Leistungen bei mehreren nachgelagerten Aufgaben, einschließlich Objekterkennung und Segmentierung von Instanzen mit offenem Vokabular.

Der Code und die Modelle von YOLO-World stehen der Öffentlichkeit zur Verfügung und können für Forschungs- und Anwendungszwecke genutzt werden. Das System ist auf großen Datensätzen vortrainiert, die Detektion, Grounding und Bild-Text-Datensätze umfassen. Damit verkörpert YOLO-World die nächste Generation von YOLO-Detektoren mit einer starken Fähigkeit zur Erkennung eines offenen Vokabulars und Grounding-Fähigkeiten.

Ein weiteres bemerkenswertes Merkmal von YOLO-World ist das Paradigma „Prompt-then-detect“, das eine effiziente Vokabularinferenz ermöglicht. Dieses Paradigma reparametrisiert Vokabular-Einbettungen als Parameter im Modell, was zu einer überlegenen Inferenzgeschwindigkeit führt.

Die Entwickler von YOLO-World haben darüber hinaus auch an der Bereitstellung von Werkzeugen für die Bereitstellung des Modells für nachgelagerte Anwendungen gearbeitet, wie zum Beispiel ONNX oder TensorRT, sowie an der Beschleunigung der Inferenz und Skripten für Geschwindigkeitsbewertungen.

Die Veröffentlichung von YOLO-World stellt einen bedeutsamen Fortschritt in der Objekterkennung dar und bietet neue Möglichkeiten für die Entwicklung von Anwendungen, die auf diese Technologie angewiesen sind. Die Fähigkeit, Objekte in Echtzeit und mit einem offenen Vokabular zu erkennen, hat das Potenzial, die Art und Weise zu revolutionieren, wie Maschinen unsere Welt wahrnehmen und mit ihr interagieren. Von autonomen Fahrzeugen über intelligente Überwachungssysteme bis hin zu assistiven Technologien könnten viele Bereiche von den Fortschritten profitieren, die YOLO-World mit sich bringt.

Was bedeutet das?

No items found.