In einer Welt, in der Kreativität und die Fähigkeit, schnell Inhalte zu erstellen, immer bedeutender werden, hat die Künstliche Intelligenz (KI) einen neuen Durchbruch erreicht: Text-zu-Video-Modelle. Diese Technologie erlaubt es, aus einfachen Texteingaben hochwertige Videoclips zu generieren. Das Versprechen ist verlockend – Stellen Sie sich vor, Sie könnten einfach einen Satz schreiben, und eine KI würde daraus ein Video erschaffen. Was wie Science-Fiction klingt, wird zunehmend Realität, wie aktuelle Entwicklungen von Google AI und Meta AI zeigen.
Google AI hat kürzlich mit Lumiere ein neues Modell vorgestellt, das speziell dafür entwickelt wurde, ganze Videoclips in einem Durchgang zu erstellen. Dieses System eröffnet zahlreiche Anwendungsmöglichkeiten, von der Umwandlung von Bildern in Videos bis hin zur stilisierten Generierung und Videobearbeitung. Die Einsatzmöglichkeiten scheinen unbegrenzt und versprechen, zahlreiche Branchen zu revolutionieren, von der Unterhaltungsindustrie bis hin zum Marketing.
Meta AI hat ebenfalls beeindruckende Fortschritte gemacht und ein System namens Make-A-Video veröffentlicht, das Texteingaben in kurze, stumme Videoclips umsetzt. Make-A-Video baut auf früheren Forschungsarbeiten im Bereich der generativen Technologie auf und könnte neue Chancen für Kreative und Künstler eröffnen. Diese Systeme lernen, wie die Welt aussieht, durch gepaarte Text-Bild-Daten und wie sie sich bewegt, durch Videomaterial, das keinen zugehörigen Text hat.
Die Forschung an generativer KI treibt den kreativen Ausdruck voran, indem Menschen Werkzeuge an die Hand gegeben werden, um neue Inhalte schnell und einfach zu erschaffen. Mit nur wenigen Worten oder Textzeilen kann Make-A-Video die Vorstellungskraft zum Leben erwecken und einzigartige Videos schaffen, gefüllt mit lebendigen Farben, Charakteren und Landschaften. Das System kann auch Videos aus Bildern erstellen oder bestehende Videos nehmen und neue ähnliche Videos schaffen.
Die Forscher von Google haben zwei neue KI-Text-zu-Video-Systeme vorgestellt, von denen eines auf die Bildqualität und das andere auf die Erstellung längerer Clips ausgerichtet ist. Das hochwertige Modell, Imagen Video, baut auf Techniken auf, die in Googles früherem Text-zu-Bild-System Imagen perfektioniert wurden. Es fügt der Pipeline neue Komponenten hinzu, um statische Rahmen in flüssige Bewegung zu verwandeln.
Die von der KI generierten Videos sind beeindruckend, aber auch befremdlich und unheimlich. Überzeugend sind vor allem jene Clips, die Animationen nachahmen, da hier weniger strenge Regeln für zeitliche und räumliche Komposition gelten. Weniger überzeugend sind Clips, die die Bewegung echter Menschen und Tiere nachahmen, da hier die Erwartungen an die Bewegung von Körpern und Gliedmaßen hoch sind und die Verzerrungen und Qualitätsverluste des Footages offensichtlicher werden.
Die Forscher von Google weisen darauf hin, dass das Imagen Video-Modell 16 Bilder mit 3 Bildern pro Sekunde bei einer Auflösung von 24x48 Pixeln liefert. Diese Inhalte mit niedriger Auflösung werden dann durch verschiedene KI-Super-Resolution-Modelle aufgearbeitet, was zu 128 Bildern mit 24 Bildern pro Sekunde bei einer Auflösung von 1280x768 Pixeln führt. Dies ist eine höhere Qualität als das Make-A-Video-Modell von Meta, das auf 768x768 Pixel hochskaliert wird.
Die Forscher geben jedoch zu, dass "mehrere wichtige Sicherheits- und ethische Herausforderungen" bestehen bleiben. Sie haben mit Filtern experimentiert, um NSFW-Prompts und -Videos zu erfassen, äußern jedoch keinen Kommentar zu ihrem Erfolg und kommen zu dem Schluss, dass "mehrere wichtige Sicherheits- und ethische Herausforderungen" bestehen bleiben.
Mit Phenaki hat ein weiteres Team von Google-Forschern Details über ein anderes Text-zu-Video-Modell veröffentlicht, das darauf ausgerichtet ist, längere Videos zu erstellen, die den Anweisungen eines detaillierten Prompts folgen. Phenaki kann Videos einer "beliebigen" Länge generieren, also ohne Limit. Die Qualität der von Phenaki generierten Videos ist noch nicht von echten Videos zu unterscheiden, aber das Erreichen dieser Schwelle für eine bestimmte Gruppe von Proben ist auch heute schon im Bereich des Möglichen. Dies kann besonders schädlich sein, wenn Phenaki verwendet wird, um Videos von jemandem ohne dessen Zustimmung und Wissen zu erstellen.
Die Ankündigung dieser neuen KI-Modelle wirft Fragen nach der künftigen Rolle künstlich generierter Inhalte auf. Während sie das Potenzial haben, Kreativität zu verstärken und neue Ausdrucksformen zu ermöglichen, bergen sie auch Risiken. Themen wie eingebettete Rassismus- und Geschlechtervorurteile in diesen Systemen, die auf im Internet gefundenem Material trainiert werden, sowie ihre potenzielle missbräuchliche Verwendung – zum Beispiel zur Erstellung nicht-einvernehmlicher Pornografie, Propaganda und Falschinformationen – müssen sorgfältig betrachtet werden.
Die Zukunft der Text-zu-Video-KI steht somit am Scheideweg zwischen revolutionärer Technologie und ethischer Verantwortung. Es ist faszinierend, zu beobachten, wie sich die Grenzen des Möglichen verschieben, aber es ist ebenso wichtig, die Auswirkungen dieser Technologien auf die Gesellschaft zu bedenken und verantwortungsbewusst mit ihnen umzugehen.