Sora von OpenAI: Was kann der Video-Generator?

OpenAI schlägt immer wieder neue Wellen in der KI-Welt. So auch im Februar mit dem Launch des Text-zu-Video Generators Sora. Obwohl das Tool noch immer nicht der gesamten Öffentlichkeit zu Verfügung steht, tut dieser Fakt der Signifikanz der Neuheit nichts ab. Welche Möglichkeiten durch Sora entstehen und auf was man sich gefasst machen muss, wenn die Anwendung für alle verfügbar ist, erfährst Du in diesem Beitrag.

OpenAI veröffentlicht Neuerungen in einem äußerst schnellen Tempo. Erst vor kurzem wurde ChatGPT-4 Omni vorgestellt. Mehrere Funktionen waren von dieser neuen Version betroffen und wurden in diesem Zuge verbessert. Anfang des Jahres wurde der ChatGPT Store und Team-GPT veröffentlicht. Und erst Ende vergangenen Jahres wurde die Neuerung, dass der Chatbot auf das Internet zugreifen kann, bekannt gemacht. Das Unternehmen ist zweifelsohne der Marktführer in allen Sachen künstlicher Intelligenz. Diese Poleposition hat es im Februar diesen Jahres erneut bestärkt. Die Text-zu-Video Funktion ist so einmalig auf dem Markt. Doch was genau kann Sora genau?

Das Feedback auf Sora

Wie es bei vielen Neuerungen im Bereich der künstlichen Intelligenz der Fall ist, wurden viele negative Stimmen nach dem Launch von Sora laut. Da die Videos so hyperrealistisch sind, fürchten Viele den Missbrauch der Technologie. Deep-Fakes sind bereits ein Begriff, doch diese konnten bis vor kurzem nicht von jedem und so einfach hergestellt werden. Dies wirft viele moralische Fragen auf. Um genau diese Bedenken zu klären, hat OpenAI die Technologie noch nicht der breiten Masse zur Verfügung gestellt. So können bisher nur ausgewählte Kreative das Tool nutzen und das Unternehmen auf mögliche Gefahren hinweisen. Bis die KI dann alle verwenden können, sollen diese dann behoben sein.

Neben den negativen Stimmen gibt es auch eine große Anzahl an Begeisterten. So wird Sora als ein Bauteil im Angebot von OpenAI gesehen. Der logische nächste Schritt der KI. Unter denen, die das Tool bereits austesten konnten, wird eine gemischte Stimmung laut. So seien die Möglichkeiten, die das Tool bietet, innovativ und einzigartig. Trotzdem gäbe es noch einige Schwachstellen: Physikalische Regeln werden missachtet oder der bereits angebissene Keks ist in der nächsten Szene immer noch ganz. Die Rezeption auf die Neuheit zeigt, dass es noch einige Punkte gibt, die überarbeitet werden müssen, aber auch das Sora ein unglaublicher Schritt in der Softwarebranche ist.

Einheitlichkeit als das Schlüsselelement

Im Interview mit dem Wall Street Journal erklärt OpenAI, dass der Unterschied, der Soras Ergebnisse so realistisch aussehen lassen, der Fokus auf Einheitlichkeit ist. So müssen die verschiedenen Elemente im Blickfeld zwischen den einzelnen Bildern gleich bleiben, so dass der Übergang nahtlos erscheint. Das dies aber noch nicht komplett umgesetzt wird, zeigen die Beispielvideos. Autos im Hintergrund verändern willkürlich ihre Farbe, Prompts werden nicht vollständig umgesetzt oder die KI fügt selbstständig eigene Elemente hinzu. Die Beispiele Dritter, die bereits Zugriff auf das Tool haben, zeigen im Vergleich zu den Werbevideos, die auf der OpenAI Website aufgelistet werden, diese Schwachstellen sehr deutlich.

Einschränkungen von Sora

Wie auch bei der Bildgeneratierung wird es bei der Videogenererierung einige Einschränkungen geben. Beispielsweise soll die KI keine Persönlichkeiten des öffentlichen Lebens in ihren Videos zeigen. Andere Einschränkungen gibt es bezüglich der Imitation von Künstler:innen, deren Werke in den letzten 100 Jahren entstanden sind. Ob Sora genau wie DALL-E einen Editor als Zusatz bekommt, mit dem man das bereits erzeugte Produkt nochmals verändern kann ohne eine komplett neue Version zu erstellen, steht noch nicht fest.

Was kann Sora?

Die KI kann Videos nicht nur aus textbasierten Prompts erstellen. Es gibt viele Möglichkeiten, Filme zu editieren, zu erstellen oder zu verbinden:

Ähnlich wie die Einschränkungen basiert das System hinter Sora auch auf dem Bildgenerator DALL-E. Hier wurde bereits ChatGPT genutzt um kurze Prompts auszubauen und die benötigten Details zu generieren. Wenn also die Eingabe der Nutzer:innen nicht genügend Informationen enthält, wird dieser Prompt durch den Chatbot verlängert und mit zusätzlichen Infos ausgestattet. Daraus ergeben sich natürlich dann auch Fehler im Endprodukt, da ChatGPT Dinge hinzufügt, die so im initialen Text nicht auffindbar sind.
Neben der Erstellung von Videos durch geschriebene Prompts kann Sora auch aus Fotos Videos generieren. So können beispielsweise mit DALL-E erstellte Bilder mit Sora in ein Bewegtbild verwandelt werden.
Bereits vorhandene Kurzfilme können mit Sora verlängert werden. Egal ob vor oder nach dem bestehenden Clip: Sora analysiert die Aufnahme und erweitert diese selbstständig. Außerdem kann der vorhandene Clip auch editiert werden. So kann beispielsweise die Umgebung oder Farbelemente verändert werden.
Wenn zwei Videos vorhanden sind, kann Sora diese nicht nur miteinander verbinden, sondern schafft auch einen Übergang, der Elemente beider Filme einbindet und so nahtlos von einem zum nächsten Video führt.
Ein Feature des Videogenerators, der die erstellten Videos realistischer wirken lässt, ist die Kameraführung. Dank der dynamischen Bewegung fühlt man sich in der Szene integriert. Menschen, Szenenelemente und die Umgebung bewegen sich in einem drei-dimensionalen Raum und wirken dadurch echt.
Die digitale Welt kann von Sora auch imitiert werden. Hier ist bisher vor allem die Welt von Videospielen gemeint. Mit nur wenigen Worten kann die KI so beispielsweise den Spielverlauf in der Welt von Minecraft nachstellen.

Die Zukunft von Sora

Obwohl diese Technologie unglaubliche Möglichkeiten bietet, wirft sie auch viele Fragen auf. Die wichtigste ist natürlich die Frage, wann dieses Tool der Allgemeinheit zur Verfügung steht. Bisher gibt es dazu keinen genauen Termin. Jedoch erklärt OpenAI, dass dies noch dieses Jahr geschehen soll. Bis dahin müssen noch viele Bedenken rund um Deep-Fakes, vor allem in Hinblick auf politische Events, geklärt werden.

Für Unternehmen kann diese Entwicklung jedoch auch eine einzigartige Chance sein. So könnten Imagefilme mit Sora für einen Bruchteil der Kosten produziert werden. Auch für Marketingmaßnahmen, beispielsweise auf LinkedIn, wo Videoformate immer wichtiger werden, kann die KI Hilfe leisten. Wer bereits auf der Suche nach guten Video-Strategien für das eigene Unternehmen ist, wird hier fündig.