Google Gemini 1.5 Pro und Sora von OpenAI

Das Rennen um KI-Videos hat begonnen

Peter Marwan lotet kontinuierlich aus, welche Chancen neue Technologien in den Bereichen IT-Security, Cloud, Netzwerk und Rechenzentren dem ITK-Channel bieten. Themen rund um Einhaltung von Richtlinien und Gesetzen bei der Nutzung der neuen Angebote durch Reseller oder Kunden greift er ebenfalls gerne auf. Da durch die Entwicklung der vergangenen Jahre lukrative Nischen für europäische Anbieter entstanden sind, die im IT-Channel noch wenig bekannt sind, gilt ihnen ein besonderes Augenmerk.
Noch mokieren sich Nutzer über falsche Antworten von KI-Chatbots oder Fehler in KI-generierten Bildern. Die Anbieter lassen sich davon nicht aufhalten: Sie haben mit Gemini 1.5 und Sora bereits Videos fest im Blick.
Von OpenAis KI Sora generertes Video mit Mammuts im Schnee.
Von OpenAis KI Sora generertes Video mit Mammuts im Schnee.
Foto: Screenshot: Peter Marwan

Microsoft und Google haben ein neues Feld, um ihre Innovationsfähigkeit unter Beweis zu stellen. Nach dem Kampf um die Gunst der Nutzer bei Browsern, Suchmaschinen, Produktivitäts-Software, Smartphone-Betriebssystemen und Notebooks (Windows gegen Chrome OS) ist der nächste Schauplatz des Ringens die Entwicklung von KI-Technologien. Hier hat Microsoft durch die geschickte Partnerschaft mit OpenAI die Nase vorne - aber Google gibt deshalb längst nicht auf.

Gemini 1.5 analysiert Videos

Nach der Umbenennung seines KI-Angebots von Bard in "Gemini" hat Google jetzt mit Gemini 1.5 dessen Weiterentwicklung vorgestellt. Sie kann nicht nur Texte, sondern auch Videos auswerten kann. Als Test hat Google die Software nach lustigen Momenten im rund 400-seitigen Protokoll der Kommunikation der Apollo-11-Mission zum Mond suchen lassen.

Darin hat Gemini 1.5, das zunächst für Entwickler und Firmenkunden verfügbar sein wird, laut Google-CEO Sundar Pichai und Demis Hassabis, CEO von Google DeepMind, drei Stellen als lustig identifiziert. Generell könne Gemini 1.5 Pro nun bis zu einer Stunde lange Videos, bis zu elf Stunden lange Audioaufnahmen, Texte mit einer Länge bis zu 700.000 Wörtern sowie bis zu 30.000 Zeilen Software-Code erfassen und analysieren. Funktionen, um Videos KI-unterstützt zu verbessern, hatte Google bereits im September 2023 für YouTuber angekündigt.

Open AI generiert mit Sora Videos

OpenAI ist da schon einen Schritt weiter. Oder besser gesagt, hat einen anderen Weg eingeschlagen. Auf X hat OpenAI-Chef Sam Altman am selben Tag wie Google Gemini 1.5 das neue Angebot "Sora" angekündigt. Die Software kann Videos aus Text-Vorgaben erzeugen.

Erste Beispiel sind bereits auf einer Webseite zu sehen. Mit Sora erstellte Videos können zunächst maximal eine Minute lang sein. Allerdings soll das KI-Modell Sora zunächst nur "ausgewählten Kreativen zur Verfügung stehen.

Zu den von OpenAi bei der Vorsellung von Sora veröffentlichten Videos gehört auch eines von einer Frau, die durch eine von Tokio inspirierte Stadt geht.
Zu den von OpenAi bei der Vorsellung von Sora veröffentlichten Videos gehört auch eines von einer Frau, die durch eine von Tokio inspirierte Stadt geht.
Foto: Screenshot: Peter Marwan

Vor breiterer Verfügbarkeit sollen Experten mögliche Sicherheitsrisiken ausloten. Außerdem feilt OpenAI noch daran, dass Sora in den Videos die Gesetze der Physik immer korrekt umsetzt. Außerdem ist auch Sora nicht davor gefeit, Fehler zu machen, wie sie in herkömmlichen Filmen vorkommen - etwa Anschlussfehler. Es könne zum Beispiel passieren, dass im Video jemand von einem Keks abbeißt und der Keks später wieder vollständig dargestellt wird.

Mehr zum Thema

Künstliche Intelligenz als Chance und Risiko für den Channel

KI nicht nur von Tech-Giganten kontrollieren lassen

Personalchefs sehen Künstliche Intelligenz skeptisch

KI als enormer Stromfresser

Zur Startseite