Jörn Loviscach: Metropolis statt Hollywood

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Metropolis statt Hollywood

2024-02-16 21:55

a cinematic film noir kissing scene with a male android robot and a female android robot; film grain; vertical film defects; hairs on film --no human --ar 16:9 --c 30 --v 6.0

Es gäbe heute ganz andere Nachrichten zu kommentieren – womit ich natürlich nichts anderes als Googles Kontextlänge von einer Million Tokens meine: "Krieg und Frieden" in einem Rutsch, worauf die KI dann antwortet: "Es handelt von Russland." (Darf man noch Woody Allen zitieren?)

Aber nun zum eigentlichen Thema: dem Himmel 空, was unsereins "kōng" lesen würde, "Open"AI aber japanisch "sora" liest und damit ein Modell meint, das zig Sekunden lange Videos in FullHD oder mehr generiert und dabei die Konkurrenz im Staub zurücklässt. Wo die Sprachmodelle mit einer Zerstückelung des Texts in Tokens arbeiten, soll Sora die (x,y,t) in "Patches" zerlegen. Die Verarbeitung sei dann eine Kombination aus Diffusion Model und Transformer. Dass dabei keine JPEG-artige Blockigkeit auftritt, dürfte daran liegen, dass am Anfang und am Ende ein Autoencoder-artiger gelernter Kompressions- bzw. Dekompressions-Schritt liegen.

Was das Modell aus Videos über die Welt gelernt zu haben scheint, ist erstaunlich: wie sich Leuchtreklame in Pfützen spiegelt, welche Wellen Piratenschiffe in der Kaffeetasse erzeugen, wie die Reflexionen des Zuginneren im Zugfenster vor der vorbeiziehenden Landschaft aussehen, dass Schilder, die momentan von einem Kopf verdeckt werden, danach wieder so aussehen wie vorher. Die Konsistenz der Geometrie ist so gut, dass Leute aus den Sora-Videos rückwärts (KI-)3D-Modelle erzeugen (1, 2, 3). [Nachtrag: in gewissen Grenzen.]

Die Luft für die Behauptung, dass KI nichts verstehe, wird immer dünner. Natürlich gibt es Probleme: Die modische Frau in Tokio und die Fußgänger*innen im Tokioter Schnee stolpern alle paar Sekunden komisch. Die schönste Fehlleistung ist die surreale, traumartige Ausgrabung eines Plastikstuhls. Vielleicht ist der Mechanismus des menschlichen Träumens ähnlich?

Einige Leute spekulieren aufgrund des Looks der einen oder anderen Sequenz, dass die Unreal Engine beim Training geholfen hat. Vielleicht liegt es ebenfalls am Trainingsmaterial, dass die Ergebnisse von Midjourney (dann natürlich als Standbilder) verdächtig ähnlich aussehen. [Nachtrag: Auch Shutterstock lässt grüßen.]

Welche Teilbranche der Unterhaltungsindustrie gerade am meisten mental ans Rotieren gerät, muss ich hier nicht erklären.

Lustig ist, dass man nun jedes Video verulken kann, indem man eine kleine Beschreibung davorstellt.

[Nachtrag: Der automatisch zu den Demo-Videos generierte Sound hat nicht lange auf sich warten lassen.]

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.