Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Noch mehr Experimente mit o4 Imagegen und seiner Konkurrenz

2025-04-03 21:11

Heute erschien ein Hinweis auf ein kleines Update. Also noch mal ein paar Sachen ausprobiert! Die Prompts stehen jeweils im title der Bilder hier (Maus drüberhalten; in die Bilder reinzoomen oder sie in einem eigenen Fenster öffnen).

o4 Imagegen scheint mit LaTeX trainiert worden zu sein, also direkt von der Formelsprache zu den Pixeln gehen zu können. Das ist natürlich absurd schwierig, was das Resultat trotz aller Fehler noch erstaunlicher macht. Gemini 2.0 Flash (Image Generation) Experimental kann das ansatzweise, Grok 3 beta gar nicht.

Ein ähnliches (pun intended) Bild beim Zeichnen eines Schaltplans: nicht korrekt, aber schon viel besser als die Konkurrenz.

Probieren wir die erste Seite von Beethovens Fünfter. o4 weiß von selbst Allegro con brio und ein paar verstreute b, aber die Noten sind frei erfunden. Bei Gemini erkennt man erste Schritte, bei Grok kaum.

Ich hätte gerne meinen Jugendtraum als Foto gesehen, aber o4 weigert sich, mein hochgeladenes Portraitfoto auf jugendlich umzustricken und vor einen Turm von Keyboards zu stellen. Es schlägt vor, eine fiktive Person zu nehmen, weigert sich aber auch dann wieder. (Hoffen wir auf ein nicht-lobotomiertes Modell wie DeepSeek!) Also nur die Keyboards, so be it. Es sind vier statt drei, oben wie gewünscht Jupiter-8 und DX7 entfernt zu erkennen. Aber vor allem sind die Tasten der Klaviaturen korrekt – auch wenn die Tastaturen zu wenige Oktaven haben. Auch Gemini blockt die Anfrage mit dem Portraitfoto – zunächst. Aber nach dem weiteren Prompt OK, dann irgendein Jugendlicher gehts doch. Grok versteht schon bei Jupiter was falsch, gibt mir aber einen distinguierten Gesichtsausdruck.

Kann die KI nun Hausaufgaben korrigieren? Bei o4 darf man anfangen, das zu glauben. (Nebenbei sieht man, dass hochgeladene Bilder nicht Pixel für Pixel genommen, sondern in ein internes Konzept übersetzt werden; bei Gemini erkennt man im Hintergrund mein Originalbild.) Gemini ist vielleicht arg streng bei der Korrektur, Grok sehr inspiriert.

Es könnten Leute auf die Idee kommen, bei Reisekostenabrechnungen noch, äh, kreativer zu werden als bisher – zumindest mit o4. Die Tickets von Gemini und Grok würden dagegen wohl auffallen.

Auch bei der Chemie ahnt man, dass da was gehen könnte, aber die vier Perspektiven von o4 und von Gemini sind nicht mal in sich stimmig. Immerhin kann man Kohlenstoff-Ringe sowie Wasserstoff- und Sauerstoff-Atome erkennen. Grok liefert wieder etwas Lustiges.

Schachbretter sind immer noch eine Herausforderung. o4 schafft es immerhin nun, korrekt eingefärbte acht mal acht Fehler darzustellen. Viele Figuren stehen allerdings zwischen jeweils zwei Feldern und für den fünften Zug sind arg wenige Bäuer*innen auf dem Spielfeld. Die beiden Personen, die Gemini erzeugt, scheinen mir die falschen zu sein.

Nicht nur Photoshop und GIMP werden überflüssig, auch die DTP-Programme sind bedroht: Für den Flyer habe ich das Logo als Bilddatei und den Namen der Schriftart vorgegeben und um einen QR-Code gebeten. o4 kommt für mich erstaunlich weit, wenn auch mit frei erfundenen Angaben und einem erfundenen QR-Code. Die beiden anderen Kandidatinnen kriegen aber nicht mal Text vernünftig hin.

Wie üblich werden einige Leute hier sagen: Siehste, geht nicht! Ich dagegen sehe die Geschwindigkeit, mit der immer mehr geht. Das Glas ist halb voll, nicht halb leer! Allerdings werden wir demnächst 20 oder 30 Prozent Digitalsteuer auf diese Sachen zahlen müssen. Vielleicht wird der Spuk auch einfach von den USA staatlicherseits als Vergeltungsmaßnahme für europäische Zölle oder Gesetze abgedreht. Und ich dachte immer, das LG Hamburg würde schlussendlich die Institution werden, welche uns vor der KI rettet …

Kommentar vom 2025-04-04, 11:11

Wenn doch nur mehr Leute interessiert auf die Veränderungen schauen würden, anstatt sie pauschal zu verurteilen. Dann könnte es in Deutschland mit der Zukunft doch noch etwas werden.
Aber vermutlich hat das mit den stetig steigendem Durchschnittsalter zu tun. Schade für die Kinder.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.