Home
| Lehre
| Videos
| Texte
| Vorträge
| Software
| Person
| Impressum, Datenschutzerklärung
| ![]()
Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.
vorheriger | Gesamtliste | jüngste | nächster
2025-07-19 21:57
Gerade war mal wieder Prüfungsphase – und damit wie jedes Mal eine Gelegenheit, der KI zuvor ungesehene Aufgaben zu geben. Hier sind die Klausurzettel und die Lösungen von mir (bei Mathe mache ich gar keine Lösungen mehr selbst) sowie – von mir kommentiert – die Lösungen von einer KI oder zwei KIs:
Gemini 2.5 Pro ist grandios und Grok 4 (hier in der Variante von LMArena, weil ich knickerig bin) kann sich trotz seiner Wortkargheit wirklich sehen lassen. Weil ich die Aufgaben mit ChatGPT o3 und Claude Sonnet 4 entwickelt und abgestimmt habe, sind jene beiden Modelle nicht dabei; das wäre sonst unfair. Beim Test der Aufgaben habe ich sowieso den deutlichen Eindruck gewonnen, dass Gemini 2.5 Pro klar besser ist als diese beiden. Claude Sonnet 4 verrechnet sich sogar manchmal noch. Imposant ist dagegen, wie Gemini 2.5 Pro und Grok 4 in Aufgabe 5 der Mathematik-2-Klausur Umformungen hinlegen, bei denen ich mich x-mal vertan hätte.
(An die Leute, die meckern, dass ChatGPT sich bei statistischen Berechnungen mit Datenreihen vertut: Dann muss man es eben bitten, Python zu nehmen, falls es das nicht automatisch tut. Auch ich kann nicht die Standardabweichung einer Stichprobe aus 21 Zahlen mit jeweils sieben gültigen Ziffern im Kopf berechnen.)
Die nächste große Hürde ist immer noch das Anfertigen von Diagrammen. Was Gemini 2.5 Pro zu den Aufgaben 2 und 3 (aber nicht so sehr Aufgabe 7) der Gebäudeautomations-Klausur skizziert, gerät schon recht, äh, abstrakt. Allerdings muss man sagen, dass das fehlerfreie Anfertigen von TikZ-Grafiken eine übermenschliche ;-) Leistung darstellt, also ein klares Indiz für ASI wäre.
Am meisten beeindruckt mich, dass Gemini 2.5 Pro so viel besser als meine regulären Prüfungsteilnehmer*innen das menschliche Denken simuliert, zu sehen etwa in den Aufgaben 5, 9 und 10 der Gebäudeautomation und den Aufgaben 2 und 8 der Informatik 2.
Neuer Kommentar
0 Zeichen von maximal 1000
Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.