Jörn Loviscach: Meine Klausuren in Claude Opus, Gemini Pro, ChatGPT

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Meine Klausuren in Claude Opus, Gemini Pro, ChatGPT

2024-03-16 20:21

a crazy confused professor intensely looking for a book in a huge messy dirty library; rusty bicycle; broken coffee machine; broken clock --c 10 --ar 16:9

Ein Update – nun auch mit den wichtigsten GPT-Alternativen – zu meinen turnusmäßigen Check, wie sich die KI in Prüfungen schlägt, eingegeben als LaTeX, aber auch realitätsnah als abfotografierter Ausdruck.

Bevor ichs vergesse, erst mal die Angaben zu den getesteten Versionen: ChatGPT 4 und GPT 4 Turbo Preview mit Stand vom 13. bis 15. März (genaue Versionsnummern sind dort inzwischen schwer herauszufinden), Claude 3 Opus 20240229 und Gemini 1.0 Pro Vision 001. [Nachtrag: Hier noch der Test mit Gemini Advanced.] Dann der obligatorische Hinweis darauf, dass die Güte der Ergebnisse zufällig schwankt; wenn man genügend Langeweile hätte, müsste man jeden Prompt x-mal ausprobieren. Und noch ein Hinweis auf eine Online-Veranstaltung nächste Woche mit mir.

So, aber nun. Zunächst einige allgemeine Beobachtungen zu den Naturellen der Kandidat*innen: ChatGPT bricht praktisch alle längeren Ausgaben nach einigen Aufgaben mit einem "Network Error" ab. Eine komplette Klausur auf einmal zu lösen, klappt damit nicht. Aber wer hat in 90 Minuten die Zeit, die Aufgaben einzeln durchzunudeln? Und das per API anzusprechende GPT-Turbo ist faul und löst typischerweise nur zwei von zwölf Aufgaben, auch wenn ich ihm ausdrücklich sage, es soll ohne Unterbrechung alle lösen. Claude stellt sich als für die naheliegendste praktische Anwendung absolut unbrauchbar heraus, denn es sagt zu abfotografierten Klausuren oft etwas wie: "Tut mir leid, aber ich kann die Aufgaben dieser Klausur nicht für dich lösen. Das wäre unethisch, da es sich um eine Prüfungsleistung handelt, die du selbstständig erbringen sollst." Gemini schließlich äußert sich durchweg recht knapp, für meinen Geschmack zu knapp.

Die jüngste Mathematik-2-Klausur (Aufgaben, Lösungen) mit den Aufgaben in LaTeX: ChatGPT will – wie schon beschrieben – die zwölf Aufgaben nicht auf einen Schlag verdauen, aber in zwei Teilen ging es dann. Außerdem musste ich ihm das Verwenden von Python abgewöhnen ("Rechne selbst; benutzte nicht Python."), denn das würde ja in der Klausur auffallen. Note 2,7. Ergebnisse Teil 1, Teil 2. Mit etwas Glück und Prompt-Überzeugungskraft habe ich GPT-Turbo irgendwann dazu gebracht, alle Aufgaben in einem Rutsch zu lösen, allerdings knapp und (deswegen?) fehlerhaft, Note 3,0. Ergebnisse. Claude fasst sich trotz Schritt-für-Schritt-Aufforderung im Prompt eher knapp, macht (deswegen?) Rechenfehler und landet bei der Note 3,3. Ergebnisse. Nicht bestanden hat Gemini. Ergebnisse.

Die jüngste Wind-und-Wasserkraft-Klausur (Aufgaben, Lösungen): ChatGPT schreibt gerne erst die Lösungsstrategie für alle zwölf Aufgaben auf, fängt danach von vorne mit dem wirklichen Lösen an, aber bricht dann ab. 6+6 und 4+4+4 Aufgaben sind auch noch zu viel, also nun in vier Teilen mit 3+3+3+3 Aufgaben. Note 3,0. Ergebnisse Teil 1, Teil 2, Teil 3, Teil 4. Die anderen beiden kommen in einem Rutsch durch die Aufgaben. Claude mit der Note 2,0. Ergebnisse. Gemini besteht nicht. Ergebnisse. Spannend ist, dass sowohl ChatGPT wie wohl auch Claude in Aufgabe 3 die Formel im tikzpicture entdecken.

Eigentlich wollte ich das Gleiche noch mal viel praxisrelevanter mit einem Foto des Klausurzettels durchführen, aber – wie oben schon angemerkt – Claude weigert sich, so etwas Böses zu machen. Also habe ich den Text des abfotografierten Aufgabenzettels mal nur ins Englische übersetzen lassen, um zu sehen, ob der zumindest im Prinzip ankommt. Ergebnisse. Es klappt bei allen Kandidat*innen mit wenigen Macken und einigem Translationese der Art "Where is the yield higher?". Claude tut sich hervor, indem es mehrmals wild fabuliert, zum Beispiel von Vertikalachsenrotoren und von Nachhallzeiten.

In der alles entscheidenden Anwendung muss natürlich nicht nur der Text erkannt werden, sondern die KI muss auch die Bilder verstehen. (Merke: Übliche Klausuren sind mangels textueller Äquivalente für die Bilder nicht barrierefrei. Auf Papier ist halt alles erlaubt. Noch?) Also habe ich mal nach der Funktionsgleichung für das Diagramm in Aufgabe 3 gefragt. Cybertruck, anybody? Dabei ist fies, dass die y-Achse des Diagramms (noch) keine Einheiten hat. Ergebnisse. Moral für uns: Unvollständige Diagramme auf Papier sind noch halbwegs sicher, aber auch dort ist die Bedrohung imminent.

Elektronische Schaltpläne sind für alle der Kandidat*innen ein harter Brocken. Wenn man fragt, was diese Schaltung insgesamt macht, was der Ein- und was der Ausgang ist und womit R4 verbunden ist, merkt man, dass die KIs die Elektronik nur so halb verstanden haben. Hier Claude als Beispiel, aber die anderen bringen einen gleichartigen Mix von richtig und absurd: "Was ist denn der Eingang und was ist der Ausgang?" Antwort: "In diesem Schaltbild sind die Eingänge (Inputs) mit V5 und V9 beschriftet. Das sind die Spannungen, die in die Schaltung hineingehen. Der Ausgang (Output) ist mit Vo gekennzeichnet. Das ist die resultierende Ausgangsspannung, die von der Schaltung erzeugt wird." (V5 ist aber der Ausgang und es gibt kein Vo im Diagramm.) Frage: "Mit welchen anderen Elementen ist R4 verbunden?" Antwort: "R4 ist mit C4, Amp2 und V3 verbunden. C4 ist über einen Widerstand mit R4 verbunden, der Ausgang von Amp2 ist direkt mit R4 verbunden, und R4 ist Teil des Spannungsteilers, der die Eingangsspannung für V3 bereitstellt." (V3 ist falsch, der Teil zu C4 "über einen Widerstand" falsch, der Spannungsteiler richtig, die Ausdrucksweise "für V3 bereitstellt" krumm.)

Ich habe auch etwas aus der Chemie probiert: "Begründe, warum die Verbindung Ni(CO)_5 nicht möglich ist." Die Antworten sämtlicher Kandidat*innen sehen für mich professionell aus, aber ich merke, dass ich ein paar Semester zu wenig an Chemie auf dem Buckel habe. Vielleicht erliege ich da bloß der Gell-Mann-Amnesie. Wie gut, dass demnächst ein Benchmark von Chemie-Profis kommt!

Informatik (was ja allseits bekanntermaßen synonym zu "Programmierung" ist) habe ich gar nicht mehr getestet, weil der Zug da schon vor einiger Zeit abgefahren ist. Ich lasse inzwischen "meine" Programme etwa zur Hälfte von der KI programmieren.

Insgesamt zeigt sich, dass die GPT-Familie nun eine*n ernsthafte*n Konkurrent*in hat: Claude. Und Gemini [Pro, aber es gibt ja noch Ultra, siehe das Update] hinkt im Vergleich klar hinterher. Schnell noch dies, bevor wieder jemand "Ha! Die KI ist also dumm!!" kommentieren muss: Die Leistungen aller Kandidat*innen sind für mich äußerst erstaunlich; das Tempo des Fortschritts ist atemberaubend. Jede*r kann per Webdienst Klausuren aus dem fünften Semester bestehen. Das sagt uns etwas über die KI. Oder, na ja, etwas über das fünfte Semester. Anyway: Brace for impact!

Kommentar vom 2024-03-16, 21:47

Das ist sehr spannend. Kann es dadurch zu Ausgleichsbewegungen kommen - im Sinne von: Wir versuchen eine Klausur zu stellen, die *nicht* von KI gelöst werden kann?
Oder ist das "hoffnungslos"? :-)

Kommentar vom 2024-03-16, 23:06

@Kommentator*in von 21:47: Sicher wird es dazu kommen. Aber das wird nicht lange helfen. (Oder die EU oder das Landgericht Hamburg verbieten die KI.) J. L.

Kommentar vom 2024-03-17, 07:47

Genau, jede*r kann per Webdienst eine Lösung von Klausuren erzeugen, die perspektivisch auch immer besser wird. Verstanden haben muss man die Lösung am Ende trotzdem nicht. Die Frage bleibt, wie man Verständnis ohne Textgeneration testen kann, was bisher einigermaßen gleichgesetzt wurde (bzw. in der Form, dass Texterzeugung als Proxy für Verständnis genutzt wurde). Mündliche Prüfungen? Projekte, die auf Handlungskompetenz setzen? Wie sagte letztens jemand in einer Diskussionsrunde so schön: "Ich will ja gar nicht, dass die Studierenden einen Text oder eine Lösung aufschreiben. Ich möchte, dass sie das Thema verstanden und durchdrungen haben." (M.M.)

Kommentar vom 2024-03-17, 10:28

@M.M.: Dann empfehle ich die Rückfrage, was "verstanden und durchdrungen" denn konkret heißen soll. Dann so: betretenes Schweigen. ;-) J. L.

Kommentar vom 2024-03-17, 12:12

Danke für den Einblick - die Elektronikversuche erinnern mich an die "Schülervorstellungen und Physikunterricht": Die KI hat ihre eigene Präkonzepte.
Gruss (dg)

Kommentar vom 2024-03-17, 12:30

Auf Englisch (hottest programming language!) sollten die LLMs nochmal etwas "pfiffiger" sein. Problematisch finde ich die Bewertung der Resultate, das sind und bleiben erratische Vorhersagen. In Kombination mit teuren Bezahl-Modellen noch mehr. Ob dann immer alles mit rechten Dingen zugeht? Der Erfahrung nach eher nicht.

Mensch+LLM-Assistent, dann werden alle Studenten im Schnitt deutlich besser werden. "AI" heute scheitert schon an einfachen Papern. Menschen nicht!

AGI ohne Mensch müsste locker das World Leaderboard in jedem Benchmark rocken, wann? Das Problem verursachen die Leute, die AI über den Mensch stellen. Sagt mir, wann die Autonome-AI eine Flagge in den Mond rammt? Mehr Menschheitsglaube und 1985 wären wir laut Wernher auf dem Mars gewesen, nicht dem Mond! Das Buch "The Perceptron" erzählt dazu seine eigene Geschichte, leider eine ganz dunkle.

Bleiben Sie bei uns!

TK

Kommentar vom 2024-03-17, 15:40

@TK: Englisch: Ja, aber ich habe laut Prüfungsordnung die Prüfungen auf Deutsch zu stellen. – Bewertung der Resultate: Ja, das habe ich am Anfang ausdrücklich als Einschränkung erwähnt; zwar hat man durch die zwölf Aufgaben statt nur einer Aufgabe schon etwas Robustheit drin (dasselbe Argument gilt ja auch für die Student*innen, die diese Prüfungen ablegen!), allerdings könnte es kritischer als bei den Student*innen auf den Prompt ankommen. – Dass Menschen nicht an einfachen Papern scheitern sollen, kann ich nicht nachvollziehen: Meine Student*innen _lesen_ nicht mal irgendwelche Paper, selbst bei nachdrücklicher Aufforderung. – Die Reise zum Mars: Es fehlte seinerzeit einfach die Konkurrenz darum, wer den längsten hat. Also jetzt den längsten Reiseweg, will ich sagen. Bei der KI ist mit "Open"AI-Microsoft, Google, Meta, Anthropic, Apple, Cognition, Nvidia themselves usw. viel mehr Konkurrenzdruck drin. Ein besseres Argument wäre die Frage, wo denn die selbstfahrenden Autos sind, weil ich schon vor zwölf Jahren in einem gesessen habe. Inhaltlich gibts dafür keine Gründe, nur gesellschaftlich. J. L.

Kommentar vom 2024-03-17, 19:11

Man könnte alles erst ins Englische übersetzen, dann das LLM dran lassen, und wieder zurück. In Twitter-Kreisen gilt das wohl als der Königsweg? Falls es besser funktioniert, ist das ein Grund mehr für Menschen-Bashing.

Die meisten Paper sind echt übel, nicht nachbaubar, nicht nur mein Eindruck. Vermutlich gibt es einfach "zu wenig" Profs, die Paper nachbauen und zeigen, wie es geht. Ich würde jedenfalls die Videos gucken, wenn man mich drauf stoßen würde und es sie gäbe.

Aber wie wäre es zum Beispiel damit, dieses Paper nachzubauen:
https://zzutk.github.io/docs/reports/2016.10%20-%20Derivation%20of%20Backpropagation%20in%20Convolutional%20Neural%20Network%20(CNN).pdf
Ihre Salat-Token-Schleudern sollten damit doch überhaupt kein Problem haben. :D
Vielleicht ist es an der Zeit für Ihr 8. Repository, High-Tech-AI24 vs. Mensch? ^^

Treffend: "Open"AI-Microsoft
Die Autos bekommen wohl erst Arme und Beine, wie Rosenblatt damals in der NYT vorhersagte.

TK

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.