Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

KI, die Musterschülerin

2023-04-15 20:45

Noch eine Studie zu Sprachmodellen (samt GPT-4) und Hochschulaufnahmetests, insbesondere SAT und 高考. Die besten Menschen sind noch ungeschlagen, aber die mittleren Menschen sind in einigen Bereichen der Maschine unterlegen. Allerdings finde ich nichts dazu, ob die Tests bereits in den Trainingsdaten gewesen sein könnten. Wenn ja, wäre das ein dicker methodischer Fehler.

Die Aufgabensammlung steht auf Github. Man könnte mal reale Student*innen drauf los lassen. Nebenbei sind die Fragen aus dem 高考 auch spannend, um zu sehen, wie weit abgeschlagen das deutsche Bildungssystem schon ist.

Und dann hat noch jemand das Force Concept Inventory angepasst und ausprobiert, mit dem man sonst prüft, ob Student*innen das Newtonsche Konzept der "Kraft" verstanden (!) haben. Das Force Concept Inventory ist nicht so leicht zugänglich und sollte deshalb nicht in den Trainingsdaten gewesen sein. GPT-4 schneidet dabei sehr gut ab (besser als das 96ste Perzentil der lokalen Student*innen) und hat seit GPT-3.5 (39stes Perzentil) zweimal so viel dazugelernt, wie ein guter Physik-Kurs im Mittel bringen würde. Wenn man es seine Antworten neu generieren lässt oder die Aufgaben anders formuliert, bleibt GPT-4 seinen Aussagen "almost completely" treu.

Und zum Schluss noch etwas ganz anderes Übermenschliches: Wenn man die KI darauf trainiert, Dialoge zu führen, die Menschen gefallen, könnte sie zum Schluss "more human than human" sein. Der Begriff "Psychopathie" fällt in der Arbeit allerdings nicht.

[Nachtrag: Performance of ChatGPT, GPT-4, and Google Bard on a Neurosurgery Oral Boards Preparation Question Bank. Klar, was eindeutig gewinnt, obwohl Bard den Web-Anfrage-Joker ausspielen darf. Die Fragen waren geheim, also nicht vorher trainierbar.]

Kommentar vom 2023-04-18, 07:14

Das mit den Tests ist ja interessant, aber die eigentliche Kennzahlen kommen doch eher vom Direktmarketing: Wieviel mal mehr Antworten erreicht der Chatbot im Vergleich zu diesem dem Ölprinzen aus Nigeria, der meine IBAN braucht, um seine Millionen außer Landes zu bringen? Wie viele bestellen die Tinktur mit der geheime Formel zum Fettverbrennen, wenn die KI die richtig erklärt?
Gruss (dg)

Kommentar vom 2023-04-19, 21:48

PS: Immerhin kann man die Aufgaben downloaden, das wäre mal ein Teilziel fürs NRW-Abi. :-)
Gruss (dg)

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.