Jörn Loviscach: Fragen konstruieren für die KI

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Fragen konstruieren für die KI

2024-03-11 12:26

diverse male female construction workers working on a building-sized question mark --c 10 --ar 2:3 --v 6.0

Die Sprachmodelle können Multiple-Choice-Fragen (die bei uns wegen Missverstehens des Worts "multiple" gerne Single-Choice-Fragen heißen) überzufällig richtig beantworten, wenn man ihnen nur die Antwortmöglichkeiten gibt, aber nicht die Frage. Besser noch: Sie können auch auf die Frage zurückschließen. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?.

Hier habe ich es mal selbst mit ChatGPT 4 ausprobiert und bin ganz fasziniert. Außer von der automatischen Überschrift.

Dieses Beispiel bringt mich darauf, dass ich in meinem früheren Vortrag zu Multiple Choice & Co. noch einen Aspekt vergessen habe: nämlich den, dass bei gegebenen Antwortmöglichkeiten verschiedene Fragen oft die gleiche korrekte Antwort haben. Die richtigen Antworten fallen also nicht nur durch Länge oder Grammatik auf. Wäre spannend, diesen Effekt mal bei PISA und bei IQ-Tests zu prüfen.

Das besagte Paper spekuliert allerdings in die Richtung, dass die Sprachmodelle erst die Frage erschließen und dann die Antwort.

Noch eine technische Anmerkung zum Paper, falls sich jemand wundert: Es wird nicht mit der Quote 1/4 verglichen, die man durch gleichverteiltes Raten erzielt, sondern mit der (etwas höheren) "majority class baseline", also, wie oft die häufigste Antwortnummer vorkommt.

Und hier noch ein Experiment mit (anfangs) gar nicht vorhandenen Fragen. Wenn ich von kleineren Aussetzern absehen, bin ich platt.

Eine verwandte Arbeit: Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap baut den bisherigen Mathe-Test MATH von festen Zahlen auf Zufallszahlen um. So sehen die Modelle keine im Prinzip neuen Aufgaben, müssen aber mehr verstanden (oder "verstanden", wie manche Leute schreiben würden) haben. In der Tat klappen die Aufgaben mit Zufallszahlen deutlich schlechter als die Originalaufgaben. Das nährt den Verdacht, dass die Modelle die Originalaufgaben bereits beim Lernen gesehen haben.

Kommentar vom 2024-03-11, 13:16

Das wird doch auch von Menschen manchmal so durchgeführt: Frage nicht verstanden, aber die offensichtlich unsinnigen Antworten herausfiltern und dann bei dem Rest einfach würfeln.
Das ist schon mal besser als direkt würfeln.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.