Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Google schließt zu OpenAI und Anthropic auf

2024-04-13 21:45

Jüngst gab es ja Updates von GPT-4 und Gemini. Also mal wieder meine Klausuren rausgeholt und getestet. Spoiler: Google ist jetzt wirklich im Rennen. (Zu meinen bisherigen Ergebnissen siehe 1, 2.)

gpt-4-turbo-2024-04-09 (im Folgenden GPT genannt) besteht meine Mathematik 2 nun mit der Note 2,0 (Vornote 3,0). gemini-1.5-pro-preview-0409 (im Folgenden Gemini genannt) erreicht sogar die Note 1,7, wo die bisherige Version die Klausur noch knapp nicht bestanden hatte. Claude 3 Opus (siehe meine alten Tests) liegt damit nur noch auf Platz drei.

In der Wind- und Wasserkraft erreicht GPT die Note 2,3; vorher lag ChatGPT 4 bei 3,0. Gemini schafft die Note 2,0 (vorher 3,0). Damit ziehen beide mit Claude 3 Opus gleich.

Die stückweise lineare Funktion vom JPEG-Bild des Aufgabenzettels abzulesen, schafft Gemini nun als erstes Modell schon fast richtig (hier rot die Funktionskurve der Formel eingezeichnet, die es abzulesen glaubt). Beim Interpretieren meiner bekannten Schaltungsskizze mit zwei Operationsverstärken liefert aber auch das neue Gemini immer noch halb Richtiges, halb Unsinn.

Natürlich müsste man diese Tests (und vor allem die Bewertungen der Ergebnisse!) x-fach mit y verschiedenen Prompts ausführen, um die Streuungsbreite des jeweiligen LLM einschätzen zu können.

Nebenbei noch ein Hinweis auf dieses erhellende Interview mit dem Anthropic-Chef, unter anderem über Entwicklungstempo und Risiken.

Kommentar vom 2024-04-20, 16:01

Danke für die Mühe! Würden Sie vielleicht auch die Gauth-App mit aufnehmen? In der technischen Mechanik macht sie ganz gute Vorschläge und strauchelt erst, wenn Dinge wie der Drallsatz notwendig werden. Und vielleicht könnte man auch eine Schätzung hinzufügen lassen, wie sicher denn die Antworten korrekt sind? Die eigene Unsicherheit zugeben zu können, ist ja auch was.
Mit freundlichen Grüßen (dg)

Kommentar vom 2024-04-20, 20:21

@dg: Hmm, das wäre mir vom Rest zu verschiedenartig. J. L.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.