Home
| Lehre
| Videos
| Texte
| Vorträge
| Software
| Person
| Impressum, Datenschutzerklärung
|
Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.
vorheriger | Gesamtliste | jüngste | nächster
2024-12-21 20:39
Den absurd schweren FrontierMath-Benchmark, bei dem die KI in Form von o3 nun erstmals Chancen haben soll, hatte ich vor ein paar Wochen in einem Vortrag als ich hab keinen Schimmer, wie ichs lösen soll
erwähnt. So schnell kanns gehen. [Uh-oh, Nachtrag: AI benchmarking organization criticized for waiting to disclose funding from OpenAI] Und bei dem ARC-AGI-Benchmark, den o3 als erstes Modell brauchbar bewältigen können soll, schwitze ich als Mensch jeweils mehrere Minuten an den echten Aufgaben jenseits der einfachen Beispiele auf der Startseite. Lässt man o3 für ein paar Tausend US-Dollar pro Anfrage nachdenken, soll es Menschen in diesem Benchmark überrunden.
Auch wenn – was wir hoffen wollen – diese Benchmarks noch nicht die Trainingsdaten verschmutzt haben, ist doch ihre Machart bekannt, vor allem die sehr charakteristische Art, wie die Aufgaben des ARC-AGI konstruiert sind. Rein theoretisch könnte es sein, dass die KI hier auf eine Inselbegabung trainiert worden ist. [Nachtrag 1: OpenAI shared they trained the o3 we tested on 75% of the Public Training set.
(Quelle) Also nicht Zero-Shot.] [Nachtrag 2: Jemand hat die Fehler von o3 bei diesem Benchmark als Bildchen dargestellt.] [Nachtrag 3: Es scheint einfach die Eingabe zu groß zu werden. Idee meinerseits: Vielleicht müsste man erst eine intelligente Herunterskalierung der Bilder trainieren?]
Wie dem auch sei: Jüngst hatte ich eine Beispielaufgabe aus einem Mathe-Schulbuch, bei der o1 (und alle anderen bekannten Modelle) Probleme hatten, die Kästchen in einer bunten Visualisierung einer Multiplikation von Brüchen zu zählen. Das sollte o3 dann also können. Für einige Tausend US-Dollar pro Aufgabe, aber das sollte noch werden.
Programmieren als Job für weniger als geniale Programmierer*innen ist auf jeden Fall massiv gefährdet; bald sind sie die Laternenanzünder*innen der Postmoderne. Asking for a friend: Wie kann man von Mathe-und-Informatik-Prof auf Anlagenmechaniker*in für Sanitär-, Heizungs- und Klimatechnik umschulen? Bekommt man da Kompetenzen angerechnet?
Nebenbei: Der logisch nächste Name o2
mit einer 2
war wohl markenrechtlich nicht so prickelnd. Also dann aggressives Ozon statt des lebensspendenden molekularen Sauerstoffs!
Und noch was nebenbei: Bei aller Intelligenz kann die Text-to-Speech-API von OpenAI immer noch nicht 他每天学习汉语 sagen, sondern produziert dabei ständig neuen absurden Murks (1, 2, 3). Für Sätze, mit denen diese Spracherzeugung dagegen mal funktioniert, ist ihr Ergebnis superflüssig, wenn auch mit US/südchinesischem Zungenschlag. [Nachtrag 1: Für das Modell gpt-4o-audio-preview statt tts-1-hd kann man einen Prompt geben und dann klappt es.] [Nachtrag 2: Na ja, oft.]
Kommentar vom 2024-12-22, 01:47
Es geht nicht nur vorwärts. GPT-4o hat das Rechnen verlernt. Ich hatte es in letzter Zeit mehrfach, dass es falsch rechnete. Spannend auch, wenn man z.B. eine Tabelle erstellen lässt und dabei sind 3 Spalten richtig und bei der 4. steht Unsinn drin. Falsch gerechnet, obwohl die Formeln in jeder Spalte dieselben sein sollten.
Zur Umschulung: Das hilft ja nur, wenn die Robotik nicht nachzieht. Langfristig helfen nur Jobs, bei denen man keine Maschinen haben will. Das könnte z.B. Kinderbetreuung sein, wenn man dabei Fernseher/Smartphone nicht als Betreuung gelten lässt. Aber vielleicht haben die Eltern dann ja keine Jobs mehr und können das selber machen.
M.K.
Kommentar vom 2025-01-18, 19:19
"There are three tiers of difficulty within FrontierMath: 25% T1 = IMO/undergrad style problems, 50% T2 = grad/qualifying exam style problems, 25% T3 = early researcher problems. [Terence] Tao's comments were based on a sample of T3 problems. He could almost certainly do all the T1 problems and a good number of the T2 problems."
Quelle: https://www.reddit.com/r/OpenAI/comments/1hiq4yv/comment/m30tfsl/
Ich weiß nicht, ob bisher irgendwo veröffentlicht wurde, auf welchem Niveau die von o3 beantworteten Fragen waren. Für die Werbung macht es sich aber (sowohl für OpenAI als auch für EpochAI) gut, wenn man nur die schweren Aufgaben zusammen mit den Zitaten von Tao und Gowers zeigt.
Kommentar vom 2025-01-18, 20:49
@Kommentator*in von 19:19: Falls das stimmen sollte, bin ich ja froh, die kolportierten Ergebnisse (anders als manche Qualitätsjournalist*innen) korrekt distanzierend mit haben soll
statt hat
wiedergegeben zu haben. Aber! Im Paper zu FrontierMath lese ich nix von drei Tiers. Es ist von fünf Schwierigkeitsklassen die Rede. J. L.
Kommentar vom 2025-01-18, 22:02
Ich habe den Artikel eben noch einmal überflogen und finde da nichts von fünf Schwierigkeitsklassen. Meinen Sie das "level of mathematical background required" in Abschnitt 2.5? Da geht es doch wohl eher um eine von mehreren Einschätzungen ("along three key dimensions") der Autoren der Aufgaben. Wenn das Reddit-Zitat jedenfalls wirklich von Elliot Glazer ist (der dort auch von "our poor communication" spricht), dann sollte er es ja eigentlich wissen.
Kommentar vom 2025-01-18, 22:12
@Kommentator*in von 22:02: Im Appendix A gibts je ein Beispielproblem aus jedem der fünf Schwierigkeitsquantile. Vielleicht ist irgendwo auf einem langen Wege die Fünfer-Unterteilung zu einer Dreier-Unterteilung geworden und niemand hats verraten. Das wäre indeed utterly poor communication. J. L.
Neuer Kommentar
0 Zeichen von maximal 1000
Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.