Jörn Loviscach: Luft ablassen fürs Sprachmodell

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Luft ablassen fürs Sprachmodell

2024-04-05 12:18

inflatable books; inflatable library; air pump --c 20 --ar 4:3

Menschengeschriebene Texte enthalten massive Redundanzen, was man zum Beispiel merkt, wenn man ein Dokument zippt. Das geht besonders gut mit Akkreditierungsanträgen. Aber ich schweife ab; zurück zum Thema: Eigentlich müsste man die Redundanzen verringern können, um Sprachmodelle effizienter zu machen.

Schon bisher ist das der Fall, daher die Tokens statt der Bytes. Aber geht da noch mehr? Laut Training LLMs over Neurally Compressed Text auf Anhieb nicht so wirklich viel. Mit GZip schon mal gar nicht, weil das den natürlichen Satzbau ignoriert. Und auch das im Preprint entwickelte neurale Verfahren (ein paar Bytes vorhersagen, die Wahrscheinlichkeiten in einen arithmetischen Coder füttern, aber nur bis 16 Bits voll sind) ist nicht sooo hilfreich.

Aber was für Möglichkeiten! Die KI könnte eine kompaktifizierte Kunst-Sprache entwickeln. Oder wir gucken nach menschlichen Sprachen mit ähnlichen Eigenschaften. Mein heißer Tipp wäre klassisches Chinesisch, denn Bambusstäbe waren unbequem und schwer, was einen gewissen evolutionären Druck ausgeübt hat.

Im Ernst kann ich mir vorstellen, dass ein direktes Erzeugen von jpg-, mp3-, mp4-Dateien nicht völlig absurd wäre, weil deren Datenreduktion (was zugegebenermaßen etwas anders ist als Datenkompression) und deren Granularität (Bildblöcke usw.) der menschlichen Wahrnehmung nachgebildet sind. Die eine Art der aktuell üblichen Audiosynthese mit einem Spektrogramm als vorletztem Schritt ist ja schon dicht dran.

Kommentar vom 2024-04-05, 13:56

"KI könnte eine kompaktifizierte Kunst-Sprache entwickeln"
Dann auf: https://twitter.com/matthen2/status/1775531115874246837

Informations-Bandbreite sortiert:
Worte (geschrieben)
Sprache (gesprochen)
Bild
Video
Video + Audio
Gefühl?

Unsere komplexe Welt auf Text runterzubrechen ist deshalb etwas komisch. Reichen der Text-AI "20" Stunden Text-Fahrtraining, um besser als ein Mensch zu fahren? Und sollten wir uns auf die Wort-Intelligenz verlassen? Man kann Text ja auch ins Bild stecken. Bedeutet das dann, der heilige Gral zur AGI liegt in der Auflösung?

Klar etwas vom Thema, nur der Kern dreht sich doch darum wie wir Informationen besser austauschen sollten, oder?

LLM's agieren sehr normal. ChatGPT bläst Text auf, vielleicht stecken in Worten auch viele soziale Konstrukte, und dessen Auslassen wie "ja ja", würde zu Nebenwirkungen führen? Würden Sie Text von mir als C#-Code in einer Mail an Sie entsprechend beantworten wollen?

Da war mal was mit k-NN + GZip 2023?

Kommentar vom 2024-04-05, 14:18

Korrekt?:
"Hier steht lesbarer Text, obwohl die Buchstaben innerhalb des Textes vertauscht sind, lassen sich alle Wörter lesen. Dies funktioniert, solange der erste und der letzte Buchstabe eines Wortes mit mehr als vier Buchstaben gleich bleiben."

Auch korrekt?:
"Heir shett lareesbr Txet, obhwol die Buabchsten inhalnerb des Teexts vechrtaust snid, lessan scih alle Wrteör lseen. Deis funintiokert, sngolae der etrse und der ltzete Buabchste eeins Wteors mit mher als veir Butaben gleicchsh bbelein."

Eins noch (wenn ChatGPT vertauscht, selbst das klappt in meiner Wahrnehmung irgendwie zu verstehen):
"Hire setht ein txet, und oblohw die inerenn buhcbaste veratshcu sndi, lsaesn scih alel worte tzorudsem lesen wnnne der erste und lzette bchubsate gcielh blebnie."

Kommentar vom 2024-04-05, 20:30

@Kommentator*in von 13:56: Wie schreibt man einen Brief in C# ernsthaft, ohne lustige Phantasiefunktionen? Programmiersprachen können nicht, was natürliche Sprache kann. – Mit k-NN und GZip ist wohl dies gemeint, aber das war nur simple Klassifikation. J. L.

Kommentar vom 2024-04-05, 20:35

@Kommentator*in von 14:18: Genau das droht mit Kompression Schiffbruch zu erleiden, wenn der Kompressor nicht ganz viel Background einbringen kann und zum Beispiel "letzte" und "ltzete" sehr ähnlich codiert. Schon jetzt scheitert daran ja das Buchstabierenlassen durch LLMs, denn die Maschine weiß gar nix von Buchstaben, sondern nur von Tokens, es sei denn, sie ist ausdrücklich zum Buchstabieren antrainiert worden. J. L.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.