Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Wie die Konzepte in der KI wohnen

2024-05-29 23:13

Aktivierungswerte des Sprachmodells Claude 3 Sonnet (und wohl nicht nur von dem) lassen sich automatisch in Millionen von Grundmustern zerlegen, die möglichst wenig gleichzeitig ansprechen. Viele der Grundmuster kann man (händisch, so scheint es laut dem Abschnitt Searching for Specific Features) als für Menschen verständliche Konzepte deuten: Golden-Gate-Brücke, Touristenattraktionen, Addition usw., schreibt ein Team von Anthropic.

Durch Abfälschen der Aktivierungswerte hin zum jeweils gewünschten Konzept lassen sich Gedanken in das LLM injizieren und auch Fehler provozieren (Inception, anybody?). Die Autor*innen haben im Hinterkopf, als böse gelesene Konzepte auf diese Art in den Gedanken des Modells zu finden bzw. wegzulobotomieren.

In related news, haben andere Leute gefunden, dass viele Open-Source-LLMs die Monate und die Wochentage im (hochdimensionalen) Raum der Aktivierungswerte gleichmäßig um Kreise herum legen. Ob das auch mit Uhrzeiten, Jahreszeiten und Winkelangaben klappt, erfährt man allerdings nicht.

Weil hier noch Platz ist, schnell ein Veranstaltungshinweis: Am 3. Juni bin ich an der RWTH.

Kommentar vom 2024-05-30, 07:35

Gibt der Code diese Strukturierung vor, oder ist das etwas, dass sich die KI selber erdacht hat?

LG
KI-Laie

Kommentar vom 2024-05-30, 11:15

@KI-Laie von 07:35: Die kreisförmige Anordnung? Diese Anordnung lernt die Maschine aus den Daten, ohne dass man es ausdrücklich gelehrt hätte. J. L

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.