Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Crawlen und Minen verboten

2024-07-30 12:58

Gefühlt das halbe MIT Media Lab hat mal nachgeguckt, wie viele Websites das Datensammeln für KI verbieten: Die Nutzungsbedingungen der Websites mit fast der Hälfte der Tokens aus der üblichen Textdatensammlung C4 hätten inzwischen irgendeine Art von Einschränkung (S. 11). Der Bericht verwendet eine ganze Seite darauf, die Vielfalt an Einschränkungen zu beschreiben (S. 34f). Nebenbei gelernt: Nutzungsbedingungen auszuwerten ist ein toller Job für Sprachmodelle. Ist der Begriff maschinenlesbar überhaupt noch eine Einschränkung?

Noch leichter sind (Wayback Machine sei Dank!) die Änderungen der robots.txt nachzuverfolgen (Zeitverläufe auf S. 5). OpenAI wird dort für viel mehr Tokens der Zutritt verboten als Anthropic, wobei verboten bei der robots.txt ja ein zu harter Begriff ist. Irre: Eine nennenswerte Zahl an Websites soll in robots.txt eine falsche Bezeichnung statt ClaudeBot verwenden.

Thema verfehlt, aber trotzdem ein lustiger Fund am Rande: Die Trainingsdaten passen thematisch nicht gut zur realen Anwendung von ChatGPT (S. 10).

Aber zurück zum Thema. Ein paar Ergänzungen von mir:

Den Common Crawl Index Server hätte ich Have I Been Crwled genannt.

Ob aus dem TDM Reservation Protocol noch was wird?

In der Begründung der Änderung des Urheber*innenrechtsgesetzes vor mehr als drei Jahren und damit vor ChatGPT stehen spannende Sachen drin (S. 89): Die Beweislast für das Fehlen eines Nutzungsvorbehalts trägt der Nutzer. Ein Nutzungsvorbehalt nach § 44b Absatz 3 UrhG-E für eine Webseite darf nicht dazu führen, dass diese im Rahmen anderer Nutzungen ohne sachliche Rechtfertigung ungleich behandelt wird, beispielsweise bei der Anzeige als Suchmaschinentreffer.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.