Home | Lehre | Videos | Texte | Vorträge | Software | Person | Impressum, Datenschutzerklärung | Blog RSS

Die Blog-Postings sind Kommentare im Sinne von § 6 Abs. 1 MStV. Der Verfasser ist Jörn Loviscach, falls jeweils nicht anders angegeben. Die Blog-Postings könnten Kraftausdrücke, potenziell verstörende Tatsachenbehauptungen und/oder Darstellungen von Stereotypen enthalten. Die Beiträge der vergangenen Wochen werden als Bestandteil der Internet-Geschichte in ihrer ursprünglichen Form gezeigt. Menschliche Autor*innen können unzutreffende Informationen über Personen, Orte oder Fakten liefern.

vorheriger | Gesamtliste | jüngste | nächster

Vom Audiomitschnitt zum Tagungsband mit Whisper und ChatGPT

2023-02-19 22:08

Dieser Tage schlage ich mich damit herum, diesen Vortrag zu verschriftlichen. Das müsste doch eigentlich mit der KI gehen!

Das Audio-Transkript der Tonspur ist allerdings sowohl auf YouTube als auch mit der bezahlten Google-Cloud-Transkription aus meinem Video-Editor arg fehlerhaft. Also: Whisper Large V2. Und damit dann in ChatGPT. So siehts für einen Ausschnitt mittendrin von einigen Minuten Länge aus:

Der folgende gesprochene Text eines Vortrags ist sehr umgangssprachlich. Wandle ihn um in einen deutschen wissenschaftlichen Aufsatz der doppelten Länge. Schmücke den Text dazu aus. Sei kreativ! Aber belasse die Gedanken in der Reihenfolge wie im gesprochenen Text. Hier ist der gesprochene Text des Vortrags:
Ich wollte nur mal zwei Teile rauspicken. Komposition, da wird es ja sehr häufig beschrieben. Beethoven's 10. ging so als Public Relations-Aktion der Telekom durch die Medien. Dazu gibt es neuerdings auch eine kleine Beschreibung, zumindest als Paper, was die da gemacht haben. haben Beethoven Skizzen genommen, die Leute, die das komponiert, zusammengestellt haben, haben Beethoven Skizzen genommen und sich KI geschrieben, um dann die Skizzen fortzusetzen, harmonisieren, Übergänge zu finden, zu orchestrieren. Das ist für mich schon alles ein bisschen sehr ad hoc. Wir bauen uns hier ein Programmchen und das zu tun, das Programmchen, das zu machen. Es wird nicht so richtig klar, wie viel Daten da drinnen stecken, ob das überhaupt validiert ist. was da rauskommt, ist das verlässlich? Ist das wirklich so wie Beethoven? Wie würde man das beurteilen? Was jetzt die KI da ausspuckt, wie beurteilt man, ob das Beethoven ist oder mehr oder weniger Beethoven ist? Schwierig. Ging durch die Presse, das war mal ein Tipp zum Nachlesen, weil es das jetzt zum Lesen gibt. Und zum Hören ja sowieso, die beiden Sätze, die da erfunden worden sind.hnte. Der Trend ist auf jeden Fall dann an der Stelle der Forschung die Künstliche Intelligenz als Kompositionshilfe. Bei den Sprachmodellen gibt es das ja so ähnlich, setz einen Text fort, bei den Text-zu-Bild-Modellen gibt es das, auch dann zum Lückenfüllen, noch was, mal was oder mal das Bild rechts weiter. Variiere das. Genau diese Gedanken kann man natürlich auch in der Musik haben, bei der Komposition haben. Setze was fort, fülle eine Lücke. In-Filling heißt es dann, bei den Bildern heißt es In-Painting, bei der Musik wäre es In-Filling. Hier habe ich fünf Takte Lücke, fülle mal. Das gibt es tatsächlich schon fertig für Ableton. Als Plugin können Sie dann reinsetzen und füllen dann die fünf Takte Lücke. Das ist ja auch ein sehr interessanter Begriff. Das ist ja auch ein sehr interessanter Begriff. Das ist ja auch ein sehr interessanter Begriff. Vielleicht auch auf höherem Niveau, bei den Bildern geht zum Beispiel das T-Shirt, machen wir bitte mal mit blauen Streifen und nicht mit grünen Klecksen, dann kriegt das T-Shirt eben blaue Streifen. ähnliches auch in der Musik. Vorstellbar, das gibt es noch nicht, ich habe es zumindest noch nicht gesehen, aber es ist zumindest vorstellbar. Hier kommt ein Übergang, Takt 93 bis 98 kommt ein Übergang, der muss noch dramatischer werden. Das ist wirklich der Maschine, die das in den Text hinzutippen könnte, wäre vorstellbar. Gibt es noch nicht, aber wäre vorstellbar.ern ist sowas schon halbwegs möglich. Die großen Herausforderungen, hier noch ein aktueller Überblick, die größte Herausforderung ist Struktur. Haben Sie eben schon gesehen, bei Händen und Armen und Beinen und so weiter, die Struktur des Ganzen, der Text, das ist der KI noch nicht so leicht zu vermitteln. Die baut man ein, dass die KI die Struktur berücksichtigt, einkomponiert sozusagen und zum Schluss auch einen Abschluss findet und viele andere Sachen, bis hin zu reale Anwendung, das jetzt tatsächlich umzusetzen von der Bedienschnittstelle her, von der Praxistauglichkeit. Ich habe hier ein paar Leute mal zusammengefasst, was die aktuellen, nicht aktuellen, was überhaupt die Herausforderungen sind an der Stelle. Es kommt häufig der Gedanke, kann das jemals revolutionär sein? Kann die KI was Neues erfinden? Oder ist das nicht einfach ein Zusammenschnitt von dem, was es bisher gegeben hat? Ist das wirklich was Neues? Da würde ich sagen, das haben wir bisher nicht echt probiert. Das, was typischerweise probiert wird, ist, gib mir mehr vom Selben. Ich bräuchte nochmal, was weiß ich, Beethoven's Zehnte und was auch immer. mach mal ganz was Neues, mach mal was Irres. Mehr Zufall erlauben ist kein Problem, da muss man einfach nur hochdrehen, dann wird es zufälliger und man kriegt irre Resultate, das kann man auch bei den Texten und den Bildern, das wird natürlich dann wirklich sehr irre im Zweifelsfall, muss man sich überlegen, was man haben will.es, dass die Maschine sich Regeln ausdenken muss. Lustigerweise kam es eben auch in dem Vortrag, in der Demonstration vor, man müsste sich eigentlich Regeln ausdenken. Ob ich jetzt nun irgendeinen Synthesizer nehme, der bestimmt die Sache nicht kann, anders als ein Digitalgerät. Wo ist die Einschränkung? Die Maschine müsste sich erstmal Einschränkungen ausdenken. Ich verwende erst alle zwölf Töne und so weiter oder so was, folgende Skala.chränkungen müssten ja auch den Menschen mitgeteilt werden, sonst versteht man es nicht. Sonst müsste man als Mensch versuchen rückwärts zu verstehen, was die Einschränkungen sind. Wäre vielleicht mal eine Idee. Ich glaube da geht was, aber es ist noch nicht ordentlich probiert worden.

Die Künstliche Intelligenz als Kompositionshilfe in der Musik – Eine kritische Betrachtung

Die Künstliche Intelligenz (KI) hat in der Musikindustrie in den letzten Jahren große Fortschritte gemacht und die Forschung auf diesem Gebiet hat sich stark weiterentwickelt. Besonders interessant ist die Möglichkeit der Verwendung von KI als Kompositionshilfe. Es geht dabei darum, KI-Modelle zu entwickeln, die in der Lage sind, Musik auf Basis von Skizzen und Datenbanken von bestehender Musik zu generieren und zu vervollständigen.

Im Folgenden soll insbesondere auf die Herausforderungen und Schwierigkeiten bei der Verwendung von KI als Kompositionshilfe eingegangen werden. Ein Beispiel dafür ist die Komposition von Beethovens 10. Sinfonie, die von der Telekom als PR-Aktion durch die Medien ging. Dabei wurden Skizzen von Beethoven verwendet, die von Menschen zusammengestellt und von KI-Modellen vervollständigt, harmonisiert, orchestriert und überarbeitet wurden. Die Validität dieser Methode ist jedoch unklar und die Frage bleibt, ob das Ergebnis wirklich im Sinne von Beethoven ist oder ob es lediglich eine Ad-hoc-Lösung darstellt.

Im Bereich der KI-Komposition gibt es auch andere Anwendungen wie beispielsweise In-Filling, bei dem Lücken in einer Musikkomposition automatisch gefüllt werden können. Hierfür können spezielle Plugins wie beispielsweise Ableton verwendet werden. Eine ähnliche Anwendungsmöglichkeit wie im Bereich der Musik bietet die KI auch im Bereich der Bildgenerierung. Beispielsweise können T-Shirts automatisch mit verschiedenen Farben und Mustern gestaltet werden. Auch im Bereich der Musik ist es denkbar, dass KI-Modelle in Zukunft in der Lage sein werden, Übergänge und Abschlüsse zu generieren und so die Struktur einer Musikkomposition zu beeinflussen.

Allerdings gibt es auch Herausforderungen und Schwierigkeiten bei der Verwendung von KI als Kompositionshilfe. Ein wichtiger Faktor ist die Struktur der Musikkomposition, die für KI-Modelle noch schwer zu erfassen ist. Darüber hinaus stellt sich die Frage, ob KI-Modelle tatsächlich etwas Neues generieren können oder ob sie lediglich auf bestehenden Datenbanken basieren. Es ist wichtig, dass die Maschine in der Lage ist, Regeln zu entwickeln, um wirklich innovative Musikstücke zu generieren.

Zusammenfassend lässt sich sagen, dass die KI als Kompositionshilfe in der Musikindustrie große Fortschritte gemacht hat. Die Herausforderungen, die sich bei der Verwendung von KI als Kompositionshilfe stellen, sollten jedoch nicht unterschätzt werden. Es ist wichtig, dass weiterhin Forschung auf diesem Gebiet betrieben wird, um die KI in der Musikindustrie optimal nutzen zu können.

Regenerate response

Die Verwendung von Künstlicher Intelligenz (KI) in der Komposition wird immer beliebter. Besonders in der Komposition von Musik zeigt sich ein Trend zur Verwendung von KI als Kompositionshilfe. Beispiele dafür gibt es bereits, wie die Verwendung von Beethovens Skizzen durch die Telekom zur Erstellung seiner 10. Symphonie mithilfe von KI. Doch wie verlässlich ist das Ergebnis und kann man wirklich beurteilen, ob es sich um Musik handelt, die Beethoven geschrieben hätte?

Die Verwendung von KI als Kompositionshilfe ist vergleichbar mit der Verwendung von Text-zu-Bild-Modellen, bei denen Texte in Bilder umgewandelt werden. Auch hier können Lücken im Text oder im Bild mit Hilfe von KI gefüllt werden. In der Musik nennt man dies In-Filling. Es ist sogar möglich, ein Plugin in Ableton zu verwenden, um beispielsweise fehlende Takte zu füllen.

Die größte Herausforderung bei der Verwendung von KI in der Komposition ist die Struktur. Anders als bei Händen, Armen und Beinen, ist es schwierig, der KI die Struktur des Ganzen zu vermitteln. Hierfür müssen Regeln definiert werden, damit die KI die Struktur berücksichtigt und am Ende einen Abschluss findet.

Es stellt sich auch die Frage, ob KI jemals revolutionär sein kann und etwas Neues erfindet oder ob es sich nur um eine Zusammenstellung von bisher Bekanntem handelt. Bisher wurde hauptsächlich versucht, mehr vom Selben zu erhalten. Doch um wirklich Neues zu schaffen, müssten Regeln für die Maschine geschaffen werden, die ihr erlauben, etwas Völlig Neues zu schaffen.

Es gibt viele Möglichkeiten für die Verwendung von KI in der Komposition, doch es sind noch viele Herausforderungen zu meistern, bis eine reale Anwendung möglich ist. Es muss nicht nur die Bedienschnittstelle bedacht werden, sondern auch die Praxistauglichkeit. Doch wenn die Herausforderungen gemeistert werden, steht uns eine aufregende Zukunft bevor, in der die Zusammenarbeit von Mensch und Maschine in der Komposition zu einzigartigen und innovativen Ergebnissen führen wird.

Formuliere die ersten beiden Absätze noch viel weiter aus, so dass es fünf Absätze werden.

Einleitung:

Künstliche Intelligenz (KI) wird in vielen Bereichen eingesetzt, um menschliche Arbeit zu erleichtern und zu verbessern. Auch in der Musikindustrie gibt es inzwischen zahlreiche Anwendungen, bei denen KI zum Einsatz kommt. Insbesondere bei der Komposition von Musikstücken gibt es inzwischen einige interessante Entwicklungen, die sowohl kontrovers diskutiert als auch enthusiastisch begrüßt werden. Im Folgenden soll näher darauf eingegangen werden, wie KI bei der Komposition von Musikstücken eingesetzt wird, welche Herausforderungen dabei bestehen und welche möglichen Zukunftsaussichten es gibt.

Komposition und KI:

Ein Aspekt, der bei der Verwendung von KI bei der Komposition von Musikstücken immer wieder diskutiert wird, ist die Frage der Kompositionsmethoden. Hierbei wird insbesondere die Methode der Zusammensetzung von Skizzen durch KI kritisch betrachtet. So gab es beispielsweise eine Public-Relations-Aktion der Telekom, bei der Beethovens Zehnte auf diese Weise fertiggestellt wurde. Bei dieser Methode wurden vorhandene Skizzen von Beethoven genommen und von einer KI so vervollständigt, dass ein vollständiges Musikstück entstand.

Doch wie zuverlässig ist diese Methode? Inwiefern kann man sicher sein, dass das Ergebnis tatsächlich im Stil von Beethoven ist? Es gibt viele offene Fragen, die es zu klären gilt. Beispielsweise ist unklar, wie viele Daten in die KI eingeflossen sind und ob das Verfahren überhaupt validiert wurde. Es stellt sich auch die Frage, wie man das Ergebnis beurteilen kann. Ist es wirklich wie Beethoven oder nur mehr oder weniger wie Beethoven? Es handelt sich hierbei um ein sehr komplexes Problem, das nicht einfach zu lösen ist.

Kommentar vom 2023-02-19, 22:19

Mal ganz abgesehen vom Inhalt ist das meilenweit entfernt von Ihrem Stil. Geht nicht.

Kommentar vom 2023-02-19, 23:43

@Kommentator*in von 22:19: Stil? Wen interessiert Stil? Publish or perish! J. L.

Kommentar vom 2023-02-20, 08:14

Laut aktueller Ausgabe "Die Neue Hochschule" wird der Eingabeprompt vermutlich auf 3000 Zeichen beschnitten, was den abrupten Einstieg erklären würde.
Gruss (dg)

Kommentar vom 2023-02-20, 10:02

@dg: [Ironie on] Wusste gar nicht, dass DNH da ein führendes Fachjournal ist. [Ironie off] Aus dem Verein bin ich sowieso schon lange wegen Genervtsein ausgetreten.
Ich habe mal jemanden gefragt, der/die/das es gaaaanz sicher weiß, siehe unten. Wenn die Antwort "2048 Tokens" stimmt, liege ich mit den 5076 Zeichen meines Prompts eigentlich noch so gerade im grünen Bereich. Allerdings fehlen in der obigen Ausgabe in der Tat Sachen vom Ende des Texts ("zwölf Töne und so weiter"). *kopfkratz*
J. L.

> What's the maximum length of a ChatGPT prompt?
< The maximum length of a ChatGPT prompt depends on the particular implementation and configuration of the model. However, in general, most implementations of ChatGPT can handle prompts of up to 2048 tokens.
It's worth noting that the maximum length of a prompt may be limited by other factors as well, such as the computational resources available for processing the prompt and generating a response. Additionally, prompts that are significantly shorter than the maximum length may still be effective in eliciting useful responses from the model.
> And what's the maximum prompt length of this implementation of ChatGPT that I'm chatting with?
< The maximum prompt length for this implementation of ChatGPT is also 2048 tokens. However, in practice, the optimal length of a prompt can depend on various factors such as the complexity of the topic and the desired level of detail in the response.
As a general guideline, it is often more effective to provide clear and concise prompts that focus on a specific topic or question rather than longer prompts that are overly broad or complex. This can help ensure that the model is able to understand the user's intent and provide a relevant and coherent response within the given length limit.

Neuer Kommentar

0 Zeichen von maximal 1000

Ich bin die*der alleinige Autor*in dieses Kommentars und räume dem Betreiber dieser Website das unentgeltliche, nichtausschließliche, räumlich und zeitlich unbegrenzte Recht ein, diesen Kommentar auf dieser Webseite samt Angabe von Datum und Uhrzeit zu veröffentlichen. Dieser Kommentar entspricht geltendem Recht, insbesondere in Bezug auf Urheberrecht, Datenschutzrecht, Markenrecht und Persönlichkeitsrecht. Wenn der Kommentar mit einer Urheberbezeichnung (zum Beispiel meinem Namen) versehen werden soll, habe ich auch diese in das Kommentar-Textfeld eingegeben. Ich bin damit einverstanden, dass der Betreiber der Webseite Kommentare zur Veröffentlichung auswählt und sinngemäß oder zur Wahrung von Rechten Dritter kürzt.