Mastodon

renephoenix.de

Die KI und die Stimmensynchronisation

Es gibt eine Petition mit dem Titel Schützt die Kunst vor KI #DeineStimmeFürEchteStimmen .

Wir, die Unterzeichnenden dieser Petition, fordern eine umfassende und verbindliche Regulierung für den Einsatz von künstlichen Stimmen in den Bereichen Film, Fernsehen und anderen audiovisuellen Medien. Wir fordern generell, den Einsatz von KI in Kunst, Kultur und im Mediensektor transparent und fair zu regeln und alle Kunstschaffenden und Kreativen zu schützen!

Ich werde sie nicht zeichnen. Aus zwei Gründen. Zunächst die B-Note: eine Petition sollte klar erklären, was das konkrete politische Ziel ist – das ist hier leider zu unklar. Um den Konflikt zu verstehen, bin ich auf andere Seiten wie meedia angewiesen. Zum anderen sollte man auch die Ziele überdenken, ob das noch der Nerv der Zeit ist.

Denn schon der erste Satz der Begründung geht in eine Verteidigungshaltung – und drückt mehr über die Petition aus als das Ziel:

Diese Forderungen haben nichts mit Technologie- oder Fortschrittsfeindlichkeit zu tun.

Aber noch einmal zurück, worum es geht: Netflix ist ja immer mehr die Fabrik für irgendwelche Filme und Serien. Und wer Filme am laufenden Band produziert und in mehreren Ländern synchronisieren will, der braucht Synchronsprecher. Und nun zwingt Netflix einseitig bei den Synchronsprechern, dass sie ihre Werke für KI-Training freigeben müssen bzw. ohne eine entsprechende Klausel würden sie keine neuen Verträge bekommen. Und das finden einige (alle?) Synchronsprecher doof.

Nun ist es vor allem eine vertragliche Debatte. Kein Synchronsprecher muss für Netflix arbeiten, umgekehrt braucht auch Netflix nicht zwingend Synchronisation (Dann gibt es die Filme nur in Englisch). Und so verschwand wohl zeitweise auch die deutschen Synchronisationen im Angebot für bestimmte Serien. Und man kann sicherlich die Debatte führen, ob sie ihre Marktmacht hier missbrauchen.

Betrachten wir aber zunächst die rechtliche Seite. Und da gibt es den relativ neuen Paragrafen §44b UrhG, Text und Data Mining.

(1) Text und Data Mining ist die automatisierte Analyse von einzelnen oder mehreren digitalen oder digitalisierten Werken, um daraus Informationen insbesondere über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von rechtmäßig zugänglichen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erforderlich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zulässig, wenn der Rechtsinhaber sich diese nicht vorbehalten hat. Ein Nutzungsvorbehalt bei online zugänglichen Werken ist nur dann wirksam, wenn er in maschinenlesbarer Form erfolgt.

Nähere Infos zu diesem Artikel

Wenn ich die rechtliche Dimension soweit richtig wiedergebe, stellt die reine Sprachübersetzung in der Regel kein eigenes Werk dar, da diese Übersetzung eben keine schöpferische Leistung ist. Es kann aber Ausnahmen geben. Das mit KI erzeugte Werk ist dann ebenso kein Werk, da es ja der Algorithmus entwickelt hat, nicht der Mensch. Wesentlich einschlägiger ist, ob das damit erzeugte Kunstwerk in die Selbstbestimmung des Künstlers eingreift (Artikel 2 Abs. 1 Grundgesetz), (Mehr zur rechtlichen Bewertung). Wenn ich das aus meiner nüchternen Betrachtung richtig beurteile, täte ein KI-Algorithmus gut daran, wenn das Ergebnis sich nicht auf die konkrete Person rückschließen lässt.

Nun wird eben gefordert, dass der “Einsatz von KI [..] transparent und fair zu regeln” ist. Und ich frage mich, was gemeint ist. Unabhängig der Werkfrage sind Synchronsprecher sogenannte “ausübende Künstler” (nach §73 UrhG) – und die haben nach §74 UrhG “das Recht, in Bezug auf seine Darbietung als solcher anerkannt zu werden.” Sprich: die Sprecher müssen – wenn sie es denn wollen – genannt werden. Höre ich also im Film eine übersetzte Stimme – und es wird kein Synchronsprecher genannt, dann ist es wohl eine KI – oder mal ein anonymer Synchronsprecher. Vermutlich soll aber in großen Buchstaben auf dem Filmplakat stehen, dass man künstliche Stimmen hört. Es gibt nun den EU-AI-Act, nach der “künstlich erzeugte oder bearbeitete Inhalte (Audios, Bilder, Videos) [..] eindeutig als solche gekennzeichnet werden [müssen]”. Damit wird diese Forderung in die Umsetzung gehen.

Und was mich interessiert: wie werden künftig Mischformen bewertet, also wenn einerseits das Ergebnis der KI noch nachbearbeitet wird. Oder umgekehrt die KI nur das Werkzeug ist, bei der das Füttern oder die Form der Fragestellung (der Prompt) die schöpferische Leistung ist. Aber ich schweife ab. Es geht um Synchronisation.

Sie fordern weiter, dass “alle Kunstschaffenden und Kreativen zu schützen” sind. Und die Begründung führt das dann näher aus:

Obendrein führt speziell in der Kultur- und Medienlandschaft der unregulierte Einsatz künstlicher Intelligenz nicht nur zu dem oben beschriebenen Qualitätsverlust, sondern allein in Deutschland auch zu einem Wegfall hunderttausender Arbeitsplätze und kreativer Expertise. Das bedeutet einerseits fehlende Steuereinnahmen, aber andererseits auch den Zusammenbruch eines wesentlichen Wirtschaftszweigs Deutschlands.

Und hier ist dann der Widerspruch perfekt: Sie sind ja nicht technologiefeindlich, aber gehen davon aus, dass durch (unregulierte) KI erzeugte Inhalte einen Qualitätsverlust darstellen. Das Dumme ist halt: die Idee der KI ist ja, dass die halt lernt und sich damit auch selbst verbessern kann. Und das ist nur eine Frage der Zeit.

Aber es geht eigentlich um die lieben Arbeitsplätze. Und ich habe die Bilder der Geschichte vor Augen: Damals als die erste Eisenbahn, dieses olle eiserne Pferd, fuhr, da war den Kutschern auch komisch. Aber Arbeitsplätze wandeln sich im Laufe der Zeit, manche wurden auch Lokführer. Ich bin nur der Bote.

Dabei ist gerade die Synchron-Übersetzung ein sehr, sehr guter Anwendungsfall für künstliche Intelligenz. Ja, es gibt konventionelle Übersetzungshilfen. Aber die waren halt immer nur so gut wie ihre Schaffer. Und Sprachen sind ja durchaus recht anspruchsvolle Gebilde, zudem auch ständig im Wandel. Und mitunter kann es sogar sinnvoll sein, abhängig von der Betonung eines Wortes in einer anderen Sprache ein anderes Wort zu verwenden, abhängig auch vom Zeitpunkt in der die Rolle spielt.

Aber es geht ja noch weiter: wir in Deutschland sind verwöhnt, dass nahezu alles auf Deutsch synchronisiert wird. Das wird nicht überall so gemacht (Europa-Karte”). Und das ist mitunter auch eine Frage der Wirtschaftlichkeit. Mit den Algorithmen werden auch weitere Sprachen kein Problem darstellen. Auch zur Laufzeit. Und nebenbei auch noch in 15 Dialekten, in Gebärdensprache und in Esperanto.

Und warum braucht es nur eine Übersetzung je Land? Man könnte ja auch mehrere zur Auswahl stellen. Und dann könnten die heutigen Synchronsprecher diese Rollen verkörpern, ihre Marke als Stimme verwerten. Wem eine Stimme nicht gefällt, der wechselt die halt aus. Und selbst wenn der Sprecher irgendwann einmal das Zeitliche segnet: die KI-Stimmen nicht. Und einen guten Anwendungsfall las ich im oben verlinkten Artikel zur rechtlichen Analyse

Hurra, Hurra der Pumuckl ist wieder da! RTL bringt die Kultserie der 80er Jahre mit neuen Folgen zurück und das, zur großen Freude vieler Fans, mit der Originalstimme des kleinen Kobolds, gesprochen von Hans Clarin. Die Besonderheit: Hans Clarin ist bereits vor 18 Jahren verstorben.

Aber weiter aus der Begründung:

Deepfakes haben außerdem ein hohes Missbrauchspotenzial und stellen somit ein Sicherheitsrisiko nach Innen wie Außen dar. Die Möglichkeiten reichen von krimineller Nutzung bis hin zu gezielter politisch motivierter Desinformation. Informationsfluss, Publizismus, Journalismus und auch Übersetzungen müssen daher, ebenso wie jegliche Kunstform, unter menschlicher Kontrolle bleiben.

Das ist der nächste schöne Widerspruch: In den Forderungen wollen sie klare Auszeichnung von KI – und in der Begründung soll doch alles unter menschlicher Kontrolle bleiben. Also kein Warnhinweis, dass es eine Lokomotive ist, nein, der Kutscher hat die Zügel noch selbst in der Hand.

Aber jenseits davon sind Deepfakes (also realistisch wirkende, aber verfälschte bzw. manipulierte Inhalte) ein sehr, sehr großes Problem. Ohne Frage. Da reicht es schon, wenn auf unseren Braunen Rand schauen. Nur wenn ich auf die Unterstützung von KI in der Synchronisation von Filmen und Serien bewusst verzichte, in wie weit löse oder zumindest lindere ich dieses Problem? Es ist doch so wie mit jedem anderen Werkzeug auch: man kann Gutes damit tun, man kann Böses damit tun. Man kann ein wenig reglementieren, ja. Aber wenn ich auf das Gute verzichte, verhindere ich damit nicht das Böse. Diese Fakes werden leider auch dann bestehen, wenn ich nicht in 150 Sprachen zur Laufzeit übersetzte Stimmen hören kann. Und gegen das ganze Thema Deepfakes hilft leider nur Sensibilisierung und Bildung – und allenfalls eine KI, die selbst wieder Deepfakes aufdecken kann.

Die eigentlichen Probleme im Zusammenhang mit KI gehen bei dieser Petition (und auch in vielen anderen Debatten) unter: Transparenz der Algorithmen und der gelernten Daten.

Was macht Netflix heute? Sie erkennen natürlich das Potential für die Zukunft. Und das man dafür Daten braucht. Und wer die Daten dann hat, hat die Macht. Da gibt es zugegeben kritischere Bereiche als die Filmsynchronisation, hier reden wir vor allem um Marktmacht. Wenn Netflix und einige andere große Produzenten einen riesigen Datenpool haben und alles in irgendwas übersetzen können, wirst du als Startup oder kleinere Indiependence-Filmbude gar nicht die Möglichkeiten haben. Dabei wäre das auch für die natürlich hilfreich, weil sie so mit deutlich weniger Aufwand einen größeren Markt bedienen könnten. Oder anders ausgedrückt: sie könnten ihren Schwerpunkt auf den Kern, die eigentliche Filmhandlung, legen. Und meine Gedanken drehen sich darum, wie man dazwischen eine Balance schafft.

Bei Software gibt es OpenSource, also der Quellcode ist dann offen. Das Thema ist nicht besonders hipp, allein schon weil die meisten Menschen keine Programmierer sind. Aber jeder, der eben will und die Fähigkeiten hat, kann den Quellcode dieser Software lesen und verbessern – oder auf konkrete Risiken hinweisen. Für Daten gibt es Open Data, also öffentlich zugängige Daten, oder speziell für Wissenschaft Open Access.

Wahrscheinlich braucht es auch hier ähnliche Ansätze für Open-KI (und ich verwende eben bewusst nicht das englische OpenAI, weil das ein Name eines konkreten Unternehmens ist). Also dass die verwendeten Algorithmen geöffnet werden und ebenso die eingefütterten Datenfragemente. Man könnte auch weitergehen und so ein KI-Netzwerk in gemeinnützigen Händen legen. Im Gegensatz zu OpenSource sind die finanziellen Hürden deutlich höher. Wer stellt mal eben ein großes Rechenzentrum bereit? Und auch das wird für die meisten Menschen nicht greifbar sein, schon weil sie damit nichts konkretes anfangen können. Bzw. vermutlich erstmals bei Google unbeabsichtigt damit in Berührung kommen. Aber in der Richtung sehe ich Diskussionsbedarf.

Und natürlich ist das ganze Thema ein schwer greifbares Feld. Es gibt viele starke Meinungen (so wie in dieser Petition) und wenig starke Argumente. Und selbst ich würde jetzt nicht behaupten, das komplette Thema mit all ihren Facetten schon verinnerlicht habe. Im Gegenteil. Und ich freue mich auch über kritische Kommentare zu diesen Überlegungen.

Aber zurück zu den Synchronsprechern: Die Kutscher versuchen das eiserne Pferd aufzuhalten. Aber der Zug wird fahren.

Bisherige Kommentare (0)

Es wurde noch kein Kommentar geschrieben!

Kommentar verfassen

Freiwillige Angabe
Freiwillige Angabe
Der Text kann mit Textile formatiert werden, z.B. *fett* _kursiv_ "link":url. Wie das geht?
Wieviel ist 40 plus 2?

Bisherige Trackbacks (0)

Es wurde noch kein Trackback empfangen!