Muk-Blog - Lyrebird - Mit Künstlicher Intelligenz zur eigenen digitalen Stimme

„Create your digital voice“ – mit diesem Slogan wirbt das kanadische Unternehmen Lyrebird, das sich 2017 als Entwickler der gleichnamigen Software einen Namen gemacht hat. Benannt nach dem Leierschwanz, der Geräusche ebenso wie menschliche Stimmen täuschend echt nachahmt, filtert Lyrebird mithilfe neuronaler Netze aus eingesprochenen Beispielsätzen die individuellen Kennzeichen einer Stimme heraus. So entwickelt die Software ein Sprachmuster und ist in der Lage, jede eingesprochene Stimme zu imitieren. Nun hat Lyrebird eine frei zugängliche Beta-Version veröffentlicht, die jeder Interessierte kostenlos testen kann.

Wie funktioniert Lyrebird?

Das Erstellen seiner eigenen digitalen Stimme ist für den Nutzer dabei denkbar einfach. Rund 30 englischsprachige Beispielsätze gibt Lyrebird zum Einsprechen vor. Um das Fälschungs-Potenzial so gering wie möglich zu halten, haben die Sätze keinen Bezug zueinander und sind im Alltag nur selten anwendbar. Die Wahrscheinlichkeit, zu Aufnahmen zu kommen, auf denen bekannte Personen genau diese Sätze sagen, ist damit äußerst gering. Auch die Verifikation der Stimme ist so einfacher.

Die folgenden drei Beispiele spiegeln dabei sowohl das Sprachniveau als auch die thematische Bandbreite der abgefragten Sätze wider:

„Two physicists pondered their revised quantum field theory together.”

„Not everything that is faced can be changed; but nothing can be changed until it is faced.”

„Without understanding the actual physics, some animals exploit total internal reflection for catching fish.”

Das Einsprechen dauert nur eine knappe Viertelstunde, in der die Software – unter Anwendung von Künstlicher Intelligenz – Intonationen und Sprachmuster analysiert und speichert. Anschließend generiert Lyrebird die digitale Stimme des Users und ist in der Lage jeden englischen Satz, den der Nutzer eintippt, vorzulesen. Dabei ist die Computergenerierung der Stimme momentan zwar noch herauszuhören, ähnliche Grundzüge sind aber schon gut erkennbar. Je mehr Beispielsätze eingesprochen werden, desto höher wird auch die Qualität der Computer-Stimme.

Klicken Sie auf den unteren Button, um den Inhalt von w.soundcloud.com zu laden.

Inhalt laden

Das gestellte Gespräch zwischen Barack Obama, Donald Trump und Hillary Clinton zeigt, wie gut Stimmen bereits imitiert werden können. (Quelle: Soundcloud: Lyrebird)

Anwendungsbereiche und mögliche Gefahren

Die Anwendungsmöglichkeiten von Lyrebird sind vielfältig und bergen einige Risiken. Hauptziel von Lyrebird ist es, die Interaktion zwischen Mensch und Computer angenehmer zu machen. Persönliche Assistenten und Navigationssysteme könnten mit beliebigen menschlichen Stimmen ausgestattet werden. Gesprochene Dialoge in Videospielen würden deutlich realistischer werden. Auch in der Erstellung von Medienprodukten kann Lyrebird unterstützend mitwirken. Stimmen von Schauspielern könnten ‚eingefroren‘ und auch nach deren Tod für (Film-)Produktionen weiterverwendet werden. Hörbücher könnten sich Nutzer künftig von Stimmen ihrer Wahl vorlesen lassen.

Allerdings haben Softwares wie Lyrebird auch das Potential, betrügerischen Zwecken zu dienen (etwa dem Überlisten von Autorisierungen sprachgesteuerter Systeme) oder beim Erstellen von Fake News benutzt zu werden. In einer Zeit, in der ‚Alternative Fakten‘ bereits ohne weit verbreitete digitale Sprachimitationen zum Unwort des Jahres gekürt wird, wird die Erstellung von glaubwürdigen Fake News in Zukunft noch einfacher. Wenn eine Software die Stimmen bekannter Persönlichkeiten dazu bringen kann, alles zu sagen, können sich Nutzer mitunter nicht mehr auf das Gehörte verlassen. Zitate könnten damit beliebig erstellt werden. In Kombination mit Photoshop-Softwares ist sogar die Fälschung ganzer Videos möglich. Das verdeutlicht Lyrebird am Beispiel von Barack Obama.

Mit dem Laden des Videos akzeptieren Sie die Datenschutzerklärung von YouTube.
Mehr erfahren

Video laden

YouTube immer entsperren

Videoquelle: YouTube: Lyrebird

Auch Lyrebird ist sich diesen Gefahren bewusst. Alexandre de Brébisson, Mitgründer des Software-Unternehmens, äußerte sich gegenüber Spiegel Online wie folgt zu der Thematik: „Wir verwenden viel Zeit darauf, neue digitale Wasserzeichen zu entwickeln. Außerdem erlauben wir Nutzern nur, die eigene Stimme zu kopieren.“ Sichergestellt wird das durch die willkürlich ausgewählten Beispielsätze, die einzeln verifiziert werden.

Textquellen: Spiegel Online, Beuth, P.: 2018, abgerufen am 08.02.2018; WDR, Schieb, J.: 2018, abgerufen am 08.02.2018