Deep Learning ist dafür bekannt, bahnbrechende Ergebnisse in verschiedensten Disziplinen zu liefern - so auch in der Erzeugung von Sprache aus Text, dem sogenannten Text-To-Speech. In diesem Kurs werdet ihr lernen, wie man beliebige Stimmen klont und eine Anwendung schreibt, die mit einer kurzen Audioaufnahme einer Stimme und einem Text eine Audiodatei erzeugt, die genau diesen Text mit der angegebenen Stimme spricht.
Kernthemen dieser Disziplin sind:
Beschaffung und Formatierung der Trainingsdaten, um die neuronalen Netze zu trainieren.
Durchführung des Trainings eines Encoders zur Erzeugung eines Embeddings für die Stimmen der Sprecher
Durchführen des Trainings eines Synthesizers zur Erzeugung von Phonemen und Mel Spektrogrammen
Durchführung des Trainings eines Vocoders zur Generierung von Wave-Daten aus Mel Spektrogrammen
Ist das geschafft, zeige ich euch, wie ihr die Modelle in einer UI ladet oder sie einfach per Python API aufruft.
Wir werden in diesem Kurs auf der Arbeit von Corentin Jemine (Real Time Voice Cloning) aufsetzen, um nicht ganz von vorne beginnen zu müssen. Wenn ihr das Framework bereits kennt, wird euch dieser Kurs bei der Anwendung auf die deutsche (oder jede beliebige andere) Sprache helfen. Alle Werkzeuge, die wir verwenden, sind frei zugänglich und open-source, sodass ihr bei Bedarf jede Funktion bis in ihre tiefsten Tiefen nachvollziehen könnt.
Ein kleiner Hinweis am Schluss: Dieser Kurs ist dafür gedacht Stimmen zu klonen, von deren Besitzern ihr die Zustimmung habt.