In diesem Kurs zeige ich euch, wie ihr ein Modell trainiert, das sieben Emotionen in Sprache erkennen kann, konkret in Audiodateien des Formats wav. Die Datengrundlage schaffen wir uns, indem wir einen entsprechenden, freien Datensatz (Berlin Database of Emotional Speech) besorgen, formatieren, mit Labels versehen und in einem Dataset bereitstellen.
Für das Training selber wird Meta's wav2vec2 als Foundation Modell genutzt und gezeigt, wir du das Modell auf den Task "Audio Classification" fine-tunen kannst. Dabei setzen wir auf die wav2vec2-Modellimplementierung von Huggingface auf und fügen einen Classification Head hinzu, den wir trainieren und evaluieren. Dadurch lernt ihr nicht nur, wie ihr Emotionen erkennt, sondern auch ein Training von Grund auf aufbaut und für weitere Klassifizierungsaufgaben verwenden könnt, etwa um Autos anhand ihrer Geräusche zu erkennen oder Situationen im Fußballstadion anhand der Geräuschkulisse per KI einzuschätzen.
Ist das Modell trainiert, schreiben wir gemeinsam ein Inference-Script, um das Modell anzuwenden. Zum Schluss werden die Ergebnisse und mögliche Verbesserungen besprochen, um das Modell treffsicherer zu machen. Ihr sehr zusätzlich, wie ihr euer fertiges Modell auf dem Huggingface Hub veröffentlichen könnt, um so Lob und Feedback einzuholen.
Als Voraussetzung solltest du in der Lage sein, Python Code zu lesen und zu schreiben und ein Grundverständnis für Deep Learning mitbringen.