VALL-E

VALL-E hat eine kontextabhängige Lernfunktion entwickelt, mit der hochwertige personalisierte Sprache synthetisiert werden kann, indem einfach ein unsichtbarer Sprecher für 3 Sekunden als Sprachansage aufgenommen wird.

Preis:

Free

Experimentelle Ergebnisse zeigen, dass VALL-E die modernsten Zero-Shot-TTS-Systeme in Bezug auf die Natürlichkeit der Sprache und die Ähnlichkeit der Sprecher deutlich übertrifft. Außerdem haben wir festgestellt, dass VALL-E die Emotionen des Sprechers und die akustische Umgebung der akustischen Ansagen während der Synthese bewahren kann.

Aktualisiert: 26.04.2023