[视频作者] Francis-Komizu
[视频时长] 7:20
[视频类型] 动画综合
最近很多大佬都在做ACG的语音合成呢,但一直没见星光咖啡馆的模型出来,那我就试着做做吧:) 视频中使用的模型是VITS,在我自己收集的星光咖啡馆数据集(2W条语音)上用colab的P100跑了40个小时左右。效果还不错,再跑几天品质应该还能提升! 另外在尝试做GUI…… Github:https://github.com/Francis-Komizu/VITS Colab demo:https://colab.research.google.com/drive/1nKa-l15f_talGvIwP
![[图]基于VITS的星光咖啡馆5人语音合成模型](https://i0.hdslb.com/bfs/archive/5e16916514a99dd16650944fa9aae671f59cb15e.jpg)