很久很久以前,我研究过一段时间的AI变声,那个时候技术还不成熟,效果也不怎么好。
以前也有测试过AI拟声,但效果十分有待提升
但现在似乎有了个新技术GPT-SoVITS。
在我开始使用的时候(写这篇Blog的时候),WebUI的仓库作者似乎正在写变声,可以用的功能有音频预处理、模型微调、TTS。
官方仓库有提供整合包,下载过来直接就能跑,开心\^o^/
测试效果
整合包里面有带两个模型,应该是预训练模型,放一段参考音频和一段文字做测试
测试使用下面的文本进行生成:
学一个技术栈,按照我的习惯,肯定是要写一个项目,这次写什么呢?
哼哼哼,这次要做一个真正有用的东西!我已经事先做好了调研,开好了支付接口,这次要做一个搞钱的项目!!使用预训练的模型
参考音频:
结果:
使用嘉然的模型
参考音:
结果:
使用嘉然的模型加上错误的提示音
参考音:
结果:
总结
这样的效果超出我的预料,即使没有经过训练,只使用预训练模型,生成效果也是相当棒的,嘉然那个感觉更是以假乱真。
要说有什么优点,那就是效果好,语气都学习出来了,要说有什么缺点,那就是语气都是学习出来的,无法人为控制说话语气。
老师听到效果后做的评价是,像讲故事一样,不可用。