无言以对 发表于 2025-4-27 09:17:56

Vevo - 零样本可控音色和风格语音模仿框架 支持50系显卡 本地一键整合包下载


Vevo 是一个多功能的语音合成和转换模型,具有可控音色和风格的通用零样本语音模仿等功能。包含以下功能:进行风格保留的语音转换、进行风格转换、风格和音色可控的语音合成等。支持六种语言(英语、中文、德语、法语、日语和韩语)。


Vevo 提供以下四个主要功能:

1、Vevo 风格:保持音色但转换风格(口音、情感等);
2、Vevo 音色:保持风格但转换音色;
3、Vevo 语音:分别参考风格和音色,转换两者;
4、Vevo 语音合成:具有独立风格和音色参考的文本到语音转换


使用教程:(建议N卡,显存6G起。基于CUDA12.8)
根据需要上传参考音频、风格音频、目标音频等,提交即可。


需要手动安装espeak:
1、点击下载 然后双击安装 espeak-ng-X64.msi 文件,无脑下一步完成,不要更改路径;
2、手动添加环境变量,变量名 PHONEMIZER_ESPEAK_LIBRARY ,值 C:\Program Files\eSpeak NG\libespeak-ng.dll ;
手动添加环境变量教程:https://jingyan.baidu.com/article/af9f5a2d5ecb8502150a4522.html (以win11为例,win10操作类似)


下载地址:
夸克网盘:https://pan.quark.cn/s/555e2db1685f 一键包不包含模型,首次启动会自动下载,请耐心等待下载完成
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

mantouxi 发表于 2025-4-27 21:25:38

试试,感谢分享

tdwfwsk 发表于 2025-4-28 21:04:24

效果不是很好,速度也慢。
页: [1]
查看完整版本: Vevo - 零样本可控音色和风格语音模仿框架 支持50系显卡 本地一键整合包下载