Seed-VC V5版 - 全新V2模型 支持50系显卡 零样本语音转换 、实时语音转换、唱歌语音转换 本地一键整合包下载
Seed VC 一个受字节的 SEED-TTS 启发的新型零样本声音转换方案。该项目支持零样本(zero-shot)语音转换、零样本实时语音转换以及零样本歌唱语音转换,能够在不经过任何训练的情况下,仅通过1~30秒的参考语音实现一键克隆任意声音。Seed VC 有点类似之前很火爆的AI唱歌项目SoVITS,不同的是,Seed VC无需训练模型,只需要提供一段参考音频,即可免训练,生成音频音色克隆,而且支持唱歌克隆。实时语音转换 支持约300ms的算法延迟和约100ms的设备侧延迟,适用于在线会议、游戏和直播。
V5版 更新内容:更新更强的V2模型,同步最新源代码;新增对50系显卡支持
项目特点 零样本支持:无需训练即可实现语音转换,极大降低了使用门槛。 多种转换类型:支持标准语音转换、实时语音转换以及歌唱语音转换,满足多样化需求。 高性能与低要求:在特定说话人上的性能可通过自定义数据微调进一步提升,且数据需求极低(每个说话人最少1个发音),训练速度极快(最少100步,T4上仅需2分钟)。 实时性:实时语音转换算法延迟约为300ms,设备端延迟约为100ms,适合在线会议、游戏和直播等应用场景。 易用性:提供命令行工具、Web UI以及实时语音转换GUI,方便用户根据需求选择合适的使用方式。 可扩展性:支持用户训练或微调自己的模型,并可通过指定模型检查点和配置文件进行推理。
应用领域 娱乐与创意:在短视频、直播、游戏等领域,用户可以通过Seed-VC轻松实现声音模仿、变声等效果,增加娱乐性和创意性。 在线教育:在线教育平台可以利用实时语音转换功能,为学员提供多样化的语音学习材料,提高教学效果和趣味性。 语音合成与识别:在语音合成和识别领域,Seed-VC可以作为声音克隆的工具,为语音助手、智能客服等应用提供更加自然和个性化的声音。 影视制作:影视制作团队可以利用Seed-VC实现角色的声音替换、配音等,提高制作效率和灵活性。 安全防护:在一些需要保护隐私的场合,如电话会议、在线访谈等,可以使用Seed-VC将说话人的声音实时转换为“虚拟声音”,以保护其隐私安全。
使用教程:(建议N卡,显存4G起。基于CUDA12.8)上传参考音频和源音频,设置参数,合成即可。
实时部分可以参考RVC的教程,操作类似。
下载地址:夸克网盘:https://pan.xunlei.com/s/VOOHbWu0aVjQH6GfqV3m9oAYA1?pwd=b2w4 该链接不包含模型,首次启动会自动下载模型,耐心等待。百度网盘:**** 本内容需购买 ****
解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可 好像唱歌模型还是以前的啊 好像唱歌模型还是以前的啊 没有夸克网盘下载链接啊
大佬,V5也报错:(
garyzhang 发表于 2025-5-15 11:24
大佬,V5也报错
你都玩了这么久了,我也提示你好几次了,新手必看一定要看。
几个常见的问题都在贴子里列出来
报 LLVM ERROR: Symbol not found: __svml_cosf8_ha 错误,一般出现在语音克隆项目上,这个是系统缺少svml_dispmd.dll这个动态链接库,到这里 https://www.dll-files.com/svml_dispmd.dll.html 下载这个文件,复制到 C:\Windows\System32中即可
遇到问题先看新人必看
https://deepfaces.cc/thread-34-1-1.html 无言以对 发表于 2025-5-15 11:30
你都玩了这么久了,我也提示你好几次了,新手必看一定要看。
几个常见的问题都在贴子里列出来
十分感谢:handshake 变音、破音、声音嘶哑,严重失真:dizzy:请问有没使用教程? garyzhang 发表于 2025-5-15 18:10
变音、破音、声音嘶哑,严重失真请问有没使用教程?
参考页面下方的案例修改参数
多尝试修改参数 无言以对 发表于 2025-5-15 18:12
参考页面下方的案例修改参数
多尝试修改参数
很难调,总是走音、破音:(
页:
[1]