找回密码
 立即注册
查看: 745|回复: 6

SoloSpeech - 高质量语音处理模型,一键提取指定说话人音频并提升提取音频清晰度和质量 本地一键整合包下载

[复制链接]

签到天数: 27 天

[LV.4]偶尔看看III

678

主题

955

回帖

6万

积分

武林盟主

积分
60964

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
发表于 2025-6-3 09:55:46 | 显示全部楼层 |阅读模式

马上注册,下载更多AI资源软件

您需要 登录 才可以下载或查看,没有账号?立即注册

×

SoloSpeech - 高质量语音处理项目,一键提取指定说话人音频,提升提取音频清晰度和质量 本地一键整合包下载 ...

SoloSpeech - 高质量语音处理项目,一键提取指定说话人音频,提升提取音频清晰度和质量 本地一键整合包下载 ...

SoloSpeech 是由约翰霍普金斯大学、香港中文大学、南洋理工大学、清华大学及布拉格理工大学等多所高校共同主导开源的一个创新的语音处理项目,旨在解决在多人同时说话的环境中,准确提取并清晰呈现特定说话者声音的问题。该项目通过构建一个级联生成式管道(cascaded generative pipeline),实现了对混合语音信号的高效处理,提升了目标语音的清晰度和质量。

SoloSpeech 的核心用途是‌目标语音提取(Target Speech Extraction, TSE)‌,即从包含多个说话者声音的混合音频中,分离并提取出特定说话者的声音。这一技术可以广泛应用于各种需要清晰分离和识别特定声音的场景,如语音识别系统、会议记录、语音识别训练数据预处理等。


SoloSpeech功能特点  ‌
提高语音识别的准确性‌:通过分离目标语音,减少背景噪音和其他说话者的干扰,从而提高语音识别的准确率。 ‌
改善会议记录体验‌:在多人参加的会议中,可以提取出每个发言人的声音,方便后续整理和回顾。 ‌
优化语音训练数据‌:在语音识别或语音合成模型的训练过程中,可以使用SoloSpeech来处理嘈杂或混合的语音数据,提高模型的训练效率和性能。


SoloSpeech的应用领域
智能语音识别‌:在智能家居、车载语音助手等智能设备中,通过提取目标语音,实现更精准的语音控制。 ‌
远程会议与协作‌:在远程会议软件中,利用SoloSpeech技术,可以清晰地听到每个参会者的发言,提升会议效率。 ‌
教育领域‌:在教育视频中,可以提取出教师的声音,帮助学生更好地理解和记忆知识。 ‌
音频编辑与后期制作‌:在音频制作过程中,使用SoloSpeech可以快速分离和提取出需要的声音元素,提高制作效率和质量。


使用教程:(建议N卡,显存12G起。基于CUDA12.1)

上传一段需要提取的多人说话人音频,再上传一段需要提取的说话人音频,提取即可。
比如先上传一段音频中包含A和B两个说话人,再上传一段只有A说话的音频,即可从A和B说话的音频中精准提取A说话的纯净高质量音频。


音频降噪教程:软件同样支持一键音频降噪,混合音频和说话人音频分别上传需要降噪的音频,也就是都上传需要降噪的音频,提取即可。
测试下来,这个降噪效果非常棒,音质几乎没有损失。比之前分享的 ClearerVoice降噪效果都要好。


下载地址:

迅雷云盘:https://pan.xunlei.com/s/VOSNmBuNuTe8My1yDjMv-aS8A1?pwd=gj5d  (默认不自带模型,首次运行会自动下载,请耐心等待下载完成)
百度网盘:
游客,上上宾会员可免费下载该资源,点此开通上上宾 免费下载全站99%的付费资源。或单独支付 50碎银 下载该资源立即购买


解压密码:https://deepfaces.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可


DEEPFACE论坛免责声明
本论坛发布的所有内容,包括图片、软件、模型等部分来自网络,版权归原作者所有。
本论坛提供的内容仅用于个人学习和研究,请勿滥用,否则由此引发的责任需自行承担。
请合理合法使用AI技术,并遵守当地法律法规,不要用于违法用途!
如本站发布内容侵犯了你的合法权益,请联系我们删除。

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)

签到天数: 2 天

[LV.1]初来乍到

0

主题

19

回帖

27

积分

初入江湖

积分
27
发表于 2025-6-3 10:58:53 | 显示全部楼层
谢谢分享,好强大

签到天数: 39 天

[LV.5]常住居民I

0

主题

212

回帖

225

积分

江湖少侠

积分
225
发表于 2025-6-3 19:23:58 | 显示全部楼层
音频降噪教程:软件同样支持一键音频降噪,混合音频和说话人音频分别上传需要降噪的音频,也就是都上传需要降噪的音频,提取即可。
测试下来,这个降噪效果非常棒,音质几乎没有损失。比之前分享的 ClearerVoice降噪效果都要好。

——原来是这样,有对比才会知道谁最好

签到天数: 92 天

[LV.6]常住居民II

0

主题

169

回帖

218

积分

江湖少侠

积分
218
发表于 7 天前 | 显示全部楼层
这个效果是不错

该用户从未签到

0

主题

3

回帖

9

积分

初入江湖

积分
9
发表于 5 天前 | 显示全部楼层
8G显卡一用就报错,必须12G起步?

该用户从未签到

0

主题

3

回帖

9

积分

初入江湖

积分
9
发表于 5 天前 | 显示全部楼层
8G显卡一起用就报错,是有处理音频时长限制还是显存8G太小?

签到天数: 27 天

[LV.4]偶尔看看III

678

主题

955

回帖

6万

积分

武林盟主

积分
60964

宣传达人灌水之王突出贡献荣誉管理论坛元老

QQ
 楼主| 发表于 5 天前 | 显示全部楼层
zf372050857 发表于 2025-6-27 14:20
8G显卡一起用就报错,是有处理音频时长限制还是显存8G太小?

使用教程:(建议N卡,显存12G起。基于CUDA12.1)
帖子内容都不看吗?

各种参数DFL换脸模型/实时换脸模型底丹、实时换脸模型训练教学/实时换脸模型定制、AI软件个性化定制
论坛所有一键包报错请在帖子下方跟帖,看到会回复,不支持一对一解答,请确认再下载!
全站默认解压密码: https://deepface.cc/ 或 https://deepfaces.cc/ (密码就是这个网址,不要点开去找。复制完整网址即可,不要有空格)
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|AIGC资源站

GMT+8, 2025-7-2 06:03 , Processed in 0.244019 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

©2001-2023 Discuz! Team

快速回复 返回顶部 返回列表