无言以对 发表于 2025-4-28 11:24:43

MMAudio V3版 - AI视频配音,AI视频配乐,文本生成音频 支持50系显卡 支持批量生成 本地一键整合包下载


MMAudio 是由伊利诺伊大学厄巴纳 - 香槟分校、Sony AI 及 Sony 集团公司的研究团队推出了一项新技术,该技术旨在通过多模态联合训练,实现高质量的视频到音频合成。
MMAudio 的核心创新在于能够利用视频和文本输入生成同步的音频,从而拓展了音频生成的应用场景,支持输入视频或文本,生成符合视频内容的音效。

MMAudio 类似之前分享的 FoleyCrafter区别是,MMAudio 不仅可以为AI生成视频配上完美的音效,还能根据提示词生成你想要的音效。它能智能识别视频场景,自动给视频配上匹配的音效,还能根据你的提示词,自定义生成与之匹配的音效。最新版还支持图片配乐,上传一张图片,输入提示词,即可为图片场景配上适合的音效,图片秒变视频,短视频及自媒体领域必不可少的辅助工具。


今天分享的 MMAudio V3版 新增了对50系显卡的支持;新增批量处理,支持视频到音频、文本到音频及图像到音频的批量处理功能;新增预设功能,可以将常用参数设置保存为一个预设,方便后期直接加载使用。


特点 ‌
同步生成‌:能够根据输入的视频或文本内容,实时生成与之同步的音频。 ‌
灵活输入‌:支持多种输入形式,包括视频和文本,提供了广泛的适用性。 ‌
高效处理‌:采用先进的音频处理技术,确保生成的音频质量高且处理速度快。


应用场景 ‌
视频配音‌:为无声视频自动生成配音,提高视频内容的吸引力和可理解性。 ‌
有声书制作‌:将文本小说转换为有声书,为读者提供便捷的听觉体验。 ‌
辅助教学‌:为教师提供便捷的音频生成工具,用于制作教学音频材料。 ‌
娱乐创作‌:为音乐创作者、配音演员等提供灵感来源和辅助创作工具。


使用教程:(建议N卡,显存8G起。支持50系显卡,基于CUDA12.8)
上传一段需要配音的视频或图片,可以直接提交,MMAudio 会自动根据视频内容配音。也可以输入提示词,告诉MMAudio 你需要配置的音效。
还支持文本生成音频音效,输入提示词生成你想要的音效。同时支持图片生成音效视频。

MMAudio V3版 支持低显存模式,低于8G显存可以使用低显存模式,该模型降低了硬件门槛,但生成时间会对应增加。


下载地址:
夸克网盘:https://pan.quark.cn/s/5961663dde02 (默认不包含模型,首次运行会自动下载,模型较大,请等待下载完成)
百度网盘:**** 本内容需购买 ****

解压密码:https://deepface.cc/ 复制这个完整的网址即是解压密码,不要有空格,复制粘贴即可

cx123 发表于 2025-4-28 16:25:08

老大,模型下载不了呢,链接超时呢,没有放镜像吗

无言以对 发表于 2025-4-28 21:42:05

cx123 发表于 2025-4-28 16:25
老大,模型下载不了呢,链接超时呢,没有放镜像吗

多试几次

mengfly 发表于 2025-4-29 08:36:47

点了启动 窗口一闪就没了

无言以对 发表于 2025-4-29 08:41:48

mengfly 发表于 2025-4-29 08:36
点了启动 窗口一闪就没了

如果不是50系显卡,用V2版 https://deepface.cc/thread-502-1-1.html

mengfly 发表于 2025-4-29 13:14:07

无言以对 发表于 2025-4-29 08:41
如果不是50系显卡,用V2版 https://deepface.cc/thread-502-1-1.html

好的谢谢

mengfly 发表于 2025-5-2 12:20:58

无言以对 发表于 2025-4-29 08:41
如果不是50系显卡,用V2版 https://deepface.cc/thread-502-1-1.html

找出来问题了放根目录就好了

小派哥 发表于 2025-5-5 09:30:52

啥也不说了,感谢楼主分享哇!

644100242 发表于 前天 22:03

大佬牛逼,下来学习学习
页: [1]
查看完整版本: MMAudio V3版 - AI视频配音,AI视频配乐,文本生成音频 支持50系显卡 支持批量生成 本地一键整合包下载