查看: 50|回复: 2

[资源] 分享我的解说配音工作流【附开源工具】

[复制链接]

165

主题

1402

回帖

12

精华

管理员

脚滑王

经验
9152
硬币
854 枚

永吧十五周年建吧日纪念勋章永吧十五周年倒计时海报勋章第十一届MW杯冠军欢乐演员对不起,小姐欢迎光临秘密合战!请务必再光临秘密合战!

发表于 18 小时前 | 显示全部楼层 |阅读模式
这个帖子是什么?

事情得从我自己的解说视频制作说起。
如果看我 23 下半年以后的解说的观众应该知道,我在解说中引入了一套 AI 配音的工作流,并且这个工具栈被称为 RedGlow Engine(绯霞引擎),以此来致敬最早做语音字幕解说的 xfx。当时的整套计划包括了一套 AI 配音模型和一套能够在 Adobe Premiere 中快速进行配音制作的前端工具,我也都实现了,并且计划在不远的将来(笑死,结果咕到一年半过去了)开源整套工具。
当然那套 AI 模型完全是自己整的,但我自己数据集有限,做出来的效果也很不好;而正好网上有大佬开源了一套非常好用效果也很好的 GPT-SoVITS (GSV) 配音工具,因此我自己的工作流中“AI 配音模型”的部分也理所应当改成了 GSV 模型。不过原来我写的前端工具我感觉还是挺好用的,用来做解说的效率也非常快,我也一直有想开源这套工具的想法;只是之前有一些图形界面没完全写完,不够好用。昨天想到可以拿 AI 来写这种界面,然后 AI 写的好像还不错,那既然万事俱备,也是时候来公开我的一整套工作流和自己用的工具了,希望可以帮到想要做类似 AI 配音的人。


简单来说,如果你正好和我一样用的是 Adobe Premiere 制作视频的话,那么你下载这个帖子提供的工具,再根据后面的步骤,就可以和我一样来很方便的给字幕配上 AI 配音——至于 Premiere 哪里下载嘛,大家可以私底下互相分享自己知道的资源,但毕竟破解软件上不了台面,在论坛里就不讨论了。
个人网站wsw233.com
新作 AUEV0.5.0 制作中!
解说/版聊视频随缘更新!

165

主题

1402

回帖

12

精华

管理员

脚滑王

经验
9152
硬币
854 枚

永吧十五周年建吧日纪念勋章永吧十五周年倒计时海报勋章第十一届MW杯冠军欢乐演员对不起,小姐欢迎光临秘密合战!请务必再光临秘密合战!

 楼主| 发表于 17 小时前 | 显示全部楼层
我该怎么安装这套工具?

注意:这里我分享的是用 Premiere 的工作流;如果你只是想要 AI 配音,然后手动导入其他剪辑软件,那么你只需要下载 GSV 整合包并且单独使用 GSV 这个工具就可以。
1. 安装 Premiere 的 Pymiere Link 插件:
https://zh.wsw233.com/files/view?f=rpe9v3
下载后双击运行即可。注意这个过程可能需要科学上网。
2. 下载 GSV 工具。你可以在这里下载整合包
https://www.yuque.com/baicaigong ... 1e/dkxgpiy9zb96hob4
推荐使用科学上网从 huggingface 源进行下载。
下载完成后,解压即可。
3. 下载 Redglow 前端:
https://zh.wsw233.com/files/view?f=smmjpn
下载完成后,将 redglow.zip 解压到 GSV 的根目录(像这样),
QQ图片20250204005531.png
然后进入 redglow 文件夹,双击 execute_before_run.bat(这一过程可能需要关闭科学上网)。
至此,安装过程就结束了。

我该怎么配置声库?
如果双击 go-redglow.bat 打开 redglow 前端,你会看到我提供了一个示例声库(即我的解说中各类龙套角色的声库),另外还有一个“编辑配置”的按钮,打开以后会进入一个声库配置窗口(顺带感谢 DeepSeek,这个窗口完全是它写的,人力写这个会非常麻烦),选中“男性1”以后你会看到这样的界面:
Snipaste_2025-02-04_01-01-01.png
这里一个声库对应一个模型,并且支持配置多个情感(可以通过“添加情感”和“删除情感”按钮更改),如果再点击情感中的“叙述”,你会看到这个界面。
Snipaste_2025-02-04_01-03-18.png
是的,GSV 非常好用的一点是,你可以直接使用 GSV 的默认模型(即“男性1”声库已经配置好的这个模型),然后仅通过一段参考音频和对应的文本就完成了一个声库的创建,你不需要有一块显卡来训练什么模型,完全是开箱即用。
当然 GSV 也提供了快速训练模型的方法,如果你有一块显卡和几分钟的音频素材的话,可以来训练得到一个更高质量、更还原的声库(例如,我的解说视频中我和库罗的声库都是训练得到的,但训练数据大约只有 5 分钟)。如果你对训练声库感兴趣,可以参考 GSV 官方的教程:https://www.yuque.com/baicaigong ... 1e/xyyqrfwiu3e2bgyk 和他们的官方仓库:https://github.com/RVC-Boss/GPT-SoVITS
接下来的配置过程就完全是图形化操作的了,我想我应该不用过多介绍了,不过记得右下角有“保存配置”按钮,设置完一定要保存。

我该怎么真正使用这套工具?
1. 在打开 redglow 前端之前,请你先打开 Adobe Premiere 软件(这很重要);
2. 打开你的项目,在时间轴上输入一段文本(这里的配图是早期版本,还没有图形化配置的功能);
QQ图片20250204010927.png
3. 单击要对齐的字幕,在 redglow 前端工具里输入文本(可以直接从字幕复制粘贴,但为了更好的可控性例如解决多音字问题,粘贴完之后可以微调字词),然后,点击“生成”按钮。
QQ图片20250204011018.png
4. 之后,你会发现这段字幕配上了个音频,并且字幕的长度和音频也对齐了。

工具里还有个“清除冗余文件”的按钮,但目前并不太好用,就不多说用途了(我也不太用它)。
个人网站wsw233.com
新作 AUEV0.5.0 制作中!
解说/版聊视频随缘更新!

165

主题

1402

回帖

12

精华

管理员

脚滑王

经验
9152
硬币
854 枚

永吧十五周年建吧日纪念勋章永吧十五周年倒计时海报勋章第十一届MW杯冠军欢乐演员对不起,小姐欢迎光临秘密合战!请务必再光临秘密合战!

 楼主| 发表于 17 小时前 | 显示全部楼层
要说的大概就这么多了,希望可以帮到想要仿照我的流程制作视频的人。
最后,感谢 116 提前使用这个工具并且帮我踩雷,感谢 DeepSeek 让我能够很快完成公开的工作。
个人网站wsw233.com
新作 AUEV0.5.0 制作中!
解说/版聊视频随缘更新!
您需要登录后才可以回帖 登录 | 创建账户

本版积分规则