RVC整合包 – 一个基于VITS的简单易用的语音转换（变声器）框架

9月15日更新830次阅读

简介

本仓库具有以下特点

使用top1检索替换输入源特征为训练集特征来杜绝音色泄漏
即便在相对较差的显卡上也能快速训练
使用少量数据进行训练也能得到较好结果(推荐至少收集10分钟低底噪语音数据)
可以通过模型融合来改变音色(借助ckpt处理选项卡中的ckpt-merge)
简单易用的网页界面
可调用UVR5模型来快速分离人声和伴奏

更新日志

20230409

修正训练参数，提升显卡平均利用率，A100最高从25%提升至90%左右，V100:50%->90%左右，2060S:60%->85%左右，P40:25%->95%左右，训练速度显著提升
修正参数：总batch_size改为每张卡的batch_size
修正total_epoch：最大限制100解锁至1000；默认10提升至默认20
修复ckpt提取识别是否带音高错误导致推理异常的问题
修复分布式训练每个rank都保存一次ckpt的问题
特征提取进行nan特征过滤
修复静音输入输出随机辅音or噪声的问题（老版模型需要重做训练集重训）

20230416更新

新增本地实时变声迷你GUI，双击go-realtime-gui.bat启动
训练推理均对<50Hz的频段进行滤波过滤
训练推理音高提取pyworld最低音高从默认80下降至50,50-80hz间的男声低音不会哑
WebUI支持根据系统区域变更语言（现支持en_US，ja_JP，zh_CN，zh_HK，zh_SG，zh_TW，不支持的默认en_US）
修正部分显卡识别（例如V100-16G识别失败，P4识别失败）

20230428更新

升级faiss索引设置，速度更快，质量更高
取消total_npy依赖，后续分享模型不再需要填写total_npy
解锁16系限制。4G显存GPU给到4G的推理设置。
修复部分音频格式下UVR5人声伴奏分离的bug
实时变声迷你gui增加对非40k与不懈怠音高模型的支持

后续计划：

功能：

增加选项:每次epoch保存的小模型均进行提取
增加选项:推理额外导出mp3至填写的路径
支持多人训练选项卡（至多4人）

底模：

收集呼吸wav加入训练集修正呼吸变声电音的问题
我们正在训练增加了歌声训练集的底模，未来会公开
升级鉴别器
升级自监督特征结构

下载

开源链接：https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI

新版发布/下载：https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI/releases

网盘备份：

模型训练、数据集制作服务联系右侧QQ

评分

欢迎为Ta评分