设为首页
收藏本站
请登录
立即注册
论坛首页
BBS
充值赞助
申请提现
提现排行榜
排行榜
Ranklist
友链申请
搜索
本版
文章
帖子
群组
用户
请
登录
后使用快捷导航
没有账号?
立即注册
友情链接
当前位置:
»
论坛首页
›
YOLO图像识别
›
资源分享
›
VITS_fast_finetune 语音模型一键训练整合包
收藏
0
回复
[音频处理]
VITS_fast_finetune 语音模型一键训练整合包
IP属地:
江西省南昌市
256
0
脆脆鲨
2024-8-28 11:01:47
|
显示全部楼层
|
阅读模式
工具分享
链接 ( 1 ):
https://pan.baidu.com/s/1VewMqTBKcAvEkpOJhezexg
(购买前请确认资源链接是否有效)
|
->链接失效上报<-
链接 ( 1 )_提取码
o1q6
链接 ( 2 ):
https://pan.baidu.com/s/1VewMqTBKcAvEkpOJhezexg
(购买前请确认资源链接是否有效)
|
->链接失效上报<-
链接 ( 2 )_提取码
o1q6
展示图片
VITS模型介绍
VITS(Variational Inference with adversarial learning for end-to-end Text-to-Speech)是一种语音合成方法,它使用预先训练好的语音编码器 (vocoder声码器) 将文本转化为语音。
VITS 的工作流程如下:
(1)将文本输入 VITS 系统,系统会将文本转化为发音规则。
(2)将发音规则输入预先训练好的语音编码器 (vocoder),vocoder 会根据发音规则生成语音信号的特征表示。
(3)将语音信号的特征表示输入预先训练好的语音合成模型,语音合成模型会根据特征表示生成合成语音。
VITS 的优点是生成的语音质量较高,能够生成流畅的语音。但是,VITS 的缺点是需要大量的训练语料来训练 vocoder 和语音合成模型,同时需要较复杂的训练流程。
论文链接:论文地址
2 VITS-fast-fine-tuning介绍
VITS-fast-fine-tuning是在原始VITS(VITS源码)基础上开发出的一站式多speaker训练的傻瓜式版本,简单易用,可以基于VITS-fast-fine-tuning半小时内无需标注训练任意角色的语音,并提供了基础的预训练模型,可以在预训练模型上进行二次训练,实现任意角色的语音生成。
代码地址如下:VITS-fast-fine-tuning源码
训练步骤如下:
(1)准备预训练数据,按照制定格式和路径进行存放,数据无需标注
(2)对数据进行预处理,采用whisper模型进行语音提取和切分,形成标注数据。
whisper的内容详见:whisper
(3)使用提出的带标注的数据进行语音合成训练
本帖子中包含更多资源
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
脆脆鲨
管理员
关注
4885
主题
0
粉丝
0
关注
这家伙很懒,什么都没留下!
OCR文字识别工具和文件整合包
2024-8-28
Topaz Video AI v3.4.4 人工智能视频画质增强和修复软件
2024-8-28
VITS_fast_finetune 语音模型一键训练整合包
2024-8-28
Stable Diffusion整合包v4.9发布!解压即用 防爆显存 三分钟入门AI绘画 ☆更新 ☆训练
2024-8-28
Yolo_v8轻量版全套工具及易模块和例子支持CPU CUDA10 11
2024-8-28
发新帖
24小时热帖
Topaz Video AI v3.4.4 人工智能视频画质增
2024-08-28
VITS_fast_finetune 语音模型一键训练整合
2024-08-28
Stable Diffusion整合包v4.9发布!解压即用
2024-08-28
Yolo_v8轻量版全套工具及易模块和例子支持C
2024-08-28
AI再显神通!将大脑信号转为语音 准确率最
2023-09-20
Copyright © 2001-2025
Discuz Team.
Powered by
Discuz!
X3.5
|
网站地图