StableTTS：轻量TTS模型，专为汉语和英语语音生成服务

软件素材1年前 (2024)发布 admin

381 0 7

项目简介

作为第一个尝试将流匹配和 DiT 相结合的开源 TTS 模型，StableTTS 是一款用于中英文语音生成的快速轻量级 TTS 模型。它只有 10M 参数。

目前工作正在进行中。预训练模型和详细说明即将发布！

有关详细的推理说明，请参阅 inference.ipynb

使用 StableTTS 设置和训练模型非常简单。请按照以下步骤开始操作：

生成文本和音频对：将文本和音频对文件列表生成为 ./filelists/example.txt 。开源数据集的一些配方可以在中找到 ./recipes 。（由于我们使用参考编码器来捕获说话人身份，因此在多说话人合成和训练中不需要说话人 ID。
运行预处理：调整 DataConfig 输入 preprocess.py 以设置输入和输出路径，然后运行脚本。这将根据您的列表处理音频和文本，输出一个 JSON 文件，其中包含重新采样音频、mel 特征和音素的路径。注意：确保切换 chinese=False DataConfig 到英语文本处理。