网站直达
1.VALL-E是一种用于文本到语音合成(TTS)的语言建模方法。具体来说,我们使用从现成的神经音频编解码器模型中导出的离散码来训练神经编解码器语言模型(称为VALL-E),并将TTS视为条件语言建模任务,而不是像以前的工作那样进行连续信号回归。在预训练阶段,我们将TTS训练数据扩展到6万小时的英语语音,这是现有系统的数百倍。VALL-E出现在上下文学习能力中,可用于合成高质量的个性化语音,只需对看不见的说话者进行3秒的注册录音作为声学提示。实验结果表明,VALL-E在语音自然度和说话者相似度方面显著优于现有的零样本TTS系统。此外,我们发现VALL-E可以在合成中保留说话者的情感和声提示的声环境。
此页面仅用于研究演示目的。
2.模型概述
与之前的流水线(例如音素→梅尔谱图→波形)不同,VALL-e的流水线是音素→离散码→波形。VALL-E基于音素和声学代码提示生成离散的音频编解码器代码,对应于目标内容和说话者的语音。VALL-E直接启用各种语音合成应用程序,如零样本TTS、语音编辑和内容创建,并与GPT等其他生成人工智能模型相结合。
3.多样性的综合
得益于基于采样的离散令牌生成方法,在给定一对文本和说话者提示的情况下,VALL-E可以合成具有不同随机种子的各种个性化语音样本。
声环境维护
4.VALL-E可以在保持说话者提示的声学环境的同时合成个性化语音。音频和转录是从Fisher数据集中采样的。
演讲者情绪维护
5.VALL-E可以合成个性化语音,同时保持说话者提示中的情感。音频提示是从情感声音数据库中采样的。
更多样品
6.我们从LibriSpeech测试干净集中随机选择了一些转录和3s音频片段作为文本和说话者提示,然后使用VALL-E合成个性化语音。请注意,转录和音频片段来自不同的说话者,没有真实语音可供参考。
7.道德声明
VALL-E可以合成保持说话者身份的语音,可用于教育学习、娱乐、新闻、自主内容、可访问性功能、交互式语音应答系统、翻译、聊天机器人等。虽然VALL-E能像语音天赋一样说话,但相似性和自然性取决于语音提示的长度和质量、背景噪音以及其他因素。它可能会带来滥用模型的潜在风险,例如欺骗语音识别或冒充特定说话者。我们在假设用户同意成为语音合成中的目标说话者的情况下进行了实验。如果该模型被推广到现实世界中看不见的说话者,它应该包括一个协议,以确保说话者批准使用他们的声音和一个合成的语音检测模型。如果您怀疑VALL-E被滥用或非法使用,或侵犯了您或他人的权利,您可以在报告滥用门户网站上报告。
一、技术特点
-
基于离散编码:
- 与传统的TTS模型不同,VALL-E不使用梅尔频谱(mel spectrum)作为语音的中间表示,而是使用离散的编码(discrete audio codec codes)。
- 这种离散编码是由神经音频编解码器模型EnCodec提取的,它可以将音频分解成离散的组件(称为“令牌”),这些组件可以被用来训练VALL-E模型。
-
神经编解码语言模型:
- VALL-E被设计为一个神经编解码语言模型,它根据音素和声学提示生成离散的音频编解码代码,这些代码对应于目标内容和说话人的声音。
- 在推理阶段,VALL-E可以使用给定的文本提示和3秒钟的声学提示来合成出想要的声音。
-
层级结构:
- VALL-E的编码具有层级结构,第一层通常包含说话人的音色等相关的声学特征,而第二层到第八层则学习到更加细节的东西。
- 因此,VALL-E设计了两层的结构:自回归模型用于预测第一层令牌,非自回归模型用于预测第二层到第八层令牌。
二、功能与应用
-
zero-shot语音合成:
- VALL-E可以在没有见过说话人的情况下,仅通过3秒钟的语音样本就合成出该说话人的声音。
- 这种能力使得VALL-E在语音合成领域具有广泛的应用前景,如个性化语音合成、语音编辑等。
-
保持情感和声学环境:
- VALL-E不仅可以合成说话人的声音,还可以保持说话人的情感基调和声学环境。
- 这意味着VALL-E可以合成出更加自然、真实的语音,使得语音合成的应用更加广泛和深入。
-
与其他模型的结合:
- VALL-E可以与其他生成类的人工智能模型(如 ** -3)结合使用,用于音频内容的创作。
- 这种结合可以进一步拓展VALL-E的应用场景和潜力。
三、训练与评估
-
训练数据:
- VALL-E在由Meta组建的名为LibriLight的音频库上进行了训练。该音频库包含了来自7000多名演讲者的60000小时的英语演讲内容。
- 这种大规模的训练数据使得VALL-E能够学习到更加丰富的语音特征和模式。
-
评估结果:
- 在语音自然度和说话人相似度方面,VALL-E明显优于最先进的zero-shot TTS系统。
- 在LibriSpeech和VCTK数据集上的评估结果表明,VALL-E的合成语音与人类录音在语音自然度和相似度方面都非常接近。
四、社会影响与伦理考量
-
潜在风险:
- 由于VALL-E可以合成说话人身份的语音,因此存在被滥用模型进行 ** 或冒充特定说话者的潜在风险。
- 这种风险可能引发一系列的社会问题和法律纠纷。
-
道德声明:
- 微软在发布VALL-E时附加了一份简短的道德声明,指出实验是在假设模型的用户是目标说话者并已得到说话者的批准的情况下进行的。
- 这表明微软在开发和应用VALL-E时充分考虑了伦理和道德问题。
综上所述,VALL-E是一个具有强大功能和广泛应用前景的zero-shot TTS模型。然而,在享受其带来的便利和乐趣的同时,也需要警惕其可能带来的潜在风险和社会影响。