什么是文本转语音？

作者：开发笔记 发布时间：2024-08-27 阅读：1

文本转语音是一种语音合成形式，可将任何文本字符串转换为语音输出。研究表明，以类似人类的声音做出响应时，人们会更自在地交流。神经网络使文本转语音系统产生的声音领域得以扩充，而无连接合成的用度或发音合成的复杂性。

将文本低延迟转换为高质量、自然发音的语音，即文本转语音API (TTS)的职能，这是数十年来一直颇具挑战性的任务。起初专为具有视觉障碍或阅读障碍的人群而开发，为使其能够聆听书面文字。如今已经用于驾驶指导、呼叫中心录音转写、会议实时转写、语音输入法、数字人、互动直播、课堂内容分析等多个业务场景。