1 智能语音对话机器人系统架构 一个完整的智能语音对话机器人系统主要由自动语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)三部分构成,这三部分技术**了语音系统的精准、高效、稳定运行,被称之为语音交互的“三驾马车”。 1)语音识别(ASR) 语音识别能够将用户的语音转换成文字。针对语音识别应用中面临的方言口音、背景噪声等问题,在实际业务系统中所收集的涵盖不同方言和不同类型背景噪声的海量语音数据的基础上通过先进的区分训练方法进行语音建模,能够使语音识别在复杂应用场景下均有良好的效果表现。 在检测语音过程中,语音活性检测 (VAD)语音端点检查,使用音频特征等进行分析,确定人声的开始和结束时间点。 2)自然语言处理(NLP) 自然语言处理狭义上讲包括自然语义理解(NLU)和自然语言生成(NLG)两个方面,前者是指将人类语言转化为标注的机器语言,后者则是指将机器语言转化为人类语言。 在庞大复杂的汉语体系里,NLP帮助产品正确理解人们想要表达的意思,并给出合理的反馈。NLP是语音产品的关键,也是主要难点。 3)语音合成(TTS) 语音合成能够将输入文本实时转换成流畅、清晰、自然、具有表现力的语音数据,输出高质量的语音。