率先解决在公共场合噪音环境下的语音交互问题,在地铁,餐饮店等公众场景下实现了高体验的语音交互。该套方案中集合了语音识别,自然语言理解,对话管理,音频信号处理,语音合成,机器视觉等多项人工智能技术,给用户提供一种全新的,多模态的语音交互方式。
在嘈杂的公共环境中提供高质量的语音交互服务,给用户带来全新体验的同时提高了商家的服务效率、为商家节约成本。比如地铁语音售票机,用户说出目的地,售票机会自动找到相应地铁站并推荐最佳换乘路线;语音购物机可以大幅提高用户的点餐效率,并结合用户特性实现商品推荐等。
1.强噪音环境下语音识别,识别准确率高达90%以上。
2.免唤醒语音交互,用户无需说唤醒词,交互更自然。
3.流式自然语言理解,单句话多意图,交互效率更高。
4.全本地机器视觉,本地人脸检测算法,进一步辅助提高噪音下的语音识别性能,并可以提供用户的年龄/性别等信息。
5.超高拟真语音合成,真人相似度高达97%,让语音合成具备感情。