语音AI正成为科技行业新一轮竞争焦点。继文本和图像之后,语音交互正在被推向AI应用的前台。
与过去主要承担“文本转语音”(TTS)功能不同,如今的语音AI正加速向“语音智能体”演进。其能力不再局限于朗读文本,而是进一步扩展到实时对话、情绪识别和任务执行,更接近人与人之间的自然交流。
早期语音AI更像是“会说话的朗读器”,输入文本后输出的语音往往较为机械。近期行业重心则明显转向实时语音交互,相关能力也从基础TTS延伸至实时语音到语音交互、语音识别(STT)、语音克隆,以及在电话或App内直接处理任务的语音智能体。
从应用场景看,呼叫中心被普遍视为语音AI需求最集中的领域。当前相关产品已不只是替代或辅助人工坐席,应用范围还在延伸至合规核验、CRM对接等更复杂环节,落地案例也在持续增加。
技术路线也在快速演进。此前,语音AI通常采用“语音识别—模型理解—文本生成—语音合成”的多阶段流程;而近期的趋势,则是将识别、理解、生成和合成整合进单一模型,推动实时语音到语音一体化方案加快落地。
市场调研机构Grand View Research预计,对话式AI市场规模将从2024年的约115亿美元增至2030年的约414亿美元(约合58万亿韩元),年均复合增长率为23.7%。
在这一背景下,全球科技巨头正把语音AI提升到更核心的位置。OpenAI已正式推出Realtime API,主打可接入电话网络、支持图像输入,并面向生产环境提供语音智能体能力。
Google则通过Gemini Live将实时语音对话服务扩展至45种以上语言,并在智能家居领域推进Gemini for Home,计划以此替代现有的Google Assistant。
Amazon也在借助引入生成式AI的Alexa+加快扩展语音AI业务。Apple则于1月30日收购以色列音频AI初创公司Q.AI。该公司开发了可识别耳语、并在噪声环境中提升音频清晰度的技术。
报道还指出,Apple去年已在AirPods中加入实时翻译等AI功能;与此同时,Q.AI还拥有检测细微面部肌肉活动的技术,未来或可用于改进Apple Vision Pro头显。
韩国初创公司也在加快布局语音AI。Humelo已于2025年推出DIVE(Deep-context Interactive Voice Engine)引擎。
据Humelo介绍,DIVE不仅能够朗读文本,还能理解对话语境和对方情绪。例如,当客户以愤怒语气发起投诉时,AI可识别其情绪,并以更冷静、更具共情力的语气作出道歉和回应。
Humelo CEO Kwon Yongseok表示,在政府AI政策支持和企业技术创新的带动下,韩国并非语音AI领域的后进者,而是正迈入全球领先阵营。Humelo希望凭借DIVE在人类情感理解与沟通促进方面的能力,提升韩国AI在全球市场的影响力。
此外,提供AI配音服务“Typecast”的Neosapience近期也完成了165亿韩元Pre-IPO融资。