语音智能体竞争升温，韩国初创公司加快布局

语音AI正成为科技行业新一轮竞争焦点。继文本和图像之后，语音交互正在被推向AI应用的前台。

与过去主要承担“文本转语音”（TTS）功能不同，如今的语音AI正加速向“语音智能体”演进。其能力不再局限于朗读文本，而是进一步扩展到实时对话、情绪识别和任务执行，更接近人与人之间的自然交流。

早期语音AI更像是“会说话的朗读器”，输入文本后输出的语音往往较为机械。近期行业重心则明显转向实时语音交互，相关能力也从基础TTS延伸至实时语音到语音交互、语音识别（STT）、语音克隆，以及在电话或App内直接处理任务的语音智能体。

从应用场景看，呼叫中心被普遍视为语音AI需求最集中的领域。当前相关产品已不只是替代或辅助人工坐席，应用范围还在延伸至合规核验、CRM对接等更复杂环节，落地案例也在持续增加。

技术路线也在快速演进。此前，语音AI通常采用“语音识别—模型理解—文本生成—语音合成”的多阶段流程；而近期的趋势，则是将识别、理解、生成和合成整合进单一模型，推动实时语音到语音一体化方案加快落地。

市场调研机构Grand View Research预计，对话式AI市场规模将从2024年的约115亿美元增至2030年的约414亿美元（约合58万亿韩元），年均复合增长率为23.7%。

在这一背景下，全球科技巨头正把语音AI提升到更核心的位置。OpenAI已正式推出Realtime API，主打可接入电话网络、支持图像输入，并面向生产环境提供语音智能体能力。

Google则通过Gemini Live将实时语音对话服务扩展至45种以上语言，并在智能家居领域推进Gemini for Home，计划以此替代现有的Google Assistant。

Amazon也在借助引入生成式AI的Alexa+加快扩展语音AI业务。Apple则于1月30日收购以色列音频AI初创公司Q.AI。该公司开发了可识别耳语、并在噪声环境中提升音频清晰度的技术。

报道还指出，Apple去年已在AirPods中加入实时翻译等AI功能；与此同时，Q.AI还拥有检测细微面部肌肉活动的技术，未来或可用于改进Apple Vision Pro头显。

韩国初创公司也在加快布局语音AI。Humelo已于2025年推出DIVE（Deep-context Interactive Voice Engine）引擎。

据Humelo介绍，DIVE不仅能够朗读文本，还能理解对话语境和对方情绪。例如，当客户以愤怒语气发起投诉时，AI可识别其情绪，并以更冷静、更具共情力的语气作出道歉和回应。

Humelo CEO Kwon Yongseok表示，在政府AI政策支持和企业技术创新的带动下，韩国并非语音AI领域的后进者，而是正迈入全球领先阵营。Humelo希望凭借DIVE在人类情感理解与沟通促进方面的能力，提升韩国AI在全球市场的影响力。

此外，提供AI配音服务“Typecast”的Neosapience近期也完成了165亿韩元Pre-IPO融资。

Chi-gyu Hwang delight@d-today.co.kr