TechRadar：大模型竞争重心转向多语言能力与本土语境理解

AI竞争重心正从“更大的模型”转向对多语言、文化及监管环境的理解能力。图片来源：Reve AI

业界普遍认为，大型语言模型（LLM）下一阶段的竞争焦点，正从模型规模和算力投入，转向多语言能力以及对本土语境的理解。

TechRadar当地时间9日报道称，随着AI在全球市场加速落地，以英语为中心构建的基础模型架构正日益显现瓶颈；多语言理解能力也因此成为主权AI建设中的关键要素之一。

在生成式AI发展的早期阶段，“英语优先”几乎是行业默认路径。公开训练数据主要来自英语互联网，早期模型研发也大多集中在英语主导数字沟通的地区。然而，随着企业和政府将AI进一步引入经济与行政体系，这种结构性偏向所带来的问题正不断显现。

报道指出，“支持多语言”与“真正理解多语言”并不是一回事。当前不少LLM虽然在技术层面支持多种语言，但仍停留在将英语知识转译成其他语言的层面。语言不仅是沟通工具，同时承载着文化背景、语境差异、社会细节以及地方知识体系。

这一局限在全球市场尤为明显。客户服务、金融、医疗、公共服务等领域，高度依赖对地区语言变体和具体语境的准确理解；一旦AI无法正确解读，不仅会影响结果准确性，也会制约落地应用并削弱用户信任。正因如此，市场对AI“超越翻译、直接基于不同语言体系进行推理”的需求持续升温。

TechRadar认为，下一代基础模型需要从“以翻译为中心”的思路，转向“在语言体系内部完成推理”。这不仅意味着增加支持的语言数量，更意味着底层设计理念的调整：训练数据需要覆盖地区语言和方言，学术界、政府和产业界也应协同建设高质量数据集。

在模型架构层面，也需要通过混合专家架构、针对不同语言优化分词策略、设计面向不同语言的推理路径等方式，更高效地处理多种语言体系。与此同时，评测体系也应从以英语任务为中心，扩展至多语言环境下的推理能力、语境理解和文化适配度等指标。

这一趋势也与主权AI（Sovereign AI）的讨论紧密交织。所谓主权AI，是指各国具备开发、部署并自主可控地管理AI系统的能力，使其能够适配本国语言、文化和监管环境。这一概念不仅涉及数据基础设施的控制权、与本国监管体系的一致性，也关系到本土创新生态的培育。特别是在金融、医疗、公共服务等敏感数据场景中，市场对数据存储位置和治理机制的要求正持续提高。

报道还指出，各国政府正将AI视为影响经济竞争力、技术主权和国家安全的战略资产。在这一背景下，语言覆盖度被视为决定AI能否实现包容性普及的重要变量。对于语言多样性较高的国家而言，让公民能够以母语获得AI服务，已成为系统设计中不可忽视的一环。

报道以印度的数字公共基础设施和AI生态为例称，印度依托数字身份管理系统、开放式金融网络和可互操作的公共平台，建立起覆盖大规模用户的基础能力。该案例表明，开放标准、多语言设计和协作型生态，可能成为推动AI普及的关键条件。

随着欧洲和英国也在推进各自的主权AI战略，开放型基础设施、多语言能力和协作型生态的重要性有望进一步上升。TechRadar认为，AI未来的竞争优势，并不取决于模型有多大或训练数据总量有多少，而在于谁能够在多语言、文化和监管环境中设计并运行真正可用的系统。

Jinju Hong hongjj@d-today.co.kr

关键词