业界普遍认为,大型语言模型(LLM)下一阶段的竞争焦点,正从模型规模和算力投入,转向多语言能力以及对本土语境的理解。
TechRadar当地时间9日报道称,随着AI在全球市场加速落地,以英语为中心构建的基础模型架构正日益显现瓶颈;多语言理解能力也因此成为主权AI建设中的关键要素之一。
在生成式AI发展的早期阶段,“英语优先”几乎是行业默认路径。公开训练数据主要来自英语互联网,早期模型研发也大多集中在英语主导数字沟通的地区。然而,随着企业和政府将AI进一步引入经济与行政体系,这种结构性偏向所带来的问题正不断显现。
报道指出,“支持多语言”与“真正理解多语言”并不是一回事。当前不少LLM虽然在技术层面支持多种语言,但仍停留在将英语知识转译成其他语言的层面。语言不仅是沟通工具,同时承载着文化背景、语境差异、社会细节以及地方知识体系。
这一局限在全球市场尤为明显。客户服务、金融、医疗、公共服务等领域,高度依赖对地区语言变体和具体语境的准确理解;一旦AI无法正确解读,不仅会影响结果准确性,也会制约落地应用并削弱用户信任。正因如此,市场对AI“超越翻译、直接基于不同语言体系进行推理”的需求持续升温。
TechRadar认为,下一代基础模型需要从“以翻译为中心”的思路,转向“在语言体系内部完成推理”。这不仅意味着增加支持的语言数量,更意味着底层设计理念的调整:训练数据需要覆盖地区语言和方言,学术界、政府和产业界也应协同建设高质量数据集。
在模型架构层面,也需要通过混合专家架构、针对不同语言优化分词策略、设计面向不同语言的推理路径等方式,更高效地处理多种语言体系。与此同时,评测体系也应从以英语任务为中心,扩展至多语言环境下的推理能力、语境理解和文化适配度等指标。
这一趋势也与主权AI(Sovereign AI)的讨论紧密交织。所谓主权AI,是指各国具备开发、部署并自主可控地管理AI系统的能力,使其能够适配本国语言、文化和监管环境。这一概念不仅涉及数据基础设施的控制权、与本国监管体系的一致性,也关系到本土创新生态的培育。特别是在金融、医疗、公共服务等敏感数据场景中,市场对数据存储位置和治理机制的要求正持续提高。
报道还指出,各国政府正将AI视为影响经济竞争力、技术主权和国家安全的战略资产。在这一背景下,语言覆盖度被视为决定AI能否实现包容性普及的重要变量。对于语言多样性较高的国家而言,让公民能够以母语获得AI服务,已成为系统设计中不可忽视的一环。
报道以印度的数字公共基础设施和AI生态为例称,印度依托数字身份管理系统、开放式金融网络和可互操作的公共平台,建立起覆盖大规模用户的基础能力。该案例表明,开放标准、多语言设计和协作型生态,可能成为推动AI普及的关键条件。
随着欧洲和英国也在推进各自的主权AI战略,开放型基础设施、多语言能力和协作型生态的重要性有望进一步上升。TechRadar认为,AI未来的竞争优势,并不取决于模型有多大或训练数据总量有多少,而在于谁能够在多语言、文化和监管环境中设计并运行真正可用的系统。