Alibaba Group于28日发布最新推理模型Qwen3-Max-Thinking。公司表示,该模型在参数规模扩展至逾1万亿的同时,引入强化学习,在事实性知识处理、复杂推理、指令执行、人类偏好对齐及Agent能力等关键领域实现了性能提升。
据Alibaba Group介绍,Qwen3-Max-Thinking在19项主要基准测试中,与Claude Opus 4.5、Gemini 3 Pro、GPT-5.2-Thinking-xhigh等最新高性能模型相比,表现出较强竞争力。除科学、数学和编程类任务外,该模型在借助搜索工具回答跨领域专家级问题的测试项目中,也取得了较高水平的结果。
Alibaba Group表示,Qwen3-Max-Thinking的亮点主要体现在两项技术创新上。
首先是自适应工具调用(Adaptive Tool-use)。该模型可根据具体场景自主检索信息,并在需要时自动调用内置代码解释器,用户无需手动选择工具,即可更高效地完成问题求解。
其次是测试时扩展(Test-time Scaling)增强方案。Alibaba Group称,这一方法可进一步提升模型推理能力,并使其在主要推理基准测试中取得高于其他高性能模型的成绩。
记者信息