Alibaba Groupは1月28日、推論モデル「Qwen3-Max-Thinking」を発表した。1兆超のパラメータ規模で強化学習を進めたモデルで、複合推論や指示追従などの性能向上を図ったという。主な技術的特徴として、適応型ツール利用とTest-time Scalingの2点を挙げた。
同社によると、Qwen3-Max-Thinkingは事実に基づく知識処理、複合推論、指示追従、人間の選好との整合性、エージェント機能といった複数の中核領域で性能を高めたとしている。
また、19の主要ベンチマークで、Claude Opus 4.5、Gemini 3 Pro、GPT-5.2-Thinking-xhighなどの高性能モデルと比べても競争力のある結果を示したという。科学、数学、コーディングの問題解決に加え、検索ツールを活用して幅広い分野の専門的な質問に対応する評価項目でも高い成績を収めたとした。
同社は、Qwen3-Max-Thinkingの主な技術的特徴として2点を示した。
1つ目は、適応型ツール利用(Adaptive Tool-use)だ。状況に応じて情報を検索し、内蔵のコードインタープリターを必要に応じて自動で呼び出すことで、利用者がツールを直接選択しなくても効率的な問題解決を支援するという。
2つ目は、高度化したTest-time Scaling(テスト時スケーリング)だ。推論性能を高める手法で、主要な推論ベンチマークでは他の高性能モデルを上回る結果を記録したと説明している。
著者について