Microsoft开源150亿参数多模态模型Phi-4-reasoning-vision-15B

生成中...

Hwang Chi-kyu

发布时间 2026-03-05 11:41:36

搜索关键词

据SiliconANGLE当地时间5日报道，Microsoft已正式开源150亿参数多模态模型Phi-4-reasoning-vision-15B。

该模型基于SigLIP-2，并结合Phi-4推理能力，面向科学、数学图表等多模态数据处理场景进行了优化。

在多模态模型架构上，常见做法是在所有层中处理多模态数据，而Microsoft采用了“中期融合”方案，仅在部分层支持多模态处理。此举以一定的输出质量权衡为代价，换取更低的算力消耗和硬件需求。该模型还支持通过特定提示词控制是否启用推理能力。

在训练方面，Microsoft主要使用开源数据，并引入图像及相应文本描述进行训练。训练过程中，Microsoft对高质量数据集进行了筛选，并借助OpenAI GPT-4o和o4-mini纠正不准确的图像说明。此外，训练数据还包括内部生成数据、从特定企业获得的高质量数据，以及用于规避不当行为的示例数据。

根据Microsoft公布的评测结果，Phi-4-reasoning-vision-15B的评分比Google gemma-3-12b-it高出17%。Microsoft称，该模型在数学和科学任务上表现突出，并在保持与部分需要更多计算时间和Token消耗模型相近性能的同时，实现了更高效率。

目前，Microsoft已通过Hugging Face、GitHub和Azure发布该模型。

Hwang Chi-kyu delight@d-today.co.kr