图片来源:Shutterstock

据SiliconANGLE当地时间5日报道,Microsoft已正式开源150亿参数多模态模型Phi-4-reasoning-vision-15B。

该模型基于SigLIP-2,并结合Phi-4推理能力,面向科学、数学图表等多模态数据处理场景进行了优化。

在多模态模型架构上,常见做法是在所有层中处理多模态数据,而Microsoft采用了“中期融合”方案,仅在部分层支持多模态处理。此举以一定的输出质量权衡为代价,换取更低的算力消耗和硬件需求。该模型还支持通过特定提示词控制是否启用推理能力。

在训练方面,Microsoft主要使用开源数据,并引入图像及相应文本描述进行训练。训练过程中,Microsoft对高质量数据集进行了筛选,并借助OpenAI GPT-4o和o4-mini纠正不准确的图像说明。此外,训练数据还包括内部生成数据、从特定企业获得的高质量数据,以及用于规避不当行为的示例数据。

根据Microsoft公布的评测结果,Phi-4-reasoning-vision-15B的评分比Google gemma-3-12b-it高出17%。Microsoft称,该模型在数学和科学任务上表现突出,并在保持与部分需要更多计算时间和Token消耗模型相近性能的同时,实现了更高效率。

目前,Microsoft已通过Hugging Face、GitHub和Azure发布该模型。

关键词

#Microsoft #Phi-4-reasoning-vision-15B #多模态模型 #开源模型 #中期融合 #SigLIP-2 #Hugging Face #GitHub #Azure #Google #gemma-3-12b-it
版权所有 © DigitalToday。未经授权禁止转载或传播。