Microsoftが、150億パラメータ規模のマルチモーダルAIモデル「Phi-4-reasoning-vision-15B」をオープンソースで公開した。SiliconANGLEが5日付で報じた。モデルはHugging Face、GitHub、Azureで提供している。
Phi-4-reasoning-vision-15Bは、SigLIP-2とPhi-4 Reasoningを組み合わせて構築したモデル。科学・数学分野のグラフを含むマルチモーダルデータの処理に最適化したという。
一般的なAIモデルは、全レイヤーでマルチモーダルデータを処理する。一方、Microsoftは一部レイヤーのみがマルチモーダル処理を担う「ミッドフュージョン」方式を採用した。出力品質との一定のトレードオフはあるものの、ハードウェア負担を大幅に抑えられるとしている。
また、特定のプロンプトによって、推論機能を有効・無効に切り替えられる。
学習には主に公開データを用い、画像とそのテキスト説明も活用した。高品質なデータセットを選別したうえで、OpenAIのGPT-4oとo4-miniを使い、不正確なキャプションを修正したとしている。
このほか、社内生成データに加え、特定企業から提供を受けた高品質データや、不適切な挙動を抑えるためのサンプルデータも学習に組み込んだ。
性能評価では、Phi-4-reasoning-vision-15BはGoogleの「gemma-3-12b-it」を17%上回るスコアを記録した。特に数学・科学分野で高い性能を示し、より多くの計算時間やトークンを必要とするモデルと同等水準の性能を維持したとMicrosoftは説明している。