Microsoft、150億パラメータ規模のマルチモーダルAI「Phi-4-reasoning-vision-15B」を公開

生成中...

Hwang Chi-kyu

公開 2026-03-05 11:41:36

この記事を共有

Microsoftが、150億パラメータ規模のマルチモーダルAIモデル「Phi-4-reasoning-vision-15B」をオープンソースで公開した。SiliconANGLEが5日付で報じた。モデルはHugging Face、GitHub、Azureで提供している。

Phi-4-reasoning-vision-15Bは、SigLIP-2とPhi-4 Reasoningを組み合わせて構築したモデル。科学・数学分野のグラフを含むマルチモーダルデータの処理に最適化したという。

一般的なAIモデルは、全レイヤーでマルチモーダルデータを処理する。一方、Microsoftは一部レイヤーのみがマルチモーダル処理を担う「ミッドフュージョン」方式を採用した。出力品質との一定のトレードオフはあるものの、ハードウェア負担を大幅に抑えられるとしている。

また、特定のプロンプトによって、推論機能を有効・無効に切り替えられる。

学習には主に公開データを用い、画像とそのテキスト説明も活用した。高品質なデータセットを選別したうえで、OpenAIのGPT-4oとo4-miniを使い、不正確なキャプションを修正したとしている。

このほか、社内生成データに加え、特定企業から提供を受けた高品質データや、不適切な挙動を抑えるためのサンプルデータも学習に組み込んだ。

性能評価では、Phi-4-reasoning-vision-15BはGoogleの「gemma-3-12b-it」を17％上回るスコアを記録した。特に数学・科学分野で高い性能を示し、より多くの計算時間やトークンを必要とするモデルと同等水準の性能を維持したとMicrosoftは説明している。

Hwang Chi-kyu delight@d-today.co.kr

生成中...

AI要約

Microsoftは150億パラメータのマルチモーダルAIモデル「Phi-4-reasoning-vision-15B」をオープンソースで公開した。科学・数学分野のグラフを含むデータ処理に最適化し、Hugging FaceやGitHub、Azureで提供している。