米ITメディアのArs Technicaは21日(現地時間)、主要な生成AIモデルの比較評価で、GoogleのGeminiがOpenAIのChatGPTを4勝3敗1分で上回ったと報じた。回答の正確さや実用性、信頼性ではGeminiが優位だった一方、創造性や緊急対応を想定した設問ではChatGPTに軍配が上がった。
今回の比較では、創造性、情報の正確さ、問題解決能力など複数の観点から両モデルを検証した。その結果、総合ではGeminiがChatGPTをわずかに上回ったという。
情報の正確さと実用的な助言では、Geminiの強さが目立った。「3.5インチのフロッピーディスクでWindows 11をインストールするには何枚必要か」という問いに対し、Geminiは単位を統一したうえで、計算過程と結論を明確に示した。これに対しChatGPTは、GBとGiBを混在させたため、不正確な回答になったとされる。
一方、「Boeing 737-800をどう着陸させるか」を問う緊急対応テストでは、ChatGPTが高く評価された。Geminiは具体的な操縦手順を列挙したものの、専門家の検証では、実際には危険を伴う可能性があると判断された。これに対しChatGPTは、非専門家に操縦を促すのではなく、まず管制塔への連絡を促すなど、安全性を重視した現実的な助言を示した。
創造性の評価でもChatGPTが優位だった。「エイブラハム・リンカーンがバスケットボールを発明した物語」を創作するテストでは、ChatGPTはユーモアを交えた細部描写で、完成度の高い物語に仕上げた。Geminiは論理的な破綻を含み、完成度で見劣りした。
信頼性の面ではGeminiが上回った。ChatGPTは「Super Mario Bros.」の攻略に関する質問で、実在しない地形に言及したり、誤った操作方法を示したりするなど、ハルシネーションが確認された。Geminiはゲームの仕組みを正確に捉え、実用的な攻略法を提示したという。
Ars Technicaは、Googleが2023年時点の比較に比べてOpenAIとの差を大きく縮めたと評価した。記事では、Appleが次期iPhone向けAI機能の有力候補としてGeminiを検討している背景にも、こうした情報伝達力や実用性、信頼性の向上がある可能性を指摘している。
今回の結果は、生成AI市場の競争構図が改めて変化しつつあることを示している。OpenAIが先行してきた分野でGoogleも技術の完成度を高めており、両社の主導権争いは今後さらに激しくなりそうだ。