Red Hatは、AIエージェントの普及を見据え、AI基盤戦略を再構築した。外部APIや特定ベンダーのモデルに依存する形では、今後のコスト増や運用負荷に耐えにくいと判断し、ハードウェアからエージェントまでをカバーするオープンソースのフルスタック基盤を前面に打ち出す。
Techzineによると、同社はAI活用の重心を、外部サービスを利用する側から、自社インフラ上で直接AIを運用する側へ移しつつある。
CTOのクリス・ライト氏は、「AIトークン単価は年間75〜90%下落している一方、企業環境でのトークン消費量は年間500%超のペースで増えている」と説明した。
さらに同氏は、高度な推論モデルは標準的なモデルの10〜20倍のトークンを消費し、自律型AIエージェントではそこからさらに5倍に膨らむと指摘した。こうした状況から、外部APIや独占的なフロンティアモデルへの依存は、財務面と運用面の両方で長期的な持続性を欠くとみている。
ライト氏は、AIコストを抑えるには、外部サービスを消費する立場から脱し、自社インフラでAIを運用する体制へ移行する必要があると強調した。
こうした考え方に基づき、Red Hatは「Red Hat AI Enterprise」を中核に据える。ハードウェアからエージェントまでを一貫して支える、エンドツーエンドのAIスタックとして展開する方針だ。
Red Hat AI Enterpriseは5層構成で、基盤にはRed Hat Enterprise LinuxとRed Hat OpenShiftを置く。推論レイヤーでは、オープンソースの標準として定着したvLLMに加え、Red Hatが独自開発した分散推論フレームワーク「llm-d」を活用する。
同社によると、llm-dの導入によって、1年間でトークン処理量を3倍に引き上げ、初回応答時間を10分の1に短縮したという。
モデルサービス層では、Model as a Service(MaaS)を通じて、AIモデルを組織内の共有リソースとして提供する。
対応モデルとしては、IBM GraniteやMistralなどのオープンソースモデルを支援する。単一モデルに固定せず、用途に応じて複数のモデルを選択できる設計とした。
AIゲートウェイでは、トークン配分やチームごとのアクセス権、優先順位を一元管理する。これにより、小規模な実証や実験用途によるGPUの過剰消費で、基幹業務が圧迫される事態を防ぐとしている。
最上位層はエージェントサービスだ。ライト氏は、大企業では今後、数千〜数万のエージェントを同時に運用することが日常になる時期が近づいていると説明した。
Red Hatは「AgentOps」を通じて、各エージェントに検証済みのデジタルIDを付与し、バージョン管理と自動化されたセキュリティテストを適用する方針も示した。
また同社は、ハードウェア中立を掲げ、NVIDIA、AMD、Intelなど幅広いアクセラレータに対応する。NVIDIAとはAIファクトリーを共同構築し、Blackwell GPUをネイティブでサポートする。
ライト氏はあわせて、オープンソースモデルと独占モデルの性能差が急速に縮小している点にも言及した。Meta Llama 2が初期のChatGPT水準に到達するまで8カ月を要したのに対し、DeepSeek-R1はOpenAI o1の投入から5カ月で同水準に追いついたという。
その上で同氏は、「単一ベンダーへの長期依存を前提としたAI戦略は極めて危険だ」と警鐘を鳴らした。