Samsung ElectronicsとSK hynixが手掛けるHBM4のイメージ(写真:Shutterstock)

AIインフラのコスト構造で、NVIDIA製GPUに加えてメモリー最適化の重要性が高まっている。ハイパースケーラーによるデータセンター増設を背景にDRAM価格が前年比約7倍に急騰する中、必要なデータを必要なタイミングで処理系に割り当てる「メモリーオーケストレーション」が、新たな競争力の源泉として注目を集めている。TechCrunchが17日に報じた。

これまでAIインフラではGPUがコストの大半を占めるとみられてきた。ただ足元では、メモリーの使い方次第で推論効率や採算が大きく変わるとの見方が広がっている。

TechCrunchによると、メモリーオーケストレーションに優れた企業は、同じクエリをより少ないトークンで処理できる。この差が、最終的には収益性を左右する可能性があるという。

半導体アナリストのダン・オラフリン氏は、Substackへの投稿で、WekaのAI最高責任者バル・ベルコビッチ氏へのインタビュー内容を紹介し、メモリーチップの重要性を強調した。

ベルコビッチ氏は、Anthropicのプロンプトキャッシングに関する説明資料が、この数カ月で大きく複雑化したと指摘した。バル・ベルコビッチ氏は「6〜7カ月前までは、キャッシングを使えば安くなるというシンプルな説明だった。今では、キャッシュ書き込みをどの程度事前に確保すべきかまで扱う内容になっている」と述べた。

論点の一つは、Claudeがプロンプトをキャッシュ上にどれだけ保持するかにある。キャッシュ保持時間は5分や1時間といった単位で選べ、適切に運用すればコストを抑えられる。一方で、新しいデータが入ると既存データが押し出される可能性もあり、管理は容易ではない。

こうした課題は、スタートアップにとっては事業機会にもなる。キャッシュ最適化を強みとするTensorMeshなどが、有力企業として名前が挙がっている。

また、データセンター側ではDRAMとHBMをどう使い分けるかも重要な論点だ。どの場面でHBMではなくDRAMを使うのか、モデルのスウォームをどう構成して共有キャッシュを活用するのかといった設計判断が、運用効率を左右する。

TechCrunchは、企業がメモリーオーケストレーションを高度化できれば、トークン消費を抑えて推論コストを下げられると指摘する。サーバー費用の圧縮を通じて、AIアプリケーションの収益性向上にもつながる可能性がある。

キーワード

#AI #GPU #データセンター #DRAM #HBM #メモリーオーケストレーション #キャッシュ #推論コスト #ハイパースケーラー
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.