Apple製デバイスと外部ストレージを組み合わせ、超大型の人工知能(AI)モデルをオンデバイスで動作させる実験が成功した。クラウド依存を前提としてきた大規模言語モデル(LLM)を、端末側で処理する可能性として注目を集めている。
Gigazineは24日(現地時間)に報じた。発端となったのは、AI研究者ダン・ウッズ氏による実験だ。
ウッズ氏は「LLM in a Flash」と呼ぶ手法を用い、DRAM容量を上回るLLMの実行に成功した。モデルの重みを外部フラッシュメモリに保存し、必要なときだけRAMへ読み込む仕組みで、限られたメモリでも超大型モデルを動かせるようにした。
同氏は、ストレージ容量209GB、RAM 48GBのMacBook Proで、約3970億(397B)パラメータのカスタムモデル「Qwen3.5-397B-A17B」を動作させた。このモデルはMoE(Mixture of Experts)構造を採用しており、一部の重みだけを使うことで、全体をメモリに載せずに推論できるという。
処理速度は毎秒約5.7トークンで、最大では毎秒7.07トークンを記録した。約5.5GBのメモリでも、実用的な出力品質を維持したとしている。
その後、AI研究者のANEMLL氏がiPhone 17 Proで類似の実験を行い、毎秒0.7トークンの速度でモデルを動作させた。これを受け、ウッズ氏は「WHAT」と反応した。
今回の実験は、コードの大半がClaude Opus 4.6によって生成された点でも注目される。ウッズ氏は、自身はアイデアと資料を示しただけで、実装の多くはAIが担ったと説明した。手法そのものは以前から存在していたが、実装のハードルが高かったという。
業界では今回の事例について、AIの重心がクラウド中心からオンデバイスへ移る可能性を示すものだとの見方が出ている。一方で、速度や効率の面ではなお課題があり、商用化には追加の技術改善が必要との評価もある。