该实验被视为在移动设备上运行大模型的一次新尝试。图片来源:Reve AI

依托 Apple 硬件和外部存储方案,超大模型在终端设备上的本地运行取得新进展,端侧AI的可行性再度受到关注。

据日本科技媒体 Gigazine 当地时间24日报道称,这一尝试源于 AI 研究员 Dan Woods 的实验。Dan Woods 采用“LLM in a Flash”方法,实现了对超出DRAM容量的大语言模型的本地运行。该方案的核心是将模型权重存放在外部闪存中,并在需要时再调入内存。

Dan Woods 在一台配备209GB存储、48GB内存的 MacBook Pro 上,运行了约3970亿参数(397B)的定制模型“Qwen3.5-397B-A17B”。该模型采用 MoE(混合专家)架构,推理时仅激活部分权重,因此无需一次性将全部权重载入内存。

测试结果显示,该模型平均推理速度约为5.7个token/s,峰值约7.07个token/s。在约5.5GB内存占用下,输出质量仍具可用性。

随后,AI 研究员 ANEMLL 又在 iPhone 17 Pro 上进行了类似实验,并以约0.7个token/s的速度完成模型运行。对于这一进展,Dan Woods 以“WHAT”回应,表达了自己的惊讶。

另一个引发关注的点是,此次实验的大部分代码由 Claude Opus 4.6 编写。Dan Woods 表示,自己主要提供思路和资料,具体实现则由 AI 完成;相关技术此前已经存在,但真正落地的门槛一直较高。

业内认为,这一案例释放出AI能力由云端向端侧延伸的可能信号。不过,从速度和效率来看,距离商业化应用仍有差距,后续仍需进一步改进相关技术。

关键词

#端侧AI #LLM in a Flash #Dan Woods #ANEMLL #Qwen3.5-397B-A17B #MoE #外部闪存 #iPhone 17 Pro #Claude Opus 4.6
版权所有 © DigitalToday。未经授权禁止转载或传播。