依托 Apple 硬件和外部存储方案,超大模型在终端设备上的本地运行取得新进展,端侧AI的可行性再度受到关注。
据日本科技媒体 Gigazine 当地时间24日报道称,这一尝试源于 AI 研究员 Dan Woods 的实验。Dan Woods 采用“LLM in a Flash”方法,实现了对超出DRAM容量的大语言模型的本地运行。该方案的核心是将模型权重存放在外部闪存中,并在需要时再调入内存。
Dan Woods 在一台配备209GB存储、48GB内存的 MacBook Pro 上,运行了约3970亿参数(397B)的定制模型“Qwen3.5-397B-A17B”。该模型采用 MoE(混合专家)架构,推理时仅激活部分权重,因此无需一次性将全部权重载入内存。
测试结果显示,该模型平均推理速度约为5.7个token/s,峰值约7.07个token/s。在约5.5GB内存占用下,输出质量仍具可用性。
随后,AI 研究员 ANEMLL 又在 iPhone 17 Pro 上进行了类似实验,并以约0.7个token/s的速度完成模型运行。对于这一进展,Dan Woods 以“WHAT”回应,表达了自己的惊讶。
另一个引发关注的点是,此次实验的大部分代码由 Claude Opus 4.6 编写。Dan Woods 表示,自己主要提供思路和资料,具体实现则由 AI 完成;相关技术此前已经存在,但真正落地的门槛一直较高。
业内认为,这一案例释放出AI能力由云端向端侧延伸的可能信号。不过,从速度和效率来看,距离商业化应用仍有差距,后续仍需进一步改进相关技术。