iPhone本地运行近400B参数大模型迎来新进展

生成中...

Jinju Hong

发布时间 2026-03-25 13:44:39

搜索关键词

依托 Apple 硬件和外部存储方案，超大模型在终端设备上的本地运行取得新进展，端侧AI的可行性再度受到关注。

据日本科技媒体 Gigazine 当地时间24日报道称，这一尝试源于 AI 研究员 Dan Woods 的实验。Dan Woods 采用“LLM in a Flash”方法，实现了对超出DRAM容量的大语言模型的本地运行。该方案的核心是将模型权重存放在外部闪存中，并在需要时再调入内存。

Dan Woods 在一台配备209GB存储、48GB内存的 MacBook Pro 上，运行了约3970亿参数（397B）的定制模型“Qwen3.5-397B-A17B”。该模型采用 MoE（混合专家）架构，推理时仅激活部分权重，因此无需一次性将全部权重载入内存。

测试结果显示，该模型平均推理速度约为5.7个token/s，峰值约7.07个token/s。在约5.5GB内存占用下，输出质量仍具可用性。

随后，AI 研究员 ANEMLL 又在 iPhone 17 Pro 上进行了类似实验，并以约0.7个token/s的速度完成模型运行。对于这一进展，Dan Woods 以“WHAT”回应，表达了自己的惊讶。

另一个引发关注的点是，此次实验的大部分代码由 Claude Opus 4.6 编写。Dan Woods 表示，自己主要提供思路和资料，具体实现则由 AI 完成；相关技术此前已经存在，但真正落地的门槛一直较高。

业内认为，这一案例释放出AI能力由云端向端侧延伸的可能信号。不过，从速度和效率来看，距离商业化应用仍有差距，后续仍需进一步改进相关技术。

Jinju Hong hongjj@d-today.co.kr