简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词 Aime

Industry

Figure AI公布10小时快递分拣测试结果：实习生Aime以微弱优势胜过F.03

Figure AI近日公开了一场人形机器人与人类实习生的10小时快递分拣测试结果。实习生Aime共处理12924件包裹，略高于F.03的12732件，平均处理时间分别为2.79秒和2.83秒。尽管单次测试中人类小幅领先，但业内认为，机器人在无需休息、可持续作业方面具备更强的长期潜力。与此同时，Microsoft AI负责人Mustafa Suleyman表示，未来12至18个月内，部分基于计算机的工作岗位或将加快实现自动化。

AI & Enterprise

美NIST旗下CAISI评测：DeepSeek V4 Pro接近GPT-5水平，与美国最新头部模型仍差约8个月

美国国家标准与技术研究院（NIST）旗下CAISI发布评测报告称，DeepSeek V4 Pro目前在中国同类模型中表现最强，但按综合表现判断，与美国最新头部模型相比仍有约8个月差距。报告显示，该模型综合评分较Kimi K2.5高约200分；在成本效率方面，较OpenAI GPT-5.4 mini高出41%至53%。

AI & Enterprise

OpenAI将ChatGPT默认模型升级为GPT-5.5 Instant，可结合历史对话并调用Gmail内容

OpenAI已将ChatGPT默认模型从GPT-5.3 Instant升级为GPT-5.5 Instant。官方表示，新模型在法律、医疗、金融等敏感场景中可减少幻觉，同时延续低延迟表现；在AIME 2025和MMMU-Pro两项基准测试中的成绩也较上一代提升。新版本还可结合搜索工具、历史对话、文件和Gmail内容，生成更个性化的回复。

搜索关键词 Aime

Figure AI公布10小时快递分拣测试结果：实习生Aime以微弱优势胜过F.03

美NIST旗下CAISI评测：DeepSeek V4 Pro接近GPT-5水平，与美国最新头部模型仍差约8个月

OpenAI将ChatGPT默认模型升级为GPT-5.5 Instant，可结合历史对话并调用Gmail内容

Google DeepMind发布Gemma 4，性能升级并转向Apache 2.0开源许可

Upstage推出大语言模型Solar Pro 3：参数规模升至1020亿