简体中文 < 文章列表 - 数字今日 (DigitalToday)

搜索关键词视觉理解

AI & Enterprise

外媒实测Gemini 3.5 Flash：代码生成、长上下文推理与多模态任务表现突出

Google在I/O 2026上集中展示Gemini多项新能力，Gemini 3.5 Flash则被视为更强调实用性的主力模型。外媒在代码生成、行程规划、手工制作、清洁方案和并行推理等五类场景中测试后认为，该模型在上下文保持、任务切换和多条件处理方面表现突出。不过，若要覆盖更多真实工作场景，其可获得的信息权限及相应的管理和控制能力仍是关键。

AI & Enterprise

Google推出机器人模型Gemini Robotics ER 1.6，强化视觉与物理推理

Google推出面向机器人的AI模型Gemini Robotics ER 1.6，重点升级视觉理解、空间感知和物理推理能力。新模型支持处理多步骤指令，可调用Google搜索并结合外部函数完成任务，同时新增模拟仪表读数能力，提升多摄像头画面理解，并进一步强化液体处理和超过20公斤搬运等安全规则约束。

AI & Enterprise

LG AI Research推出多模态大模型EXAONE 4.5，聚焦复杂文档理解与推理

LG AI Research发布多模态大模型EXAONE 4.5，面向合同、技术图纸、财务报表等复杂文档场景，突出文档理解与推理能力。该模型在STEM、视觉理解、文档推理和编码等多项基准测试中取得领先成绩，并已在Hugging Face开放用于研究、学术和教学用途，支持语种也进一步扩展。

AI & Enterprise

Moonshot AI发布Kimi K2.5，主打编程与视觉理解

2026.01.28 05:34