搜索关键词 视觉理解
AI & Enterprise
外媒实测Gemini 3.5 Flash:代码生成、长上下文推理与多模态任务表现突出
Google在I/O 2026上集中展示Gemini多项新能力,Gemini 3.5 Flash则被视为更强调实用性的主力模型。外媒在代码生成、行程规划、手工制作、清洁方案和并行推理等五类场景中测试后认为,该模型在上下文保持、任务切换和多条件处理方面表现突出。不过,若要覆盖更多真实工作场景,其可获得的信息权限及相应的管理和控制能力仍是关键。
AI & Enterprise
Google推出机器人模型Gemini Robotics ER 1.6,强化视觉与物理推理
Google推出面向机器人的AI模型Gemini Robotics ER 1.6,重点升级视觉理解、空间感知和物理推理能力。新模型支持处理多步骤指令,可调用Google搜索并结合外部函数完成任务,同时新增模拟仪表读数能力,提升多摄像头画面理解,并进一步强化液体处理和超过20公斤搬运等安全规则约束。
AI & Enterprise
LG AI Research推出多模态大模型EXAONE 4.5,聚焦复杂文档理解与推理
LG AI Research发布多模态大模型EXAONE 4.5,面向合同、技术图纸、财务报表等复杂文档场景,突出文档理解与推理能力。该模型在STEM、视觉理解、文档推理和编码等多项基准测试中取得领先成绩,并已在Hugging Face开放用于研究、学术和教学用途,支持语种也进一步扩展。