搜索关键词 视觉理解
AI & Enterprise
Google推出机器人模型Gemini Robotics ER 1.6,强化视觉与物理推理
Google推出面向机器人的AI模型Gemini Robotics ER 1.6,重点升级视觉理解、空间感知和物理推理能力。新模型支持处理多步骤指令,可调用Google搜索并结合外部函数完成任务,同时新增模拟仪表读数能力,提升多摄像头画面理解,并进一步强化液体处理和超过20公斤搬运等安全规则约束。
AI & Enterprise
LG AI Research推出多模态大模型EXAONE 4.5,聚焦复杂文档理解与推理
LG AI Research发布多模态大模型EXAONE 4.5,面向合同、技术图纸、财务报表等复杂文档场景,突出文档理解与推理能力。该模型在STEM、视觉理解、文档推理和编码等多项基准测试中取得领先成绩,并已在Hugging Face开放用于研究、学术和教学用途,支持语种也进一步扩展。
AI & Enterprise
Moonshot AI发布Kimi K2.5,主打编程与视觉理解
据The Information报道,中国大模型初创公司Moonshot AI发布新一代基础模型Kimi K2.5,进一步强化编程和视觉理解能力。该模型支持文本和图像输入,可基于图像和视频生成代码;在复杂任务场景下,还可生成并协调最多100个专用子代理协同完成任务。