Google在I/O 2026上发布了多项Gemini新能力,其中Gemini 3.5 Flash成为外界关注的重点之一。按照Google的定位,这是一款更强调实际应用场景的大模型,核心能力覆盖代码生成、长上下文推理、多模态理解以及并行任务处理。
据外媒TechRadar当地时间21日报道,相比参数层面的展示,Gemini 3.5 Flash此次更值得关注的是其在真实使用场景中的表现。测试并未围绕跑分或规格展开,而是设置了五组接近日常使用的任务,分别涉及太空垃圾报告分析、旅行行程规划、手工制作指导、限时清洁方案以及带有玩笑性质的并行推理任务。共同特点是,这些任务都不是单轮问答,而是要求模型同时处理多项条件和目标。
在代码生成和多模态推理测试中,Gemini 3.5 Flash先读取一份有关太空垃圾环境影响的报告,再据此生成一套可供用户调整参数并查看结果的模拟器代码。测试认为,该模型的优势不只是输出图表或数据结果,还能围绕卫星发射数量、减缓措施变化等变量,帮助用户理解不同条件下的长期影响。
在行程规划任务中,Gemini 3.5 Flash在路线衔接、时间分配和地点安排上展现出较强的一致性。面对一段横跨Hudson Valley与山区的四天行程,模型给出了“上午徒步、中午用餐、以风景路线为主的移动安排”,并同步提供雨天替代方案。测试指出,该模型能够在多重约束下兼顾路线与节奏,同时保持旅行目标不偏离原始需求,而不是生硬加入与主题无关的备选内容。
在步骤规划类任务中,Gemini 3.5 Flash表现出较强的流程拆解能力。以居家手工装订笔记本为例,模型不仅区分了必须完成的步骤和可选的加强步骤,还会提前提示可能出现的失误,并尽量避免使用过于专业的术语。其给出的说明重点也很明确:目标不是做出“博物馆级”的装订成品,而是在理解基本原理的基础上,完成一本结实耐用的笔记本。与此同时,模型还将干燥时间纳入整体流程安排。
在视觉理解任务中,Gemini 3.5 Flash同样体现出较强的优先级判断能力。测试提供了一张凌乱房间的照片,并要求模型给出25分钟清洁方案。结果显示,该模型并未平均分配时间,而是采取“优先处理最显眼问题”的策略,建议先整理最容易看到的杂物,并提醒用户在时间有限的情况下不要贸然开始抽屉整理,以提升短时间内的整理效果。
最后一项测试聚焦并行推理。面对“核实一个自称普通人、但外套里其实藏着三只企鹅的室友”这一带有玩笑意味的请求,Gemini 3.5 Flash将问题拆分为行为分析、环境线索和社会一致性核验等多个并行模块,再综合得出结论。测试显示,该模型能够同时处理多种假设,而不是按顺序逐条展开推导。
综合五组测试结果,TechRadar认为,Gemini 3.5 Flash的优势并不只体现在响应速度上,更突出的是上下文保持能力以及不同工作模式之间的切换能力。无论是太空垃圾分析、行程规划、手工流程设计,还是清洁策略制定,这一模型都能较好地围绕用户目标持续输出结果。与此同时,Google强调的代码生成、长上下文处理、视觉理解和代理式规划等能力,也开始在同一模型中形成组合效应。
不过,报道也指出,如果Gemini 3.5 Flash未来要进一步拓展可用范围,可能仍需要更高层级的信息访问权限。随着其覆盖更多日常工作与服务场景,模型所需调用的个人信息和上下文数据也可能同步增加。换句话说,这款模型未来的竞争力,不仅取决于性能本身,也取决于其在实际服务环境中能够获得的信息权限,以及相应的管理和控制能力。