外媒实测Gemini 3.5 Flash：代码生成、长上下文推理与多模态任务表现突出

Google在I/O 2026上发布了多项Gemini新能力，其中Gemini 3.5 Flash成为外界关注的重点之一。按照Google的定位，这是一款更强调实际应用场景的大模型，核心能力覆盖代码生成、长上下文推理、多模态理解以及并行任务处理。

据外媒TechRadar当地时间21日报道，相比参数层面的展示，Gemini 3.5 Flash此次更值得关注的是其在真实使用场景中的表现。测试并未围绕跑分或规格展开，而是设置了五组接近日常使用的任务，分别涉及太空垃圾报告分析、旅行行程规划、手工制作指导、限时清洁方案以及带有玩笑性质的并行推理任务。共同特点是，这些任务都不是单轮问答，而是要求模型同时处理多项条件和目标。

在代码生成和多模态推理测试中，Gemini 3.5 Flash先读取一份有关太空垃圾环境影响的报告，再据此生成一套可供用户调整参数并查看结果的模拟器代码。测试认为，该模型的优势不只是输出图表或数据结果，还能围绕卫星发射数量、减缓措施变化等变量，帮助用户理解不同条件下的长期影响。

在行程规划任务中，Gemini 3.5 Flash在路线衔接、时间分配和地点安排上展现出较强的一致性。面对一段横跨Hudson Valley与山区的四天行程，模型给出了“上午徒步、中午用餐、以风景路线为主的移动安排”，并同步提供雨天替代方案。测试指出，该模型能够在多重约束下兼顾路线与节奏，同时保持旅行目标不偏离原始需求，而不是生硬加入与主题无关的备选内容。

在步骤规划类任务中，Gemini 3.5 Flash表现出较强的流程拆解能力。以居家手工装订笔记本为例，模型不仅区分了必须完成的步骤和可选的加强步骤，还会提前提示可能出现的失误，并尽量避免使用过于专业的术语。其给出的说明重点也很明确：目标不是做出“博物馆级”的装订成品，而是在理解基本原理的基础上，完成一本结实耐用的笔记本。与此同时，模型还将干燥时间纳入整体流程安排。

在视觉理解任务中，Gemini 3.5 Flash同样体现出较强的优先级判断能力。测试提供了一张凌乱房间的照片，并要求模型给出25分钟清洁方案。结果显示，该模型并未平均分配时间，而是采取“优先处理最显眼问题”的策略，建议先整理最容易看到的杂物，并提醒用户在时间有限的情况下不要贸然开始抽屉整理，以提升短时间内的整理效果。

最后一项测试聚焦并行推理。面对“核实一个自称普通人、但外套里其实藏着三只企鹅的室友”这一带有玩笑意味的请求，Gemini 3.5 Flash将问题拆分为行为分析、环境线索和社会一致性核验等多个并行模块，再综合得出结论。测试显示，该模型能够同时处理多种假设，而不是按顺序逐条展开推导。

综合五组测试结果，TechRadar认为，Gemini 3.5 Flash的优势并不只体现在响应速度上，更突出的是上下文保持能力以及不同工作模式之间的切换能力。无论是太空垃圾分析、行程规划、手工流程设计，还是清洁策略制定，这一模型都能较好地围绕用户目标持续输出结果。与此同时，Google强调的代码生成、长上下文处理、视觉理解和代理式规划等能力，也开始在同一模型中形成组合效应。

不过，报道也指出，如果Gemini 3.5 Flash未来要进一步拓展可用范围，可能仍需要更高层级的信息访问权限。随着其覆盖更多日常工作与服务场景，模型所需调用的个人信息和上下文数据也可能同步增加。换句话说，这款模型未来的竞争力，不仅取决于性能本身，也取决于其在实际服务环境中能够获得的信息权限，以及相应的管理和控制能力。

Yoonseo Lee yslee@d-today.co.kr

关键词