法国AI初创公司H Company发布AI模型Holo3,主打读屏理解与跨应用任务执行能力,可完成点击、输入等操作。
据日本媒体Gigazine报道(当地时间9日),开源版Holo3-35B-A3B已上线Hugging Face,用户可免费使用。
Holo3被定位为可运行于网页、桌面和移动端的视觉语言模型(VLM)。该模型能够读取屏幕内容,并根据界面信息执行按钮点击、表单填写等操作。
除单步操作外,Holo3还支持处理跨多个应用的任务流程。以官方示例来看,模型可先从PDF中提取设备价格信息,再与员工剩余预算进行比对,随后发送批准或驳回通知邮件。整个过程中,模型可在PDF、电子表格和邮件应用之间切换,完成信息读取、计算和传递,并在任务衔接过程中保持上下文状态。
开源版Holo3-35B-A3B基于Qwen3.5-35B-A3B微调,并采用专家混合(MoE)架构,总参数量为350亿,激活参数为30亿。该模型属于多模态AI,可接收图像和文本输入,并生成文本输出。
据介绍,Holo3的训练数据包括开源数据集、面向智能体训练的大规模操作数据,以及经过人工核验和标注的数据。团队还针对训练集中未覆盖的场景进行了专项训练,并结合经筛选的数据开展强化学习。
与此同时,H Company还提供“合成环境工厂”(Synthetic Environment Factory)。这一工具可通过代码自动生成接近企业系统的UI和操作环境,用于训练智能体学习更贴近实际业务的交互方式。
H Company同时披露了部分性能数据。其中,Holo3-35B-A3B在国际基准OSWorld-Verified上的得分为77.8%;参数规模更大的Holo3-122B-A10B在同一基准上的得分为78.85%,总参数量为1220亿,激活参数为100亿。
此外,H Company还推出了自研评测体系H Corporate Benchmark,覆盖电商、办公软件、协作和多应用联动四大领域,共包含486项任务,既有单一应用内的短任务,也涵盖跨应用的长流程工作流。
目前,在免费方案下,用户可通过API体验Holo3-35B-A3B,请求频率限制为每分钟10次;Holo3-122B-A10B则仅向付费用户提供。