OpenClaw安装界面截图。图片来源:DigitalToday

近期在科技圈热度颇高的OpenClaw,被视为一类可在本地环境运行的开源AI代理框架。它支持接入Telegram、Slack、Discord等平台,并具备浏览器自动化、消息平台联动、文件管理等功能。不过,从实际体验来看,这类产品距离普通用户“装好就能用”仍有不小差距。

此次体验基于非开发者视角展开。由于几乎没有编程背景,仅接触过面向多媒体的节点式面向对象语言Max,因此在安装前,先通过YouTube搜索“非开发者成功安装OpenClaw”等关键词,并借助Gemini整理教程内容后再按步骤操作。以下判断也主要基于这一实际使用过程。

单看安装过程,OpenClaw本身并不复杂,在终端输入“npm install -g openclaw”即可完成基础安装。真正的难点出现在后续的模型接入和配置阶段。最初尝试连接的是Gemini。考虑到自己已经订阅Google每月20美元的套餐,原本以为不会产生额外费用,而在Google AI Studio申请API Key的过程也较为顺利。

但填写API Key并继续配置后,接入的Telegram机器人始终没有响应。排查后发现,问题出在配置文件:模型提供方(provider)被错误指定,报错信息显示“未知模型:Anthropic/Gemini-1.5-Flash”,也就是说,Google模型被错误分配到了Anthropic。解决方式是手动打开JSON配置文件,在模型名称前逐一补上“google/”前缀。

即便在Gemini辅助下完成修改,问题也没有立刻解决。调用Google API时,系统先返回“404”错误,并提示“无法在API beta版本中找到Gemini 1.5 Flash”,对应的其实是已从API列表移除的旧模型。将模型名称改为“Gemini 2.0 Flash”后,又出现“429 rate limit”错误,随后还遇到计费相关提示,原因则是免费层级模型触发了每分钟请求限制。

最终,只能转向付费方案。既然决定花钱,便改用据称更适合编码场景的Anthropic Claude API,并继续通过Claude确认安装步骤。由于担心配置失败后无法完成整篇体验,后续只能一路填写支付信息并等待接入。当天晚上11点30分,还接到了陌生来电,原因是久未使用的信用卡发生境外支付,发卡机构需要进行核验。完成这一流程后,API Key才算顺利拿到。

但问题并未结束。在向OpenClaw认证文件写入密钥时,又遇到了新的障碍:仅将API Key写入环境变量并不能被OpenClaw识别,必须手动写入单独的认证文件。这意味着用户还需要在终端执行Python脚本,并直接修改JSON文件。

从开始安装到最终跑通,整个过程耗时约3小时,Telegram机器人这才开始正常响应。就体验而言,这一流程要求用户至少理解终端命令、JSON文件结构和API认证方式。对于几乎没有开发基础的普通用户来说,要顺利完成并不容易。

在功能测试阶段,OpenClaw接到的第一个任务是新闻监测。借助其面向重复任务的“cron”功能,系统被设定为每30分钟搜索一次AI相关新闻,并自动发布到Telegram频道“@ai_breaking_kr”。

从执行层面看,网页搜索可以正常跑通,系统也能生成摘要,但结果距离可用仍有差距。第一次回复过度压缩,随后又切换成英文,主要内容大致为“Microsoft AI CEO预测,多数白领的计算机工作将在12至18个月内完全自动化,同时xAI和OpenAI内部均出现矛盾”。不过,这些回复没有给出媒体名称、文章链接和发布时间。

这显然无法满足“确认何时、何地、由谁报道”的信息核实需求。随后又调整提示词,要求系统强制输出“文章标题超链接+一行摘要”的格式,结果却再次报错,提示“未设置Web搜索API Key”。更关键的是,同一功能在几分钟前还可以使用,但切换会话后,系统甚至不再调用搜索工具。就实际落地而言,AI代理行为不一致,仍是最突出的障碍之一。

第二个测试场景,是让AI在Coupang下单购买瓶装水。为此,需要先安装名为“OpenClaw Browser Relay”的Chrome扩展,再将浏览器控制权限交给AI。但仅扩展安装本身,对普通用户就并不友好:不仅要在Chrome开发者模式下选择“加载已解压的扩展程序”,还要手动输入隐藏文件夹路径,且Chrome重启后扩展还有可能被自动禁用。

即便扩展成功连接,浏览器自动化本身也存在明显限制。测试发现,单个Coupang页面的HTML体量,已经接近所选Claude Sonnet 4单次可处理的文本上限。错误信息显示,一个页面大约会消耗18.8万个Token;若再算上AI回复所需空间(34048个Token),单次请求就会超出上下文窗口。

这一问题并不只局限于Coupang。考虑到Naver、Kakao等韩国主流平台大多基于较重的JavaScript构建,AI代理若要直接操控浏览器,Token消耗很可能普遍偏高。

再叠加每分钟3万个Token的上限,实际效果几乎变成“1分钟只能发送一次指令”。而在Coupang完成一次下单,通常至少要经历首页、搜索结果页、商品详情页和购买页等4至5次页面切换,整体耗时可能拉长至约5分钟。与此同时,每次启动Chrome后,Coupang登录状态可能失效,OpenClaw扩展也可能被关闭,这些都会进一步增加不确定性。

除浏览器操作外,还测试了文件生成能力。通过Telegram要求其生成Excel表格后,OpenClaw给出的答复是,需要额外接入Google Sheets API,或另行编写Python脚本。

相比之下,ChatGPT、Claude、Gemini等聊天机器人通常只需一句“帮我做个Excel”,就可以直接生成文件;而OpenClaw则需要额外完成API对接和脚本编写。原因在于,OpenClaw本质上更像一个面向开发者的工具编排框架,而不是开箱即用的成品服务。对开发者而言,它具备更高自由度;但对普通用户而言,整个过程更像是在为一项原本用Claude应用就能完成的任务,额外绕了一大圈。

放在工作流自动化市场看,Zapier、IFTTT、Make等SaaS工具早已占据先发位置。这类产品通常无需编写代码,只需简单点击几步,就能配置“出现特定关键词新闻时推送到Slack”“将Gmail附件自动保存到Dropbox”等流程,并支持连接数千种服务。

因此,OpenClaw这类AI代理若想替代现有自动化工具,至少需要在稳定性和易用性上达到相近水平。但就目前体验来看,复杂配置、结果不一致以及Token限制等问题仍然十分突出。尽管如此,能够通过接入Telegram的AI代理机器人获取新闻搜索结果,或在不直接操作页面的情况下访问Coupang网页,这种体验本身仍然令人印象深刻。

近来,科技行业不乏“AI代理将冲击SaaS市场地位”的观点。Microsoft AI CEO Mustafa Suleyman日前在接受《金融时报》采访时就表示,“未来12至18个月内,多数白领的计算机工作将被完全自动化”。但至少从这次实际体验来看,无论是下单购买瓶装水,还是进行新闻摘编、制作表格,AI代理都还没有达到令人满意的可用程度。现阶段,想把任务完全交给AI后转身去做别的事,仍然不现实。

关键词

#OpenClaw #开源AI代理框架 #本地部署 #Telegram #Google Gemini #Anthropic Claude #浏览器自动化 #Token消耗 #API限流 #SaaS工具
版权所有 © DigitalToday。未经授权禁止转载或传播。