画像=デジタルトゥデイ

ローカル環境で動作するオープンソースのAIエージェントフレームワーク「OpenClaw」を試した。TelegramやSlack、Discordと連携し、ブラウザ自動化やファイル管理などを実行できるのが特徴だ。ただ、実際に使ってみると、非開発者にとっては設定のハードルが高く、挙動の安定性にも課題が残る印象だった。

筆者に開発経験はない。触れたことがあるのは、音楽分野で使われるノードベースのオブジェクト指向言語「Max」程度だ。そのため、YouTubeで非開発者向けの導入事例を探し、内容をGeminiで整理しながらセットアップを進めた。以下は、あくまで個人の利用体験に基づく。

インストール自体は簡単だった。ターミナルで「npm install -g openclaw」と入力するだけで導入できた。

つまずいたのは、その後のAIモデル接続だ。まずGeminiを使おうとした。Google AI StudioでAPIキーを発行するところまでは問題なかったが、キーを入力してもTelegramボットは応答しなかった。確認すると、設定ファイル内のprovider指定が誤っており、GoogleのモデルがAnthropic向けとして処理されていた。

実際には「Unknown model: Anthropic/Gemini-1.5-Flash」というエラーが表示されていた。JSON設定ファイルを開き、モデル名の先頭に「google/」を付けることで解消した。

その後もエラーは続いた。Google APIを呼び出すと404が返り、「Gemini 1.5 FlashをAPIベータ版で見つけられない」と表示された。対象モデルがAPI一覧から外れた旧バージョンだったためだ。モデル名を「Gemini 2.0 Flash」に変更すると、今度は「429 rate limit」のエラーが発生した。無料枠モデルの時間当たりリクエスト制限に達していたためで、決済関連のエラーも重なった。

最終的には有料利用に切り替え、コーディング用途に強いとされるAnthropicのClaude APIへ移行した。決済情報を入力して接続を待っていた23時30分ごろには、カード会社から確認の電話も入った。長く使っていなかったクレジットカードで海外決済が発生したためだという。APIキー自体は発行できた。

次に詰まったのは認証設定だった。APIキーを環境変数に登録するだけではOpenClawが認識せず、別の認証ファイルに直接書き込む必要があった。ターミナルからPythonスクリプトを実行し、JSONファイルも手作業で編集した。

開始から約3時間後、Telegramに接続したボットがようやく応答し始めた。この過程では、ターミナルコマンド、JSONの構造、API認証の仕組みといった基礎知識が求められた。開発経験のないユーザーが独力で完了するのは簡単ではない。

最初に試したのは、ニュースの自動モニタリングだ。OpenClawの反復実行機能「cron」を使い、30分ごとにAI関連ニュースを検索し、Telegramチャンネル「@ai_breaking_kr」に自動投稿するよう設定した。

Web検索自体は動き、要約も出力された。ただ、結果の精度は高くなかった。最初の応答は要約が短すぎ、その後は英語で返ってきた。

内容も、「Microsoft AIのCEOが、ホワイトカラーのコンピュータ業務の大半が12〜18カ月以内に完全自動化されると予測した」「xAIとOpenAIの双方で内紛が起きている」といった要約にとどまり、媒体名や記事リンク、掲載時刻が抜け落ちていた。

これでは、いつ、どこが、何を報じたのかを確認するというニュースクリッピングの目的に合わない。プロンプトを修正し、「記事タイトルのハイパーリンクと1行要約」を必須形式にしたところ、今度は「Web検索APIキーが設定されていない」とのエラーが表示された。

数分前まで動いていた機能が、セッションが変わると検索ツール自体を呼び出さなくなる場面もあった。AIエージェントの挙動が一貫しない点は、実務利用における大きな障害だと感じた。

次に、Coupangでミネラルウォーターを注文させることを試した。Chrome拡張機能「OpenClaw browser relay」を導入すると、AIにブラウザ操作の権限を与えられる。

ただ、この拡張機能の導入自体が分かりにくい。Chromeの開発者モードで「パッケージ化されていない拡張機能を読み込む」を使い、隠しフォルダのパスを手入力する必要があった。Chromeを再起動すると拡張機能が無効になることもあった。

接続後も制約は大きかった。Coupangの単一ページのHTML量が、設定していたClaude Sonnet 4で一度に処理できるテキスト量に近かったためだ。

エラーメッセージによると、Coupangの1ページだけで18万8000トークンを消費し、応答用に確保される領域が3万4048トークンしかないため、1回当たりのコンテキストウィンドウを超過するという。

NaverやKakaoなど韓国の主要プラットフォームの多くが重いJavaScriptベースで構築されていることを踏まえると、AIエージェントによるブラウザ操作ではトークン消費が過大になりやすいとみられる。

時間当たりのトークン制限が3万だったため、結果的に指示を出せるのは1分に1回程度だった。Coupangでの購入にはトップページ、検索結果、商品詳細、購入手続きと4〜5回の画面遷移が必要で、単純計算でも完了まで約5分かかる。

Chromeを起動するたびにCoupangのログイン状態が外れ、OpenClawの拡張機能もオフになる点も、不安定要因だった。

さらに、Telegram経由でExcelファイルの作成も試した。すると、GoogleスプレッドシートAPIを別途連携するか、Pythonスクリプトを追加で書く必要があるとの応答が返ってきた。

ChatGPTやClaude、Geminiのような一般的なチャットボットであれば、「Excelを作って」と指示するだけでファイルを生成できることが多い。一方、OpenClawでは追加のAPI連携やスクリプト作成が前提になる。OpenClawが完成済みのサービスではなく、あくまで複数のツールを組み合わせるためのフレームワークだからだ。

開発者にとっては自由度の高い基盤といえるが、一般ユーザーの視点では、「Claudeアプリで済むことを、なぜあえてOpenClawでやるのか」という疑問が残る。

業務自動化の分野では、Zapier、IFTTT、MakeといったSaaS型ツールがすでに普及している。コードを書かずに、「特定キーワードを含むニュースが出たらSlackへ通知する」「Gmailの添付ファイルをDropboxへ保存する」といったワークフローを数クリックで構築でき、連携先も数千サービスに及ぶ。

OpenClawのようなAIエージェントがこうしたツールを代替するには、少なくとも同水準の安定性と使いやすさが必要になる。現時点では、設定の複雑さ、出力のばらつき、トークン上限といった制約が大きい。

それでも、自分専用のAIエージェントをTelegramと連携させ、ニュース検索結果を受け取ったり、CoupangのWebページに手を触れずアクセスしたりできる体験には新しさがあった。

テック業界では、AIエージェントがSaaSの立ち位置を脅かすとの見方もある。Microsoft AIのCEO、ムスタファ・スレイマン氏は英Financial Timesのインタビューで、「12〜18カ月以内に、ホワイトカラーのコンピュータ作業の大半が完全自動化される」と述べている。

ただ、今回の利用体験では、ミネラルウォーターの注文も、ニュースクリッピングも、Excelファイル作成も、満足できる水準には届かなかった。少なくとも現段階では、AIエージェントに任せて人が別の仕事へ移るには、なお距離がある。

キーワード

#AI #AIエージェント #OpenClaw #Telegram #Slack #Discord #API #業務自動化
Copyright © DigitalToday. All rights reserved. Unauthorized reproduction and redistribution are prohibited.