ブラウザ自動化ツールの復活:Selenium から AI Agent へ
ブラウザ自動化ツールの復活:Selenium から AI Agent へ
ブラウザ自動化は古くからあるテーマだが、2025 年に再び注目を集めている。
従来ツールの限界
Selenium、Puppeteer、Playwright——これらは十数年使われてきた。中核となる能力は常に同じだった:プログラムによるブラウザ制御。
このパターンはテストシーンではうまく機能する。明確な手順を書く。「このボタンをクリック」「あのフォームに入力」「ページに特定のテキストが表示されることを確認する」。
しかし、現実の複雑な网页に直面すると、従来ツールは不器用に見える。問題は网页は不安定だということだ。DOM 構造は変わる、CSS セレクタは無効になる、広告やポップアップはランダムに出現する。堅牢な自動化スクリプトを維持することは、書くこと自体より時間がかかることが多い。
AI による新アプローチ
大規模言語モデルの登場はこの領域を変えた。新世代ツールは DOM 操作のみに依存せず、AI に网页を直接「見て」理解させる。
Playwright + LLM の組み合わせが主流パラダイムになりつつある。高次の指示を AI に与える——「GitHub で私の名前を検索して、star 数が最も多いプロジェクトを見つけて」——AI はページ構造を理解し、検索ボックスを特定し、結果を解析する。ハードコードされたクリックシーケンスを実行するのではない。
このパラダイムの利点は許容性にある。たとえ GitHub のデザインが変わっても、ページに検索機能があれば AI はおそらくそれを見つけられる。具体的な DOM パスに依存するのではなく、ページの意味論的理解に依存するのだ。
3 つの新勢力
1. ブラウザ制御フレームワーク
こうしたツールは AI がブラウザを操作しやすくすることに特化している。Playwright や Puppeteer は依然として基盤だが、上層のラッパーがより知能化されている。
典型的な特徴:
- LLM 向けに構造化されたページスナップショット(テキスト表現)を提供
- AI 意思決定後の操作実行をサポート(クリック、入力、スクロール)
- 人間が介入できるブレークポイントデバッグ
2. エンドツーエンドテスト Agent
一部ツールは「テスト Agent」を直接提供し始めた——何をテストしたいかを説明すると、AI がテスト手順を生成し、実行し、検証し、結果を報告する。
これは従来のテストフレームワークより柔軟だが、不確実性ももたらす。同じ説明でも、2 回実行すると異なるパスをたどる可能性がある。再現性を求めるテストシーンにとって、これは機会であり同時に課題でもある。
3. データ収集 Agent
ブラウザ自動化の最も一般的な用途の一つはデータ収集だ。AI Agent はこのシーンをより強力にする。複雑なページネーション、ログイン状態の保持、反クロール戦略の識別を処理できる。
「3 番目の div 内のテキストを取得する」のではなく、「ページ上のすべての価格情報を見つける」——AI はどの要素に価格が含まれるかを自ら判断する。
技術実装のポイント
独自プロジェクトに AI ブラウザ自動化を導入したい開発者にとって、重要な意思決定ポイントは以下の通り:
ページ表現方法:LLM に生の HTML を見せる?クリーンアップ後のテキスト?スクリーンショット?それぞれに一長一短がある。テキスト方式はトークンコストが低いが視覚情報を失う。スクリーンショット方式は完全な視覚を保持するがコストが高い。
操作粒度:AI に具体的なクリック座標を出力させるか、それとも高次の意図(「ログインボタンをクリック」)を出力させてフレームワークに解析させるか?後者はより堅牢だが、フレームワークが要素識別ロジックを維持する必要がある。
人機協働の境界:完全自動か、それとも人工確認ポイントを残すか?支払いやデータ削除などの機密操作では、人間の介入は依然として必要だ。
限界
AI ブラウザ自動化は万能薬ではない。
コスト問題:すべての操作で LLM を呼び出す必要があり、従来スクリプトよりコストが高い。高頻度自動化シーン(例:毎分ページ状態をチェック)は割に合わない可能性がある。
遅延問題:LLM 推論には時間がかかり、ネイティブスクリプトより応答が一桁遅い。
信頼性問題:AI の「創造性」はあるシーンで利点となり、別のシーンでリスクとなる。重要な業務フローには、決定論的な従来スクリプトが依然として必要かもしれない。
トレンド予測
ブラウザ自動化はスクリプト駆動から意図駆動へと進化している。
短期的には、両者が共存するだろう。AI Agent は探索的、複雑、変化の多いフローを担当。従来スクリプトは高頻度、決定論的、パフォーマンス重視の操作を担当する。
長期的には、モデルコストの低下と応答速度の向上とともに、AI 駆動のソリューションがより大きなシェアを占めるだろう。しかしそれまでは、ハイブリッドアーキテクチャが最も実用的な選択かもしれない。
開発者にとって、この分野の新しい進展に時間を割く価値がある——それは近い将来、テストの書き方、データ収集、さらには製品構築の方法を変える可能性があるからだ。
文章发表于 gumi.ink