ブラウザ自動化ツールの復活:Selenium から AI Agent へ

ブラウザ自動化は古くからあるテーマだが、2025 年に再び注目を集めている。

従来ツールの限界

Selenium、Puppeteer、Playwright——これらは十数年使われてきた。中核となる能力は常に同じだった:プログラムによるブラウザ制御

このパターンはテストシーンではうまく機能する。明確な手順を書く。「このボタンをクリック」「あのフォームに入力」「ページに特定のテキストが表示されることを確認する」。

しかし、現実の複雑な网页に直面すると、従来ツールは不器用に見える。問題は网页は不安定だということだ。DOM 構造は変わる、CSS セレクタは無効になる、広告やポップアップはランダムに出現する。堅牢な自動化スクリプトを維持することは、書くこと自体より時間がかかることが多い。

AI による新アプローチ

大規模言語モデルの登場はこの領域を変えた。新世代ツールは DOM 操作のみに依存せず、AI に网页を直接「見て」理解させる。

Playwright + LLM の組み合わせが主流パラダイムになりつつある。高次の指示を AI に与える——「GitHub で私の名前を検索して、star 数が最も多いプロジェクトを見つけて」——AI はページ構造を理解し、検索ボックスを特定し、結果を解析する。ハードコードされたクリックシーケンスを実行するのではない。

このパラダイムの利点は許容性にある。たとえ GitHub のデザインが変わっても、ページに検索機能があれば AI はおそらくそれを見つけられる。具体的な DOM パスに依存するのではなく、ページの意味論的理解に依存するのだ。

3 つの新勢力

1. ブラウザ制御フレームワーク

こうしたツールは AI がブラウザを操作しやすくすることに特化している。Playwright や Puppeteer は依然として基盤だが、上層のラッパーがより知能化されている。

典型的な特徴:

  • LLM 向けに構造化されたページスナップショット(テキスト表現)を提供
  • AI 意思決定後の操作実行をサポート(クリック、入力、スクロール)
  • 人間が介入できるブレークポイントデバッグ

2. エンドツーエンドテスト Agent

一部ツールは「テスト Agent」を直接提供し始めた——何をテストしたいかを説明すると、AI がテスト手順を生成し、実行し、検証し、結果を報告する。

これは従来のテストフレームワークより柔軟だが、不確実性ももたらす。同じ説明でも、2 回実行すると異なるパスをたどる可能性がある。再現性を求めるテストシーンにとって、これは機会であり同時に課題でもある。

3. データ収集 Agent

ブラウザ自動化の最も一般的な用途の一つはデータ収集だ。AI Agent はこのシーンをより強力にする。複雑なページネーション、ログイン状態の保持、反クロール戦略の識別を処理できる。

「3 番目の div 内のテキストを取得する」のではなく、「ページ上のすべての価格情報を見つける」——AI はどの要素に価格が含まれるかを自ら判断する。

技術実装のポイント

独自プロジェクトに AI ブラウザ自動化を導入したい開発者にとって、重要な意思決定ポイントは以下の通り:

ページ表現方法:LLM に生の HTML を見せる?クリーンアップ後のテキスト?スクリーンショット?それぞれに一長一短がある。テキスト方式はトークンコストが低いが視覚情報を失う。スクリーンショット方式は完全な視覚を保持するがコストが高い。

操作粒度:AI に具体的なクリック座標を出力させるか、それとも高次の意図(「ログインボタンをクリック」)を出力させてフレームワークに解析させるか?後者はより堅牢だが、フレームワークが要素識別ロジックを維持する必要がある。

人機協働の境界:完全自動か、それとも人工確認ポイントを残すか?支払いやデータ削除などの機密操作では、人間の介入は依然として必要だ。

限界

AI ブラウザ自動化は万能薬ではない。

コスト問題:すべての操作で LLM を呼び出す必要があり、従来スクリプトよりコストが高い。高頻度自動化シーン(例:毎分ページ状態をチェック)は割に合わない可能性がある。

遅延問題:LLM 推論には時間がかかり、ネイティブスクリプトより応答が一桁遅い。

信頼性問題:AI の「創造性」はあるシーンで利点となり、別のシーンでリスクとなる。重要な業務フローには、決定論的な従来スクリプトが依然として必要かもしれない。

トレンド予測

ブラウザ自動化はスクリプト駆動から意図駆動へと進化している。

短期的には、両者が共存するだろう。AI Agent は探索的、複雑、変化の多いフローを担当。従来スクリプトは高頻度、決定論的、パフォーマンス重視の操作を担当する。

長期的には、モデルコストの低下と応答速度の向上とともに、AI 駆動のソリューションがより大きなシェアを占めるだろう。しかしそれまでは、ハイブリッドアーキテクチャが最も実用的な選択かもしれない。

開発者にとって、この分野の新しい進展に時間を割く価値がある——それは近い将来、テストの書き方、データ収集、さらには製品構築の方法を変える可能性があるからだ。


文章发表于 gumi.ink