PageAgent：9640⭐のアリババ製Web GUI Agent

アリババが最近オープンソース化した興味深いプロジェクト：PageAgent。これは純粋なフロントエンドで動作するWeb GUI Agentで、自然言語でWebページを制御できます。従来の自動化ツールとは異なり、ブラウザ拡張機能やPythonスクリプト、バックエンドサービスを必要とせず、ページ内で直接実行され、数行のコードで統合できます。

プロジェクト概要

属性	内容
GitHub	alibaba/page-agent
Stars	9,640
言語	TypeScript
特徴	純粋フロントエンド、自然言語制御、BYO-LLM
最終更新	今日

解決する問題

従来のWeb自動化には主に以下のようなアプローチがありました：

Selenium/Playwright：バックエンドサービスが必要で、ヘッドレスブラウザに依存し、デプロイコストが高い
ブラウザ拡張機能：ユーザーにインストールが必要で、クロスオリジン制限が多い
MCP Browser：サーバーサイドのサポートが必要で、設定が複雑

PageAgentは異なるアプローチを取っています：ページ内にJavaScriptを直接注入し、LLMを利用してDOM構造を理解し操作を実行します。これにより：

サーバー不要、完全クライアントサイド実行
ブラウザ拡張機能不要（クロスページタスク用のオプション拡張は提供）
既存製品にAI Copilotとして埋め込み可能

主な機能

1. テキストベースのDOM操作

PageAgentはスクリーンショットやマルチモーダルモデルを使用せず、テキスト方式でDOMを処理します。ページ要素にラベルを付け、LLMがこれらのラベルに基づいてどの要素をクリックし、何を入力するか決定します。

import { PageAgent } from 'page-agent'

const agent = new PageAgent({
  model: 'qwen3.5-plus',
  baseURL: 'https://dashscope.aliyuncs.com/compatible-mode/v1',
  apiKey: 'YOUR_API_KEY',
  language: 'ja-JP',
})

await agent.execute('ログインボタンをクリックし、ユーザー名adminとパスワード123456を入力')

2. 美しいUI同梱

低レベルAPIに加えて、PageAgentはすぐに使えるチャットインターフェースを提供し、人間とAIの協働をサポートします。ユーザーはAIの実行ステップを確認し、いつでも介入や修正ができます。

3. マルチページタスク対応（オプション）

コアはシングルページですが、付属のChrome拡張機能を使うことで、PageAgentはクロスページのワークフローを処理できます。例えば、商品検索→詳細を開く→カートに追加→決済といった流れです。

4. 交換可能なLLM

PageAgent自体は特定のモデルに依存しておらず、OpenAI、Anthropic、通義千問、ローカルモデルなどが使用可能です。OpenAI互換のAPI形式をサポートしていれば問題ありません。

クイックスタート

最も簡単な方法はCDN経由で導入することです（注意：これは技術評価のみを目的としており、アリババが提供するテスト用LLMを使用します）：

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.8/dist/iife/page-agent.demo.js" crossorigin="true"></script>

本番環境ではnpm経由でのインストールを推奨します：

npm install page-agent

類似ツールとの比較

ツール	Stars	アーキテクチャ	特徴
browser-use	51k	Python + ヘッドレスブラウザ	強力だがバックエンドが必要
Playwright MCP	8k	Node.js + ブラウザ	Microsoft公式、高い安定性
PageAgent	9.6k	純粋フロントエンドJS	バックエンド不要、統合が容易

軽量で製品に組み込みやすいWeb自動化ソリューションが必要な場合、PageAgentは検討に値する選択肢です。特にSaaS製品にAI Copilot機能を素早く追加したい場合、数行のコードで実現できます。

適用シナリオ

SaaS AI Copilot：バックエンドの再構築なしに既存製品にAIアシスタントを素早く追加
スマートフォーム入力：複雑な20ステップの操作を1文に簡略化、ERP、CRM、管理システムに最適
アクセシビリティ：自然言語でWebアプリを制御、音声コマンドやスクリーンリーダーをサポート
自動化テスト：LLMの理解能力を組み合わせて、メンテナンスしやすいUIテストを作成

注意事項

CSP（Content Security Policy）が厳格なサイト（GitHubなど）は、ブラウザ拡張機能版が必要になる場合があります
現在、Shadow DOM内の要素との相互作用はサポートされていません
LLM API Keyは自分で準備する必要があり、無料デモ版は評価用のみです

プロジェクト情報

属性	内容
リポジトリ	https://github.com/alibaba/page-agent
ライセンス	MIT
言語	TypeScript
開発者	@alibaba

プロジェクトは急速に開発が進んでおり、今日もコミットされています。この分野に興味がある方は、GitHubでStarを付けて今後の動向をフォローしてください。