WebSift とは?

情報セキュリティやペネトレーションテストの分野では、OSINT(オープンソースインテリジェンス) が重要な役割を果たしています。従来の情報収集は複雑なツールチェーンに依存することが多いですが、シンプルなWebサイト情報収集には軽量なソリューションで十分な場合があります。

今回紹介するオープンソースプロジェクト WebSift はまさにそのようなツールです——純粋なBashスクリプトで書かれており、複雑な依存関係がなく、1つのコマンドでWebサイト情報の収集を開始できます

プロジェクト概要

属性詳細
GitHubs-r-e-e-r-a-j/WebSift
Stars487 ⭐
言語Shell (Bash)
ライセンスMIT
用途OSINT情報収集ツール

主な機能

WebSiftは3つのコア情報収集に特化しています:

📧 メールアドレスの抽出

Webページ内のメール形式を自動認識し、一般的な変形パターン(at@に、dot.に置き換えるなど)にも対応しています。

📞 電話番号の認識

標準フォーマットに一致する電話番号を抽出します。ただし、作者は正直に電話番号認識の精度には限界があると述べており、これはWebスクレイピング分野全体に共通する課題です。

🔗 リンク分析

Webサイト内のすべてのリンクを抽出します:

  • SNSリンク(Twitter、LinkedIn、Facebookなど)
  • 内部ナビゲーションリンク
  • 外部参照リンク

使い方

WebSiftの設計理念はすぐに使えることです。TermuxとLinuxシステムの両方で良好なサポートを提供しています。

クイックスタート

# リポジトリのクローン
git clone https://github.com/s-r-e-e-r-a-j/WebSift.git
cd WebSift

# 直接実行
bash websift.sh

操作フロー

実行すると対話型インターフェースが表示されます:

[!] Checking internet connection...
[*] Connected to the internet.
[*] Enter URL to begin : https://example.com
[*] Scrape emails from website? (y/n) : y
[*] Scrape phone numbers from website? (y/n) : y
[*] Scrape social media links or other links? (y/n) : y
[!] Scraping started

結果の保存

スキャン完了後、結果を指定したフォルダに保存することも可能です:

[*] Do you want to save the output (y/n) : y
[*] Enter folder name : result
[*] Output saved successfully in result

技術的な特徴

スクリプトのみで実装

WebSiftは完全にBashで書かれており、依存関係は以下のみです:

  • curl - Webリクエスト
  • grep - 正規表現マッチング
  • wget - バックアップダウンロード

スクリプトは自動的に不足している依存関係をチェックし、インストールを促します。

出力フォーマット

結果はプレーンテキスト形式で出力され、後続の処理が容易です:

[*] Emails extracted successfully:
contact@example.com
support@example.com

[*] Social media links and other links extracted successfully:
https://twitter.com/example
https://linkedin.com/company/example
https://github.com/example

ユースケース

WebSiftは以下のシナリオに適しています:

  1. セキュリティテスト前の情報収集 - 対象Webサイトの公開されている連絡先情報を迅速に把握
  2. 競合分析 - 競合他社の連絡先やSNSアカウントを収集
  3. 学術調査 - 特定分野のWebサイト連絡先をバッチ収集
  4. 個人学習 - Webスクレイピングの基本原則を学習

関連プロジェクト

作者はより強力な WebExtractor も開発しています。Pythonで実装されており、電話番号認識の精度がより高くなっています。WebSiftでは要件を満たせない場合は、WebExtractorへの移行を検討してください。

まとめ

WebSiftのStar数は487と少ないですが、このような小さく洗練されたツールが特定のシナリオで大きな役割を果たすことがあります。ヘビー級のクローラーフレームワークが不要な軽量なニーズには、200行程度のBashスクリプトの方が効率的な場合もあります。

ツール選択において、適切なものが最良のものです。


免責事項:WebSiftは教育および合法的なOSINT研究目的でのみ提供されています。対象Webサイトの許可を得た上でスキャンを行ってください。