WebSift - メールやSNSリンクを抽出できる軽量OSINTツール
WebSift とは?
情報セキュリティやペネトレーションテストの分野では、OSINT(オープンソースインテリジェンス) が重要な役割を果たしています。従来の情報収集は複雑なツールチェーンに依存することが多いですが、シンプルなWebサイト情報収集には軽量なソリューションで十分な場合があります。
今回紹介するオープンソースプロジェクト WebSift はまさにそのようなツールです——純粋なBashスクリプトで書かれており、複雑な依存関係がなく、1つのコマンドでWebサイト情報の収集を開始できます。
プロジェクト概要
| 属性 | 詳細 |
|---|---|
| GitHub | s-r-e-e-r-a-j/WebSift |
| Stars | 487 ⭐ |
| 言語 | Shell (Bash) |
| ライセンス | MIT |
| 用途 | OSINT情報収集ツール |
主な機能
WebSiftは3つのコア情報収集に特化しています:
📧 メールアドレスの抽出
Webページ内のメール形式を自動認識し、一般的な変形パターン(atを@に、dotを.に置き換えるなど)にも対応しています。
📞 電話番号の認識
標準フォーマットに一致する電話番号を抽出します。ただし、作者は正直に電話番号認識の精度には限界があると述べており、これはWebスクレイピング分野全体に共通する課題です。
🔗 リンク分析
Webサイト内のすべてのリンクを抽出します:
- SNSリンク(Twitter、LinkedIn、Facebookなど)
- 内部ナビゲーションリンク
- 外部参照リンク
使い方
WebSiftの設計理念はすぐに使えることです。TermuxとLinuxシステムの両方で良好なサポートを提供しています。
クイックスタート
# リポジトリのクローン
git clone https://github.com/s-r-e-e-r-a-j/WebSift.git
cd WebSift
# 直接実行
bash websift.sh
操作フロー
実行すると対話型インターフェースが表示されます:
[!] Checking internet connection...
[*] Connected to the internet.
[*] Enter URL to begin : https://example.com
[*] Scrape emails from website? (y/n) : y
[*] Scrape phone numbers from website? (y/n) : y
[*] Scrape social media links or other links? (y/n) : y
[!] Scraping started
結果の保存
スキャン完了後、結果を指定したフォルダに保存することも可能です:
[*] Do you want to save the output (y/n) : y
[*] Enter folder name : result
[*] Output saved successfully in result
技術的な特徴
スクリプトのみで実装
WebSiftは完全にBashで書かれており、依存関係は以下のみです:
curl- Webリクエストgrep- 正規表現マッチングwget- バックアップダウンロード
スクリプトは自動的に不足している依存関係をチェックし、インストールを促します。
出力フォーマット
結果はプレーンテキスト形式で出力され、後続の処理が容易です:
[*] Emails extracted successfully:
contact@example.com
support@example.com
[*] Social media links and other links extracted successfully:
https://twitter.com/example
https://linkedin.com/company/example
https://github.com/example
ユースケース
WebSiftは以下のシナリオに適しています:
- セキュリティテスト前の情報収集 - 対象Webサイトの公開されている連絡先情報を迅速に把握
- 競合分析 - 競合他社の連絡先やSNSアカウントを収集
- 学術調査 - 特定分野のWebサイト連絡先をバッチ収集
- 個人学習 - Webスクレイピングの基本原則を学習
関連プロジェクト
作者はより強力な WebExtractor も開発しています。Pythonで実装されており、電話番号認識の精度がより高くなっています。WebSiftでは要件を満たせない場合は、WebExtractorへの移行を検討してください。
まとめ
WebSiftのStar数は487と少ないですが、このような小さく洗練されたツールが特定のシナリオで大きな役割を果たすことがあります。ヘビー級のクローラーフレームワークが不要な軽量なニーズには、200行程度のBashスクリプトの方が効率的な場合もあります。
ツール選択において、適切なものが最良のものです。
免責事項:WebSiftは教育および合法的なOSINT研究目的でのみ提供されています。対象Webサイトの許可を得た上でスキャンを行ってください。