WebSift 是什么?

在信息安全和渗透测试领域,OSINT(开源情报) 是一个重要环节。传统的信息收集往往依赖复杂的工具链,但对于简单的网站信息采集,有时候我们只需要一个轻量级的解决方案。

今天介绍的开源项目 WebSift 正是这样一个工具——纯 Bash 脚本编写,无需复杂依赖,一行命令即可开始网站信息抓取

项目概览

属性详情
GitHubs-r-e-e-r-a-j/WebSift
Stars487 ⭐
语言Shell (Bash)
许可MIT
定位OSINT 信息收集工具

核心功能

WebSift 专注于三项核心信息采集:

📧 邮箱地址提取

自动识别网页中的电子邮件格式,支持常见的变体写法(如 at 替换 @dot 替换 . 等)。

📞 电话号码识别

抓取页面中符合标准格式的电话号码。需要注意的是,作者坦诚电话号码识别的准确率有限,这是网页抓取领域的普遍挑战。

🔗 链接分析

提取网站中的所有链接,包括:

  • 社交媒体链接(Twitter、LinkedIn、Facebook 等)
  • 内部导航链接
  • 外部引用链接

使用方式

WebSift 的设计理念是开箱即用,对 Termux 和 Linux 系统都提供了良好支持。

快速开始

# 克隆仓库
git clone https://github.com/s-r-e-e-r-a-j/WebSift.git
cd WebSift

# 直接运行
bash websift.sh

操作流程

运行后会进入交互式界面:

[!] Checking internet connection...
[*] Connected to the internet.
[*] Enter URL to begin : https://example.com
[*] Scrape emails from website? (y/n) : y
[*] Scrape phone numbers from website? (y/n) : y
[*] Scrape social media links or other links? (y/n) : y
[!] Scraping started

结果保存

扫描完成后可以选择将结果保存到指定文件夹:

[*] Do you want to save the output (y/n) : y
[*] Enter folder name : result
[*] Output saved successfully in result

技术特点

纯脚本实现

WebSift 完全使用 Bash 编写,依赖仅包括:

  • curl - 网页请求
  • grep - 正则匹配
  • wget - 备用下载

脚本会自动检查并提示安装缺失的依赖。

输出格式

结果以纯文本格式输出,便于后续处理:

[*] Emails extracted successfully:
contact@example.com
support@example.com

[*] Social media links and other links extracted successfully:
https://twitter.com/example
https://linkedin.com/company/example
https://github.com/example

适用场景

WebSift 适合以下场景:

  1. 安全测试前的信息收集 - 快速了解目标网站的公开联系信息
  2. 竞品分析 - 收集竞争对手的联系方式和社交账号
  3. 学术调研 - 批量收集特定领域的网站联系信息
  4. 个人学习 - 了解网页抓取的基本原理

相关项目

作者还开发了更强大的 WebExtractor,使用 Python 实现,在电话号码识别方面有更高的准确率。如果 WebSift 不能满足需求,可以考虑升级到 WebExtractor。

写在最后

WebSift 的 Star 数虽然只有 487,但正是这种小而精的工具往往能在特定场景下发挥大作用。对于不需要重量级爬虫框架的轻量级需求,一个 200 行左右的 Bash 脚本反而更加高效。

在工具选择上,合适的才是最好的


免责声明:WebSift 仅供教育和合法的 OSINT 研究使用。请仅在获得授权的情况下对目标网站进行扫描。