WebSift - 轻量级网站信息抓取工具，快速提取邮箱、电话和社交链接

WebSift 是什么？

在信息安全和渗透测试领域，OSINT（开源情报） 是一个重要环节。传统的信息收集往往依赖复杂的工具链，但对于简单的网站信息采集，有时候我们只需要一个轻量级的解决方案。

今天介绍的开源项目 WebSift 正是这样一个工具——纯 Bash 脚本编写，无需复杂依赖，一行命令即可开始网站信息抓取。

项目概览

属性	详情
GitHub	s-r-e-e-r-a-j/WebSift
Stars	487 ⭐
语言	Shell (Bash)
许可	MIT
定位	OSINT 信息收集工具

核心功能

WebSift 专注于三项核心信息采集：

📧 邮箱地址提取

自动识别网页中的电子邮件格式，支持常见的变体写法（如 at 替换 @、dot 替换 . 等）。

📞 电话号码识别

抓取页面中符合标准格式的电话号码。需要注意的是，作者坦诚电话号码识别的准确率有限，这是网页抓取领域的普遍挑战。

🔗 链接分析

提取网站中的所有链接，包括：

社交媒体链接（Twitter、LinkedIn、Facebook 等）
内部导航链接
外部引用链接

使用方式

WebSift 的设计理念是开箱即用，对 Termux 和 Linux 系统都提供了良好支持。

快速开始

# 克隆仓库
git clone https://github.com/s-r-e-e-r-a-j/WebSift.git
cd WebSift

# 直接运行
bash websift.sh

操作流程

运行后会进入交互式界面：

[!] Checking internet connection...
[*] Connected to the internet.
[*] Enter URL to begin : https://example.com
[*] Scrape emails from website? (y/n) : y
[*] Scrape phone numbers from website? (y/n) : y
[*] Scrape social media links or other links? (y/n) : y
[!] Scraping started

结果保存

扫描完成后可以选择将结果保存到指定文件夹：

[*] Do you want to save the output (y/n) : y
[*] Enter folder name : result
[*] Output saved successfully in result

技术特点

纯脚本实现

WebSift 完全使用 Bash 编写，依赖仅包括：

curl - 网页请求
grep - 正则匹配
wget - 备用下载

脚本会自动检查并提示安装缺失的依赖。

输出格式

结果以纯文本格式输出，便于后续处理：

[*] Emails extracted successfully:
contact@example.com
support@example.com

[*] Social media links and other links extracted successfully:
https://twitter.com/example
https://linkedin.com/company/example
https://github.com/example

适用场景

WebSift 适合以下场景：

安全测试前的信息收集 - 快速了解目标网站的公开联系信息
竞品分析 - 收集竞争对手的联系方式和社交账号
学术调研 - 批量收集特定领域的网站联系信息
个人学习 - 了解网页抓取的基本原理

写在最后

WebSift 的 Star 数虽然只有 487，但正是这种小而精的工具往往能在特定场景下发挥大作用。对于不需要重量级爬虫框架的轻量级需求，一个 200 行左右的 Bash 脚本反而更加高效。

在工具选择上，合适的才是最好的。

免责声明：WebSift 仅供教育和合法的 OSINT 研究使用。请仅在获得授权的情况下对目标网站进行扫描。