hq：118⭐的轻量级 HTML 命令行处理器

在命令行处理 JSON 有 jq，处理 CSV 有 csvkit，那处理 HTML 呢？今天发现一个轻量级的小众工具 hq，用 CSS 选择器就能从网页中提取数据。

项目概览

写爬虫或者需要从网页提取数据时，常用的工具要么太重（Python + BeautifulSoup），要么功能单一（grep、awk 处理 HTML 很别扭）。

hq 的定位很简单：用 CSS 选择器在命令行处理 HTML，就像用 jq 处理 JSON 一样直观。

hq 提供三种处理模式：

curl -s https://example.com | hq "div.article" data

返回匹配元素的完整 HTML，包括标签。

curl -s https://example.com | hq "h1" text

提取元素的内部文本内容。支持格式化选项：

curl -s https://example.com | hq "a" attr href

提取指定属性的值，比如获取所有链接的 URL。

curl -s https://news.ycombinator.com | hq "a.storylink" text

curl -s https://example.com/blog/post | hq "article p" text plain

curl -s https://example.com/gallery | hq "img" attr src

从源码编译：

git clone https://github.com/coderobe/hq.git
cd hq
meson build && ninja -C build
# 编译后位于 build/hq

依赖：

hq 基于 Modest 库构建，这是一个高性能的 HTML 解析器。选择 C++ 实现保证了处理速度，适合管道操作和批量处理。

hq 的优势是简单直接：没有复杂的语法，三个模式覆盖常见需求，源码仅几百行，容易理解和修改。

hq 是一个小而精的工具，适合那些「只想快速提取点数据」的场景。不需要安装庞大的依赖，不需要写脚本，一个 CSS 选择器就能搞定。

对于日常需要处理 HTML 的开发者来说，值得收入工具箱。

项目信息

文章发表于 gumi.ink