通用提取器
两个通用提取器,适用于尚无专属 scraper 的网站。自定义字段和选择器,我们负责处理请求、反爬虫和解析。
概述
通用提取器填补了专属 scraper 之间的空白。当您需要的网站尚未在目录中时(小众市场、区域零售商、内部门户),这两个 scraper 让您自行描述页面,由我们运行提取。
generic-extractor 接受 CSS 选择器 schema(或使用我们的自动检测),并返回解析后的值。email-extractor 专为一项常见任务而设计:抓取页面上可见的所有电子邮件地址,无论页面如何隐藏它们(mailto 链接、纯文本、轻度混淆的模式如 name [at] domain.com)。
常见用例:
- 长尾目录采集:为区域零售商写入 schema,运行夜间导入,无需我们为其专门开发 scraper。
- 潜在客户开发:遍历公司网站列表,运行
email-extractor,构建可联系的潜在客户列表(须遵守您所在司法管辖区的外发电子邮件规定)。 - 研究流水线:从任何页面提取结构化字段(标题、标头、meta)用于下游 NLP - 在需要从异构来源获取标准化输入时非常有用。
- 站点监控:定义一次 schema,通过对比解析后的 JSON 来监控竞争对手的定价或文案变更。
两个 scraper 都使用与专属 scraper 相同的反爬虫、住宅路由和 JS 渲染技术栈 - 因此自动检测在 JS 密集型 SPA 上也能工作,无需您单独接入浏览器。如果某个目标最终需要专属解析器,您编写的 schema 就是交给我们 scraper 团队的良好对接文档。
通用提取器
两个通用构建模块 - 一个用于任意结构化提取,一个用于始终需要的电子邮件抓取任务。当您关注的网站没有专属 scraper 时,请使用这些。
- Generic Extractor - 基于 schema 的 HTML 提取器。传入选择器,获取结构化 JSON。
- Email Extractor - 抓取页面上所有可见的电子邮件地址。
调用示例
下面是对 Stack Overflow 主页的 generic-extractor 调用。在未指定 schema 的情况下,scraper 返回自动检测的元数据 - 页面标题、语言以及按级别分组的标头。传入自定义 selectors 对象(参见完整参考文档)以提取特定字段。
curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
--data-urlencode 'url=https://stackoverflow.com/' \
--data-urlencode 'scraper=generic-extractor' -G响应示例
{
"url": "https://stackoverflow.com/",
"title": "Stack Overflow - Where Developers Learn...",
"language": "en",
"headings": {
"h1": ["Where developers grow together"],
"h2": ["Hot Network Questions"]
}
}完整参考(参数、全部 4 种 SDK 语言、边界情况):Generic Extractor - 完整参考