通用提取器

概述

通用提取器填补了专属 scraper 之间的空白。当您需要的网站尚未在目录中时（小众市场、区域零售商、内部门户），这两个 scraper 让您自行描述页面，由我们运行提取。

generic-extractor 接受 CSS 选择器 schema（或使用我们的自动检测），并返回解析后的值。email-extractor 专为一项常见任务而设计：抓取页面上可见的所有电子邮件地址，无论页面如何隐藏它们（mailto 链接、纯文本、轻度混淆的模式如 name [at] domain.com）。

常见用例：

长尾目录采集：为区域零售商写入 schema，运行夜间导入，无需我们为其专门开发 scraper。
潜在客户开发：遍历公司网站列表，运行 email-extractor，构建可联系的潜在客户列表（须遵守您所在司法管辖区的外发电子邮件规定）。
研究流水线：从任何页面提取结构化字段（标题、标头、meta）用于下游 NLP - 在需要从异构来源获取标准化输入时非常有用。
站点监控：定义一次 schema，通过对比解析后的 JSON 来监控竞争对手的定价或文案变更。

两个 scraper 都使用与专属 scraper 相同的反爬虫、住宅路由和 JS 渲染技术栈 - 因此自动检测在 JS 密集型 SPA 上也能工作，无需您单独接入浏览器。如果某个目标最终需要专属解析器，您编写的 schema 就是交给我们 scraper 团队的良好对接文档。

两个通用构建模块 - 一个用于任意结构化提取，一个用于始终需要的电子邮件抓取任务。当您关注的网站没有专属 scraper 时，请使用这些。

Generic Extractor - 基于 schema 的 HTML 提取器。传入选择器，获取结构化 JSON。
Email Extractor - 抓取页面上所有可见的电子邮件地址。

调用示例

下面是对 Stack Overflow 主页的 generic-extractor 调用。在未指定 schema 的情况下，scraper 返回自动检测的元数据 - 页面标题、语言以及按级别分组的标头。传入自定义 selectors 对象（参见完整参考文档）以提取特定字段。

      curl 'https://api.crawlbase.com/?token=YOUR_TOKEN' \
  --data-urlencode 'url=https://stackoverflow.com/' \
  --data-urlencode 'scraper=generic-extractor' -G
    

响应示例

      {
  "url": "https://stackoverflow.com/",
  "title": "Stack Overflow - Where Developers Learn...",
  "language": "en",
  "headings": {
    "h1": ["Where developers grow together"],
    "h2": ["Hot Network Questions"]
  }
}
    

完整参考（参数、全部 4 种 SDK 语言、边界情况）： Generic Extractor - 完整参考