Airbyte · Crawlbase 文档

即将推出 - 工作方式预览

专用的 Crawlbase Airbyte 源连接器正在开发中。下方的设置 + 数据流是即将发布流程的预览。发送邮件给我们，在其上线时获得通知。

今天就需要使用？使用 Airbyte 的 HTTP API 源对接 Crawling API，或将结果推送到 Cloud Storage 并通过 Airbyte 的 S3 源摄取存储桶 - 两种方式都可端到端运行，无需专用连接器。

设置

crawl_results

增量

每一次完成的爬取，每个 URL 一行。列：rid、url、cb_status、original_status、completed_at、body、headers。

scraper_outputs

增量

结构化的 scraper 结果，按 scraper 自动推断模式（Amazon、Google 等），并以嵌套列的形式公开。

crawler_status

全量刷新

Crawler 队列健康状况快照：每个 crawler 的排队中、进行中、已完成/失败数量。

每小时商品价格仓库：将商品 URL 推送到使用 Amazon scraper 的 Crawler。每小时同步一次。在其上构建 dbt 模型以标记价格下跌。
合规归档：对受监管网站进行每日整页爬取，通过 Airbyte 同步到 S3。带时间戳、有模式、可查询。
SEO 竞争监控：每周抓取 SERP，同步到 BigQuery，在 Looker 中制作仪表板。