登录
即将推出 - 工作方式预览

专用的 Crawlbase Airbyte 源连接器正在开发中。下方的设置 + 数据流是即将发布流程的预览。发送邮件给我们,在其上线时获得通知。

今天就需要使用?使用 Airbyte 的 HTTP API 源对接 Crawling API,或将结果推送到 Cloud Storage 并通过 Airbyte 的 S3 源摄取存储桶 - 两种方式都可端到端运行,无需专用连接器。

设置

  1. 在您的 Airbyte 实例中,前往 Sources → New Source
  2. 搜索 Crawlbase 并选择它。
  3. 配置:粘贴您的 token,选择一个 Crawler(您推送 URL 的队列),选择要同步的数据流。
  4. 测试连接,保存,然后连接到目标端。

数据流

crawl_results
增量
每一次完成的爬取,每个 URL 一行。列:ridurlpc_statusoriginal_statuscompleted_atbodyheaders
scraper_outputs
增量
结构化的 scraper 结果,按 scraper 自动推断模式(Amazon、Google 等),并以嵌套列的形式公开。
crawler_status
全量刷新
Crawler 队列健康状况快照:每个 crawler 的排队中、进行中、已完成/失败数量。

模式

  • 每小时商品价格仓库:将商品 URL 推送到使用 Amazon scraper 的 Crawler。每小时同步一次。在其上构建 dbt 模型以标记价格下跌。
  • 合规归档:对受监管网站进行每日整页爬取,通过 Airbyte 同步到 S3。带时间戳、有模式、可查询。
  • SEO 竞争监控:每周抓取 SERP,同步到 BigQuery,在 Looker 中制作仪表板。