Airbyte即将推出
将 Crawlbase 输出直接导入 Snowflake、BigQuery、Redshift 或 Postgres。Airbyte 源连接器负责增量同步和模式管理。
专用的 Crawlbase Airbyte 源连接器正在开发中。下方的设置 + 数据流是即将发布流程的预览。发送邮件给我们,在其上线时获得通知。
今天就需要使用?使用 Airbyte 的 HTTP API 源对接 Crawling API,或将结果推送到 Cloud Storage 并通过 Airbyte 的 S3 源摄取存储桶 - 两种方式都可端到端运行,无需专用连接器。
设置
- 在您的 Airbyte 实例中,前往 Sources → New Source。
- 搜索 Crawlbase 并选择它。
- 配置:粘贴您的 token,选择一个 Crawler(您推送 URL 的队列),选择要同步的数据流。
- 测试连接,保存,然后连接到目标端。
数据流
rid、url、pc_status、original_status、completed_at、body、headers。模式
- 每小时商品价格仓库:将商品 URL 推送到使用 Amazon scraper 的 Crawler。每小时同步一次。在其上构建 dbt 模型以标记价格下跌。
- 合规归档:对受监管网站进行每日整页爬取,通过 Airbyte 同步到 S3。带时间戳、有模式、可查询。
- SEO 竞争监控:每周抓取 SERP,同步到 BigQuery,在 Looker 中制作仪表板。