推送一个 URL,即可交付。
Crawler 实时演示。将一个 URL 推送到队列,然后在您的 webhook 上接收渲染后的结果。将鼠标悬停可暂停并阅读。
大规模爬取,队列已内置。
让大规模爬取变得困难的一切,都由我们为您运行:异步队列、重试、交付和监控,全部构建于 Crawling API 之上。
异步推送与拉取
想推送多少 URL 就推送多少,并持续进行。Crawlbase 在后台对它们排队、调度和渲染,因此您的客户端永不阻塞。
构建于 Crawling API 之上
保留 Crawling API 的每一项功能:JavaScript 渲染、住宅代理、地理定位、参数以及每次请求上的反爬虫处理。
Webhook 交付
将爬虫指向您的端点,每个结果都会发布到该端点。Crawlbase 会监控您的 webhook,让交付保持准确可靠。
自定义爬虫,实时统计
为每个工作负载命名一个爬虫并实时观察它。通过 API 查看统计数据,并可暂停或恢复以匹配您的预算。
新鲜数据,更少重试
每个页面都实时爬取,无缓存。推送/拉取系统将成功率推向接近 100%,因此客户端重试几乎消失。
多加两个参数即可迁移。
保留您的 Crawling API 调用。添加一个回调和一个爬虫名称,您就实现了异步。
创建一个爬虫
打开 Crawler 控制台,创建一个命名的爬虫,并将其指向您的 webhook 或云存储。
推送 URL
调用 Crawling API,使用 callback=true 和 crawler=YourCrawlerName,无论是一个 URL 还是数百万个。
我们排队并渲染
Crawlbase 调度每个请求,轮换一个住宅代理,渲染页面并重试任何失败。
交付结果
每个渲染后的页面都会以 HTML 或结构化 JSON 的形式发布到您的 webhook 或写入云存储。
拉取并监控
就绪时从存储中拉取,并实时跟踪每个爬虫,可按需暂停和恢复。
团队用 Crawler 构建什么。
数百万个页面
推送整个目录或站点地图,让队列逐一处理,无需客户端调度。
数据进入您的技术栈
将渲染后的页面直接交付到 webhook 或存储,可供您的数据仓库、索引或模型使用。
持续监控
按计划重新爬取价格、库存和商品列表,每次都能获得新鲜数据。
训练和 RAG 语料库
构建大型、干净的页面集用于训练和检索,可从存储中批量拉取。
摆脱您自己的爬虫
用两个参数将您的推送/拉取系统换成我们的,并舍弃代理、队列和重试。
数百万个网站
用一个爬虫和一个令牌爬取数百万个受支持的网站。
添加您要爬取的网站,即可查看价格。
添加您要爬取的网站及其月度用量和请求类型。我们按难度和类型对它们分组,然后根据每组的合并用量定价,因此您爬取得越多,价格越便宜。
还没有网站。在上方添加一个即可开始估算。
值得了解。
免费试用
最多 10,000 次请求免费,无需信用卡。同一个令牌可在 Crawler、Crawling API 和每个抓取器中通用。
按用量定价
按您爬取的用量付费,无长期合同,可随时取消。可暂停和恢复以匹配您的预算。在定价页面查看完整明细。
文档齐全
创建爬虫、回调和交付均在 Crawler 文档中涵盖,附有可复制粘贴的示例。
符合 GDPR 和 CCPA
Crawlbase 在全球范围内应用消费者保护标准,将公平性和透明度融入数据处理方式。
为大规模爬取网络而生。
Crawler 运行在同一个网络上,该网络服务于 70,000+ 名开发者以及全球最苛刻的爬取工作负载。无队列需运行,无代理需购买,网站变化时无需修补。
一个令牌通用于 Crawler、Crawling API 和每个抓取器,可交付到您的 webhook 或存储。