输入任意 DuckDuckGo URL,输出 HTML 或 JSON。
Crawling API,实时演示。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。
一个 API,应对 DuckDuckGo 抛给你的一切。
DuckDuckGo 使用 JavaScript 渲染结果,在大批量抓取时会触发速率限制和机器人检测。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你返回干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器会执行页面,因此动态加载的自然搜索结果、标题、摘要和链接都会被捕获,而不仅仅是初始的页面外壳。
1.4 亿住宅 IP
每个请求都会在 30 个地区之间轮换住宅 IP,因此你可以像真实的本地搜索者一样访问 DuckDuckGo,并看到本地排名。
为你处理封锁
自动清除 CAPTCHA、机器人拦截墙和速率限制。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可返回标题、内容、图片和链接等结构化 JSON。
截图与异步
同一次调用可以捕获整页截图,或通过 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor 同一页面就会以类型化的 JSON 返回。
页面
title · string canonical · string favicon · string
元信息
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 DuckDuckGo 请求都沿着相同的路径流转。你发送一个 URL,我们处理其间的一切。
发送 URL
携带你的令牌传入任意公开的 DuckDuckGo 结果 URL:查询、HTML 端点、垂直搜索或过滤后的搜索。
轮换代理
从 30 个地区的 1.4 亿 IP 中选取一个能干净访问 DuckDuckGo 的住宅 IP 和地区。
渲染页面
真实浏览器加载页面,因此 JavaScript 渲染的自然搜索结果、标题和摘要会在捕获前完成渲染。
清除反爬
DuckDuckGo 的速率限制和机器人检测会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化的 JSON。
团队基于 DuckDuckGo 数据构建了什么。
关键词排名追踪
按查询和地区定时抓取结果 URL,以追踪位置和排名随时间的变化。
SERP 监控
关注结果页面上新出现的条目、功能变化以及你关心的查询的排名波动。
SEO 研究
提取排名靠前的标题、摘要和结果 URL,以研究搜索意图、竞争对手和内容空白。
线索与链接发现
发掘为你的关键词排名的域名、资料页和页面,为外联和链接开发提供支持。
训练数据与 RAG
通过一个 API 将干净的结果文本和结果 URL 送入模型、RAG 流水线和智能体。
任意 URL,一个 API
抓取查询、HTML 端点、垂直搜索和过滤条件,以及你需要的任何其他站点。
抓取 DuckDuckGo 时值得了解的要点。
像真实浏览器一样渲染
DuckDuckGo 使用 JavaScript 动态加载结果;Crawling API 运行真实浏览器,因此自然搜索结果会在捕获前完成渲染。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 即可获得解析后的标题、内容、图片和链接,或自行解析 HTML 以获取结果标题、摘要和 URL。
按地区本地化结果
地理定位会选择代理所在地区,因此你可以像某个国家的搜索者一样查看排名。
从任何地方访问 DuckDuckGo
在 30 个地区和 1.4 亿住宅 IP 之间轮换,意味着无需管理代理或触发速率限制,即可在大批量下保持稳定访问。
专为大规模抓取 DuckDuckGo 而生。
Crawling API 运行在同一套网络之上,为 46,000+ 付费客户和 70,000+ 开发者提供服务。无需购买代理,无需运行浏览器,DuckDuckGo 变化时也无需打补丁。
一个令牌,为 Python、Node 和 Ruby 提供官方 SDK,底层是 99.99% 可用性的网络。