输入任意 Stack Overflow URL。输出 HTML 或 JSON。
Crawling API,实时输入。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停并阅读。
一个 API,应对 Stack Overflow 的一切。
投票数、答案和评论会动态渲染,而问题、标签和用户页面则受到速率限制。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你返回干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器会执行页面,因此动态渲染的投票数、答案和评论串都会被捕获,而不仅仅是初始 HTML。
1.4 亿住宅 IP
每个请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Stack Overflow。
拦截由我们处理
CAPTCHA、机器人拦截墙和速率限制都会自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接作为结构化 JSON 返回。
截图和异步
同一次调用即可捕获整页截图,或通过 webhook 和云存储异步运行。
渲染的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor 后,同一个页面就会以类型化 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Stack Overflow 请求都会走同一条路径。你发送一个 URL,其间的一切都由我们处理。
发送 URL
用你的令牌传入任意公开的 Stack Overflow URL:问题、标签、用户页面或搜索。
轮换代理
从 30 个地区的 1.4 亿 IP 中抽取一个能顺畅访问 Stack Overflow 的住宅 IP 和地区。
渲染页面
真实浏览器加载页面,让投票数、答案和评论在捕获前完成渲染。
清除反机器人
Stack Overflow 的机器人检查和逐页速率限制都会自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化 JSON。
团队用 Stack Overflow 数据构建什么。
开发者知识挖掘
提取问题、被采纳的答案和评论,构建可搜索的开发者知识库。
训练数据和 RAG
通过一个 API 将干净的问答文本输入到模型、RAG 管线和编码智能体中。
技术趋势监控
关注标签和搜索页面,尽早发现崛起的语言、框架和工具。
问答数据集
组装结构化的问题、答案和投票数据集,用于评估和基准测试。
竞争与开发研究
挖掘真实的开发者问题、错误和变通方案,为产品和文档提供参考。
任意 URL,一个 API
爬取问题、标签、用户页面和搜索,以及你需要的任何其他网站。
抓取 Stack Overflow 时的注意事项。
像真实浏览器一样渲染
投票数、答案和评论都是动态渲染的;Crawling API 运行真实浏览器,让它们在捕获前完成加载。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 即可获得解析后的标题、内容、图片和链接,或者你也可以自行解析 HTML。
速率限制由我们处理
Stack Overflow 对问题、标签和用户页面进行速率限制。每个请求都会轮换一个全新的住宅 IP,让访问保持稳定。
从任何地方访问 Stack Overflow
跨 30 个地区和 1.4 亿住宅 IP 的地理定位意味着访问稳定,无需管理代理。
为大规模爬取 Stack Overflow 而打造。
Crawling API 运行在同一张网络上,该网络服务着 46,000+ 家付费客户和 70,000+ 名开发者。无需购买代理,无需运行浏览器,Stack Overflow 变更时也无需修补任何东西。
一个令牌,为 Python、Node 和 Ruby 提供官方 SDK,底层是 99.99% 正常运行时间的网络。