Crawling API / Stack Overflow

Stack Overflow 抓取器。
任意页面,完整渲染。

发送任意 Stack Overflow URL,即可获取完整渲染的 HTML,通过住宅代理返回并内置反机器人处理。
使用 generic extractor 将其转换为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
Stack Overflow 网址HTML or JSONstackoverflow.com/questions/11227809Crawlbase路由渲染提取已渲染 HTML结构化 JSONcrawling-apigeneric-extractorstackoverflow.com · 已重新路由限流 · 200
实时爬取信息流 · Stack Overflow1.24M req/min流式传输
200stackoverflow.com/users/100297/martijn-pietersSG211ms
200stackoverflow.com/questions/tagged/javascriptBR113ms
200stackoverflow.com/questions/tagged/javascriptBR126ms
200stackoverflow.com/users/6309/voracityFR215ms
301stackoverflow.com/questions/tagged/dockerAU137ms
200stackoverflow.com/questionsIN64ms
200stackoverflow.com/users/100297/martijn-pietersFR130ms
301stackoverflow.com/questions/231767/what-does-the-yield-keyword-doDE197ms
301stackoverflow.com/questions/tagged/pythonAU79ms
200stackoverflow.com/questions/231767/what-does-the-yield-keyword-doES210ms
200stackoverflow.com/tagsNL94ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchFR44ms
200stackoverflow.com/search?q=async+awaitNL148ms
200stackoverflow.com/users/22656/jon-skeetBR83ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchES90ms
200stackoverflow.com/questions/tagged/pythonBR111ms
301stackoverflow.com/search?q=segmentation+faultGB168ms
301stackoverflow.com/questions/tagged/sqlGB96ms
200stackoverflow.com/questions/11227809/how-to-fix-thisBR88ms
200stackoverflow.com/users/100297/martijn-pietersSG66ms
301stackoverflow.com/questions/388242/the-definitive-c-book-guide-and-listBR45ms
301stackoverflow.com/questions/tagged/pythonFR60ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchES137ms
200stackoverflow.com/users/6309/voracityGB46ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchJP100ms
200stackoverflow.com/users/22656/jon-skeetSG109ms
200stackoverflow.com/users/100297/martijn-pietersSG211ms
200stackoverflow.com/questions/tagged/javascriptBR113ms
200stackoverflow.com/questions/tagged/javascriptBR126ms
200stackoverflow.com/users/6309/voracityFR215ms
301stackoverflow.com/questions/tagged/dockerAU137ms
200stackoverflow.com/questionsIN64ms
200stackoverflow.com/users/100297/martijn-pietersFR130ms
301stackoverflow.com/questions/231767/what-does-the-yield-keyword-doDE197ms
301stackoverflow.com/questions/tagged/pythonAU79ms
200stackoverflow.com/questions/231767/what-does-the-yield-keyword-doES210ms
200stackoverflow.com/tagsNL94ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchFR44ms
200stackoverflow.com/search?q=async+awaitNL148ms
200stackoverflow.com/users/22656/jon-skeetBR83ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchES90ms
200stackoverflow.com/questions/tagged/pythonBR111ms
301stackoverflow.com/search?q=segmentation+faultGB168ms
301stackoverflow.com/questions/tagged/sqlGB96ms
200stackoverflow.com/questions/11227809/how-to-fix-thisBR88ms
200stackoverflow.com/users/100297/martijn-pietersSG66ms
301stackoverflow.com/questions/388242/the-definitive-c-book-guide-and-listBR45ms
301stackoverflow.com/questions/tagged/pythonFR60ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchES137ms
200stackoverflow.com/users/6309/voracityGB46ms
200stackoverflow.com/questions/2003505/how-do-i-delete-a-git-branchJP100ms
200stackoverflow.com/users/22656/jon-skeetSG109ms
01 实时演示

输入任意 Stack Overflow URL。输出 HTML 或 JSON。

Crawling API,实时输入。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停并阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内即可运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 Stack Overflow 的一切。

投票数、答案和评论会动态渲染,而问题、标签和用户页面则受到速率限制。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并向你返回干净的 HTML 或 JSON。

渲染

完整 JavaScript 渲染

真实浏览器会执行页面,因此动态渲染的投票数、答案和评论串都会被捕获,而不仅仅是初始 HTML。

代理

1.4 亿住宅 IP

每个请求都会在 30 个地区之间轮换住宅 IP,让你像真实本地访客一样访问 Stack Overflow。

反机器人

拦截由我们处理

CAPTCHA、机器人拦截墙和速率限制都会自动清除。无需破解,无需维护。

格式

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接作为结构化 JSON 返回。

附加功能

截图和异步

同一次调用即可捕获整页截图,或通过 webhook 和云存储异步运行。

一个令牌

一个 API,适用于所有网站

Crawling API 适用于任意 URL,因此同一个令牌既覆盖 Stack Overflow,也覆盖你爬取的所有其他内容。 查看实时演示.

03 输出

渲染的 HTML,或干净的 JSON。

默认情况下你会获得渲染后的 HTML。添加 generic-extractor 后,同一个页面就会以类型化 JSON 返回。

{ "title": "How to fix this - Stack Overflow", "favicon": "https://cdn.sstatic.net/Sites/stackoverflow/Img/favicon.ico", "meta": { "description": "Q&A for professional and enthusiast programmers.", "keywords": "..." }, "content": "Question, accepted answer, votes, tags and comments...", "canonical": "https://stackoverflow.com/questions/11227809/how-to-fix-this", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每个 Stack Overflow 请求都会走同一条路径。你发送一个 URL,其间的一切都由我们处理。

01

发送 URL

用你的令牌传入任意公开的 Stack Overflow URL:问题、标签、用户页面或搜索。

02

轮换代理

从 30 个地区的 1.4 亿 IP 中抽取一个能顺畅访问 Stack Overflow 的住宅 IP 和地区。

03

渲染页面

真实浏览器加载页面,让投票数、答案和评论在捕获前完成渲染。

04

清除反机器人

Stack Overflow 的机器人检查和逐页速率限制都会自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化 JSON。

05 用例

团队用 Stack Overflow 数据构建什么。

USE / 01知识

开发者知识挖掘

提取问题、被采纳的答案和评论,构建可搜索的开发者知识库。

USE / 02训练

训练数据和 RAG

通过一个 API 将干净的问答文本输入到模型、RAG 管线和编码智能体中。

USE / 03趋势

技术趋势监控

关注标签和搜索页面,尽早发现崛起的语言、框架和工具。

USE / 04问答

问答数据集

组装结构化的问题、答案和投票数据集,用于评估和基准测试。

USE / 05研究

竞争与开发研究

挖掘真实的开发者问题、错误和变通方案,为产品和文档提供参考。

USE / 06覆盖

任意 URL,一个 API

爬取问题、标签、用户页面和搜索,以及你需要的任何其他网站。

06 须知

抓取 Stack Overflow 时的注意事项。

像真实浏览器一样渲染

投票数、答案和评论都是动态渲染的;Crawling API 运行真实浏览器,让它们在捕获前完成加载。

默认 HTML,按需 JSON

你会获得完整渲染的 HTML。添加 scraper=generic-extractor 即可获得解析后的标题、内容、图片和链接,或者你也可以自行解析 HTML。

速率限制由我们处理

Stack Overflow 对问题、标签和用户页面进行速率限制。每个请求都会轮换一个全新的住宅 IP,让访问保持稳定。

从任何地方访问 Stack Overflow

跨 30 个地区和 1.4 亿住宅 IP 的地理定位意味着访问稳定,无需管理代理。

07 为什么选择 Crawlbase

为大规模爬取 Stack Overflow 而打造。

Crawling API 运行在同一张网络上,该网络服务着 46,000+ 家付费客户和 70,000+ 名开发者。无需购买代理,无需运行浏览器,Stack Overflow 变更时也无需修补任何东西。

99%
平均请求成功率
140M
住宅 IP,另加 9,800 万数据中心 IP
30
用于精准本地结果的地区数
20/s
默认每秒请求数,可按需增加

一个令牌,为 Python、Node 和 Ruby 提供官方 SDK,底层是 99.99% 正常运行时间的网络。

08 FAQ

Stack Overflow 抓取问题。

用你的令牌将 Stack Overflow URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换住宅代理,在真实浏览器中渲染页面,清除机器人检查,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。默认情况下 Crawling API 返回渲染的 HTML;添加 generic extractor(scraper=generic-extractor)即可将标题、元数据、内容、图片和链接以 JSON 形式接收,或者你也可以自行解析 HTML。
会。真实浏览器会执行页面,因此动态渲染的投票数、答案和评论都会被捕获,而不仅仅是初始 HTML。
Crawlbase 将每个请求通过跨 30 个地区轮换的住宅 IP 路由,并自动清除机器人检查。你无需管理代理或破解 CAPTCHA,Stack Overflow 更改其设置时也无需维护任何东西。
可以。问题、标签、用户和搜索页面都以相同方式工作,即便 Stack Overflow 对它们进行速率限制。每个请求都会轮换一个全新的住宅 IP,让访问保持稳定。
任意公开 URL:问题及其答案、标签列表、用户资料和搜索结果页面。同一个 API 也适用于任何其他网站。
免费开始,赠送最多 10,000 次请求,无需信用卡。付费套餐随用量扩展,同一个令牌可在 Crawling API 和每个 Crawlbase 抓取器之间通用。

开始抓取 Stack Overflow。
跳过代理和速率限制。

免费开始,赠送最多 10,000 次请求。一个令牌,通用于 Crawling API 和每个抓取器。