Crawling API / GitHub

GitHub Scraper。
任意页面,完整渲染。

发送任意 GitHub URL,即可获取完整渲染的 HTML,通过住宅代理传输并内置反爬虫处理。
使用通用提取器将其转为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
GitHub URLHTML 或 JSONgithub.com/anthropics/anthropic-sdk-pythonCrawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractorgithub.com · rate limit rerouted · 200
实时抓取信息流 · GitHub1.24M req/min流式传输
200github.com/vercel/next.js/issuesBR46ms
200github.com/topics/machine-learningDE132ms
200github.com/vercel/next.js/issuesJP169ms
200github.com/torvaldsNL80ms
200github.com/search?q=llm+agents&type=repositoriesBR72ms
200github.com/torvaldsBR54ms
200github.com/microsoftIN154ms
200github.com/vercel/next.js/issuesNL154ms
200github.com/vercel/next.js/issuesSG124ms
200github.com/topics/machine-learningAU54ms
200github.com/microsoftNL210ms
200github.com/vercel/next.js/issuesIN203ms
200github.com/torvalds/linuxBR173ms
200github.com/openai/openai-pythonBR168ms
200github.com/rust-lang/rustES150ms
301github.com/anthropics/anthropic-sdk-python/issuesCA89ms
200github.com/facebook/reactSG126ms
200github.com/openai/openai-pythonNL128ms
200github.com/facebook/reactIN45ms
301github.com/topics/web-scrapingES211ms
200github.com/kubernetes/kubernetes/issuesIN212ms
200github.com/search?q=llm+agents&type=repositoriesNL174ms
200github.com/anthropics/anthropic-sdk-python/issuesIN153ms
200github.com/kubernetes/kubernetes/issuesCA129ms
200github.com/huggingfaceSG187ms
200github.com/anthropics/anthropic-sdk-pythonAU106ms
200github.com/vercel/next.js/issuesBR46ms
200github.com/topics/machine-learningDE132ms
200github.com/vercel/next.js/issuesJP169ms
200github.com/torvaldsNL80ms
200github.com/search?q=llm+agents&type=repositoriesBR72ms
200github.com/torvaldsBR54ms
200github.com/microsoftIN154ms
200github.com/vercel/next.js/issuesNL154ms
200github.com/vercel/next.js/issuesSG124ms
200github.com/topics/machine-learningAU54ms
200github.com/microsoftNL210ms
200github.com/vercel/next.js/issuesIN203ms
200github.com/torvalds/linuxBR173ms
200github.com/openai/openai-pythonBR168ms
200github.com/rust-lang/rustES150ms
301github.com/anthropics/anthropic-sdk-python/issuesCA89ms
200github.com/facebook/reactSG126ms
200github.com/openai/openai-pythonNL128ms
200github.com/facebook/reactIN45ms
301github.com/topics/web-scrapingES211ms
200github.com/kubernetes/kubernetes/issuesIN212ms
200github.com/search?q=llm+agents&type=repositoriesNL174ms
200github.com/anthropics/anthropic-sdk-python/issuesIN153ms
200github.com/kubernetes/kubernetes/issuesCA129ms
200github.com/huggingfaceSG187ms
200github.com/anthropics/anthropic-sdk-pythonAU106ms
01 实时演示

输入任意 GitHub URL,输出 HTML 或 JSON。

Crawling API 实时演示。获取渲染后的 HTML,或切换到通用提取器获取 JSON。悬停以暂停并阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 GitHub 抛来的一切。

GitHub 在客户端渲染仓库并采取严格的速率限制。Crawling API 在真实浏览器中加载完整页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。

渲染

完整的 JavaScript 渲染

真实浏览器执行页面,因此 README、星标、复刻、语言和文件树都会渲染并进入 HTML,而不仅仅是初始标记。

代理

1.4 亿住宅 IP

每个请求都会在 30 个地区间轮换住宅 IP,因此你能像真实的本地访客一样访问 GitHub。

反爬虫

为你处理拦截

速率限制、机器人检查和验证页面都会被自动清除。无需应付个人访问令牌,也无需维护任何东西。

格式

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接以结构化 JSON 返回。

附加功能

截图与异步

同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。

一个令牌

一个 API 应对所有站点

Crawling API 适用于任意 URL,因此同一个令牌可覆盖 GitHub 以及你抓取的其他一切。 查看实时演示.

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你会得到渲染后的 HTML。添加 generic-extractor 同一页面便会以类型化的 JSON 返回。

{ "title": "anthropics/anthropic-sdk-python: The official Python SDK", "favicon": "https://github.githubassets.com/favicons/favicon.svg", "meta": { "description": "The official Python library for the Anthropic API", "keywords": "..." }, "content": "The official Python SDK for the Anthropic API. Installation: pip install anthropic...", "canonical": "https://github.com/anthropics/anthropic-sdk-python", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每个 GitHub 请求都走同一条路径。你发送一个 URL,我们负责其间的一切。

01

发送 URL

携带你的令牌传入任意公开的 GitHub URL:仓库、议题、个人资料或搜索。

02

轮换代理

从跨 30 个地区的 1.4 亿 IP 中选取一个能顺畅访问 GitHub 的住宅 IP 和地区。

03

渲染页面

真实浏览器加载仓库页面,因此 README、星标、复刻、语言和文件树在捕获前完成渲染。

04

清除反爬虫

GitHub 的速率限制和机器人检查都会被自动处理。无需应付令牌,也无需维护任何东西。

05

返回 HTML 或 JSON

完整渲染的 HTML 会返回,或者在你添加通用提取器时返回类型化的 JSON。

05 用例

团队用 GitHub 数据构建什么。

USE / 01OSS

开源与开发者情报

跟踪仓库、星标、复刻、语言和发布版本,绘制开源版图,了解谁在构建什么。

USE / 02趋势

依赖与趋势跟踪

关注主题、搜索页面和发布活动,尽早发现崭露头角的库、框架和工具。

USE / 03招聘

招聘与开发者关系

挖掘公开个人资料和贡献,找到维护者、发掘人才并触达合适的开发者社区。

USE / 04训练

代码模型的训练数据

通过一个 API 将干净的 README 和页面文本输入模型、RAG 流水线和编码智能体。

USE / 05安全

安全与供应链研究

监控公开仓库、议题和依赖,研究软件包和供应链风险。

USE / 06覆盖范围

任意 URL,一个 API

抓取仓库、议题、个人资料、主题和搜索,以及你需要的任何其他站点。

06 说明

抓取 GitHub 时需要了解的要点。

像真实浏览器一样渲染

GitHub 在客户端渲染仓库;Crawling API 运行真实浏览器,因此 README、星标、复刻、语言和文件树都会在捕获前加载。

默认 HTML,按需 JSON

你会得到完整渲染的 HTML。添加 scraper=generic-extractor 以获取已解析的标题、内容、图片和链接,或自行解析 HTML。

无需 GitHub 令牌或 API 限制

你指向的是公开网页,因此没有需要轮换的个人访问令牌,也无需为 REST API 速率限制做预算。

仅限公开仓库和个人资料

Crawling API 读取公开可见的页面,无需登录,因此你得到的是登出访客所看到的内容。

07 为何选择 Crawlbase

为大规模抓取 GitHub 而生。

Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络之上。无需购买代理,无需运行浏览器,GitHub 变动时也无需打补丁。

99%
平均请求成功率
140M
住宅 IP,另加 9800 万数据中心 IP
30
用于精准本地结果的地区数
20/s
默认每秒请求数,可按需提升

一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,以及底层 99.99% 正常运行时间的网络。

08 FAQ

GitHub 抓取常见问题。

携带你的令牌将 GitHub URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换一个住宅代理,在真实浏览器中渲染页面,清除机器人检查,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。默认情况下 Crawling API 返回渲染后的 HTML;添加通用提取器(scraper=generic-extractor)即可将标题、元数据、内容、图片和链接以 JSON 形式接收,或自行解析 HTML。
不需要。你将 Crawling API 指向公开网页,因此没有需要签发或轮换的个人访问令牌,也无需为 REST API 速率限制做预算。Crawlbase 会为你访问 GitHub。
Crawlbase 将每个请求通过跨 30 个地区的轮换住宅 IP 路由,并自动清除机器人检查。你无需管理代理或应付令牌,GitHub 变更其配置时也无需维护任何东西。
会。真实浏览器加载仓库页面,因此渲染后的 README、星标、复刻、语言和文件树都存在于 HTML 中,而不仅仅是初始标记。
任意公开 URL:仓库、议题和拉取请求、用户和组织的个人资料、主题页面和搜索结果。同一个 API 同样适用于任何其他站点。
免费开始,含最多 10,000 次请求且无需信用卡。付费套餐随用量扩展,同一个令牌可跨 Crawling API 和每一个 Crawlbase 抓取器通用。

开始抓取 GitHub。
摆脱令牌和速率限制。

免费起步,含最多 10,000 次请求。一个令牌通用于 Crawling API 和每一个抓取器。