How do I scrape GitHub?

Send the GitHub URL to the Crawlbase Crawling API with your token. Crawlbase rotates a residential proxy, renders the page in a real browser, clears bot checks, and returns the fully rendered HTML. Add a dedicated scraper (scraper=github-repository, github-serp or github-profile) to get structured JSON instead.

Can I get GitHub data as JSON?

Yes. By default the Crawling API returns rendered HTML; add a dedicated GitHub scraper (scraper=github-repository for repos, github-serp for search, github-profile for profiles) to receive structured JSON, or parse the HTML yourself.

Do I need a GitHub token or the API?

No. You point the Crawling API at the public web page, so there are no personal access tokens to issue or rotate and no REST API rate limits to budget around. Crawlbase reaches GitHub for you.

How do I avoid getting rate limited scraping GitHub?

Crawlbase routes each request through rotating residential IPs across 30 geographies and clears bot checks automatically. You do not manage proxies or juggle tokens, and there is nothing to maintain when GitHub changes its setup.

Does it capture the README and file tree?

Yes. A real browser loads the repository page, so the rendered README, stars, forks, languages and file tree are all present in the HTML, not just the initial markup.

Which GitHub pages can I crawl?

Any public URL: repositories, issues and pull requests, user and organization profiles, topic pages and search results. The same API works on any other site too.

How much does it cost?

Start free with up to 20,000 requests and no credit card. Paid plans scale with usage, and the same token works across the Crawling API and every Crawlbase scraper.

Crawling API / GitHub

GitHub Scraper。
任意页面，完整渲染。

发送任意 GitHub URL，即可获取完整渲染的 HTML，通过住宅代理传输并内置反爬虫处理。
或使用 github-repository、github-serp 和 github-profile 抓取器提取结构化 JSON。

免费开始实时查看

99% 成功率1.4 亿住宅 IP30 个地区

实时抓取信息流 · GitHub1.24M req/min流式传输

200github.com/search?q=llm+agents&type=repositoriesCA163ms

200github.com/search?q=web+scraping&type=repositoriesJP78ms

200github.com/openai/openai-pythonAU202ms

200github.com/facebook/reactUS198ms

200github.com/facebook/reactES140ms

200github.com/topics/web-scrapingBR168ms

200github.com/topics/web-scrapingJP77ms

200github.com/huggingfaceGB202ms

200github.com/anthropics/anthropic-sdk-pythonJP67ms

301github.com/anthropics/anthropic-sdk-python/issuesGB145ms

200github.com/torvaldsES161ms

200github.com/kubernetes/kubernetes/issuesUS177ms

200github.com/search?q=web+scraping&type=repositoriesNL154ms

200github.com/microsoftUS142ms

200github.com/search?q=llm+agents&type=repositoriesBR219ms

200github.com/facebook/reactAU40ms

200github.com/torvaldsSG148ms

200github.com/huggingfaceSG69ms

200github.com/vercel/next.js/issuesNL119ms

200github.com/torvalds/linuxCA207ms

200github.com/kubernetes/kubernetes/issuesUS62ms

200github.com/search?q=web+scraping&type=repositoriesBR193ms

200github.com/search?q=llm+agents&type=repositoriesIN91ms

200github.com/huggingfaceAU60ms

200github.com/facebook/reactNL212ms

200github.com/rust-lang/rustNL97ms

200github.com/search?q=llm+agents&type=repositoriesCA163ms

200github.com/search?q=web+scraping&type=repositoriesJP78ms

200github.com/openai/openai-pythonAU202ms

200github.com/facebook/reactUS198ms

200github.com/facebook/reactES140ms

200github.com/topics/web-scrapingBR168ms

200github.com/topics/web-scrapingJP77ms

200github.com/huggingfaceGB202ms

200github.com/anthropics/anthropic-sdk-pythonJP67ms

301github.com/anthropics/anthropic-sdk-python/issuesGB145ms

200github.com/torvaldsES161ms

200github.com/kubernetes/kubernetes/issuesUS177ms

200github.com/search?q=web+scraping&type=repositoriesNL154ms

200github.com/microsoftUS142ms

200github.com/search?q=llm+agents&type=repositoriesBR219ms

200github.com/facebook/reactAU40ms

200github.com/torvaldsSG148ms

200github.com/huggingfaceSG69ms

200github.com/vercel/next.js/issuesNL119ms

200github.com/torvalds/linuxCA207ms

200github.com/kubernetes/kubernetes/issuesUS62ms

200github.com/search?q=web+scraping&type=repositoriesBR193ms

200github.com/search?q=llm+agents&type=repositoriesIN91ms

200github.com/huggingfaceAU60ms

200github.com/facebook/reactNL212ms

200github.com/rust-lang/rustNL97ms

01 实时演示

三个 GitHub 抓取器，实时演示。

Crawling API 实时演示。观看 github-repository、github-serp 和 github-profile 抓取器各自返回结构化 JSON。悬停以暂停并阅读。

就绪

按键 1-3 切换 · 点击暂停运行你自己的 URL

几分钟内运行你的第一个请求。最多 20,000 次免费请求，无需信用卡。免费开始

02 功能

一个 API，应对 GitHub 抛来的一切。

GitHub 在客户端渲染仓库并采取严格的速率限制。Crawling API 在真实浏览器中加载完整页面，通过住宅 IP 访问，并向你交付干净的 HTML 或 JSON。

渲染

完整的 JavaScript 渲染

真实浏览器执行页面，因此 README、星标、复刻、语言和文件树都会渲染并进入 HTML，而不仅仅是初始标记。

代理

1.4 亿住宅 IP

每个请求都会在 30 个地区间轮换住宅 IP，因此你能像真实的本地访客一样访问 GitHub。

反爬虫

为你处理拦截

速率限制、机器人检查和验证页面都会被自动清除。无需应付个人访问令牌，也无需维护任何东西。

格式

HTML 或 JSON

获取完整渲染的 HTML，或添加 scraper=github-repository、github-serp 或 github-profile，即可将仓库、搜索结果和个人资料以结构化 JSON 返回。

附加功能

截图与异步

同一个调用可以捕获整页截图，或通过 webhook 和云存储异步运行。

一个令牌

一个 API 应对所有站点

Crawling API 适用于任意 URL，因此同一个令牌可覆盖 GitHub 以及你抓取的其他一切。查看实时演示.

03 输出

每个仓库字段，都是干净的 JSON。

发送仓库 URL 并附上 scraper=github-repository 仓库便会以类型化的 JSON 返回。使用 github-serp 或 github-profile 即可对搜索结果和个人资料执行相同操作。

{ "name": "rails", "fullName": "rails/rails", "url": "https://github.com/rails/rails", "description": "Ruby on Rails", "stars": 58789, "forks": 22414, "watchers": 3819, "primaryLanguage": "Ruby", "languages": [ "Ruby", "JavaScript", "HTML" ], "topics": [ "ruby", "rails", "framework" ], "openIssues": 612, "latestRelease": "v8.1.3", "defaultBranch": "main", "license": "MIT license", "archived": false }

身份

name · string fullName · string url · string description · string

热度

stars · number forks · number watchers · number

技术栈

primaryLanguage · string languages · array topics · array

活动

openIssues · number latestRelease · string defaultBranch · string

元数据

license · string archived · boolean

04 工作原理

一次调用，从 URL 到数据。

每个 GitHub 请求都走同一条路径。你发送一个 URL，我们负责其间的一切。

发送 URL

携带你的令牌传入任意公开的 GitHub URL：仓库、议题、个人资料或搜索。

轮换代理

从跨 30 个地区的 1.4 亿 IP 中选取一个能顺畅访问 GitHub 的住宅 IP 和地区。

渲染页面

真实浏览器加载仓库页面，因此 README、星标、复刻、语言和文件树在捕获前完成渲染。

清除反爬虫

GitHub 的速率限制和机器人检查都会被自动处理。无需应付令牌，也无需维护任何东西。

返回 HTML 或 JSON

完整渲染的 HTML 会返回，或者在你添加 github-repository、github-serp 或 github-profile 等抓取器时返回类型化的 JSON。

05 用例

团队用 GitHub 数据构建什么。

USE / 01OSS

开源与开发者情报

跟踪仓库、星标、复刻、语言和发布版本，绘制开源版图，了解谁在构建什么。

USE / 02趋势

依赖与趋势跟踪

关注主题、搜索页面和发布活动，尽早发现崭露头角的库、框架和工具。

USE / 03招聘

招聘与开发者关系

挖掘公开个人资料和贡献，找到维护者、发掘人才并触达合适的开发者社区。

USE / 04训练

代码模型的训练数据

通过一个 API 将干净的 README 和页面文本输入模型、RAG 流水线和编码智能体。

USE / 05安全

安全与供应链研究

监控公开仓库、议题和依赖，研究软件包和供应链风险。

USE / 06覆盖范围

任意 URL，一个 API

抓取仓库、议题、个人资料、主题和搜索，以及你需要的任何其他站点。

06 说明

抓取 GitHub 时需要了解的要点。

像真实浏览器一样渲染

GitHub 在客户端渲染仓库；Crawling API 运行真实浏览器，因此 README、星标、复刻、语言和文件树都会在捕获前加载。

默认 HTML，按需 JSON

你会得到完整渲染的 HTML。添加 scraper=github-repository、github-serp 或 github-profile 以获取已解析的 JSON，或自行解析 HTML。

无需 GitHub 令牌或 API 限制

你指向的是公开网页，因此没有需要轮换的个人访问令牌，也无需为 REST API 速率限制做预算。

仅限公开仓库和个人资料

Crawling API 读取公开可见的页面，无需登录，因此你得到的是登出访客所看到的内容。

07 为何选择 Crawlbase

为大规模抓取 GitHub 而生。

Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络之上。无需购买代理，无需运行浏览器，GitHub 变动时也无需打补丁。

99%

平均请求成功率

140M

住宅 IP，另加 9800 万数据中心 IP

用于精准本地结果的地区数

20/s

默认每秒请求数，可按需提升

一个令牌，面向 Python、Node 和 Ruby 的官方 SDK，以及底层 99.99% 正常运行时间的网络。

08 FAQ

GitHub 抓取常见问题。

携带你的令牌将 GitHub URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换一个住宅代理，在真实浏览器中渲染页面，清除机器人检查，并返回完整渲染的 HTML。添加专用抓取器（scraper=github-repository、github-serp 或 github-profile）即可改为获取结构化 JSON。

可以。默认情况下 Crawling API 返回渲染后的 HTML；添加专用的 GitHub 抓取器（scraper=github-repository 用于仓库、github-serp 用于搜索、github-profile 用于个人资料）即可接收结构化 JSON，或自行解析 HTML。

不需要。你将 Crawling API 指向公开网页，因此没有需要签发或轮换的个人访问令牌，也无需为 REST API 速率限制做预算。Crawlbase 会为你访问 GitHub。

Crawlbase 将每个请求通过跨 30 个地区的轮换住宅 IP 路由，并自动清除机器人检查。你无需管理代理或应付令牌，GitHub 变更其配置时也无需维护任何东西。

会。真实浏览器加载仓库页面，因此渲染后的 README、星标、复刻、语言和文件树都存在于 HTML 中，而不仅仅是初始标记。

任意公开 URL：仓库、议题和拉取请求、用户和组织的个人资料、主题页面和搜索结果。同一个 API 同样适用于任何其他站点。

免费开始，含最多 20,000 次请求且无需信用卡。付费套餐随用量扩展，同一个令牌可跨 Crawling API 和每一个 Crawlbase 抓取器通用。

开始抓取 GitHub。
摆脱令牌和速率限制。

免费起步，含最多 20,000 次请求。一个令牌通用于 Crawling API 和每一个抓取器。

免费开始阅读文档