输入任意 GitHub URL,输出 HTML 或 JSON。
Crawling API 实时演示。获取渲染后的 HTML,或切换到通用提取器获取 JSON。悬停以暂停并阅读。
一个 API,应对 GitHub 抛来的一切。
GitHub 在客户端渲染仓库并采取严格的速率限制。Crawling API 在真实浏览器中加载完整页面,通过住宅 IP 访问,并向你交付干净的 HTML 或 JSON。
完整的 JavaScript 渲染
真实浏览器执行页面,因此 README、星标、复刻、语言和文件树都会渲染并进入 HTML,而不仅仅是初始标记。
1.4 亿住宅 IP
每个请求都会在 30 个地区间轮换住宅 IP,因此你能像真实的本地访客一样访问 GitHub。
为你处理拦截
速率限制、机器人检查和验证页面都会被自动清除。无需应付个人访问令牌,也无需维护任何东西。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 即可将标题、内容、图片和链接以结构化 JSON 返回。
截图与异步
同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会得到渲染后的 HTML。添加 generic-extractor 同一页面便会以类型化的 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 GitHub 请求都走同一条路径。你发送一个 URL,我们负责其间的一切。
发送 URL
携带你的令牌传入任意公开的 GitHub URL:仓库、议题、个人资料或搜索。
轮换代理
从跨 30 个地区的 1.4 亿 IP 中选取一个能顺畅访问 GitHub 的住宅 IP 和地区。
渲染页面
真实浏览器加载仓库页面,因此 README、星标、复刻、语言和文件树在捕获前完成渲染。
清除反爬虫
GitHub 的速率限制和机器人检查都会被自动处理。无需应付令牌,也无需维护任何东西。
返回 HTML 或 JSON
完整渲染的 HTML 会返回,或者在你添加通用提取器时返回类型化的 JSON。
团队用 GitHub 数据构建什么。
开源与开发者情报
跟踪仓库、星标、复刻、语言和发布版本,绘制开源版图,了解谁在构建什么。
依赖与趋势跟踪
关注主题、搜索页面和发布活动,尽早发现崭露头角的库、框架和工具。
招聘与开发者关系
挖掘公开个人资料和贡献,找到维护者、发掘人才并触达合适的开发者社区。
代码模型的训练数据
通过一个 API 将干净的 README 和页面文本输入模型、RAG 流水线和编码智能体。
安全与供应链研究
监控公开仓库、议题和依赖,研究软件包和供应链风险。
任意 URL,一个 API
抓取仓库、议题、个人资料、主题和搜索,以及你需要的任何其他站点。
抓取 GitHub 时需要了解的要点。
像真实浏览器一样渲染
GitHub 在客户端渲染仓库;Crawling API 运行真实浏览器,因此 README、星标、复刻、语言和文件树都会在捕获前加载。
默认 HTML,按需 JSON
你会得到完整渲染的 HTML。添加 scraper=generic-extractor 以获取已解析的标题、内容、图片和链接,或自行解析 HTML。
无需 GitHub 令牌或 API 限制
你指向的是公开网页,因此没有需要轮换的个人访问令牌,也无需为 REST API 速率限制做预算。
仅限公开仓库和个人资料
Crawling API 读取公开可见的页面,无需登录,因此你得到的是登出访客所看到的内容。
为大规模抓取 GitHub 而生。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络之上。无需购买代理,无需运行浏览器,GitHub 变动时也无需打补丁。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,以及底层 99.99% 正常运行时间的网络。