任意 Duolingo URL 输入。HTML 或 JSON 输出。
Crawling API,实时演示。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。
一个 API,应对 Duolingo 抛给你的一切。
Duolingo 是一个 JavaScript 单页应用,其课程树、排行榜和个人资料通过内部 API 渲染,且应用页面和个人资料页面上都有机器人检测。Crawling API 在真实浏览器中渲染它,通过住宅 IP 访问它,并向你交付干净的 HTML 或 JSON。
完整的 JavaScript 渲染
真实浏览器执行该单页应用,因此通过内部 API 加载的课程单元、课时、排行榜和个人资料数据都会被捕获,而不仅仅是初始外壳。
1.4 亿住宅 IP
每个请求都会在 30 个地区之间轮换住宅 IP,因此你能像真实的本地学习者一样访问 Duolingo。
拦截由我们处理
CAPTCHA、机器人墙和速率限制都会被自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor以将标题、内容、图片和链接作为结构化 JSON 返回。
截图与异步
同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一页面即以类型化的 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Duolingo 请求都走同样的路径。你发送一个 URL,其间的一切由我们操作。
发送 URL
用你的令牌传入任意公开的 Duolingo URL:课程、目录、排行榜或公开个人资料。
轮换代理
一个能顺畅访问 Duolingo 的住宅 IP 和地区,取自遍布 30 个地区的 1.4 亿 IP。
渲染页面
真实浏览器加载该单页应用,使课程单元、排行榜和个人资料数据在捕获前完成渲染。
清除反爬机制
Duolingo 在应用页面和个人资料页面上的机器人检测会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化的 JSON。
团队用 Duolingo 数据构建什么。
课程与内容监控
在 Duolingo 更新课程时,跨语言对追踪课程单元、课时和目录的变化。
语言学习数据
收集课程内容、练习提示和本地化字符串,以研究课时是如何构建的。
竞争分析
将课程覆盖范围、功能和排行榜与其他语言学习应用进行对标。
本地化研究
比较同一课程在源语言和目标语言之间的差异,为翻译和本地化工作提供依据。
训练数据与 RAG
通过一个 API 将干净的 Duolingo 文本输入模型、RAG 流水线和智能体。
任意 URL,一个 API
抓取课程、目录、排行榜和个人资料,以及你需要的任何其他站点。
抓取 Duolingo 时值得了解的事项。
像真实浏览器一样渲染
Duolingo 是一个单页应用;Crawling API 运行真实浏览器,使课程树、排行榜和个人资料数据在捕获前通过其内部 API 加载完成。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、内容、图片和链接,或自行解析 HTML。
语言对位于路径中
课程 URL 携带源语言和目标语言,因此你可以定位特定的语言对,并对请求进行地理定位以获取本地化内容。
从任何地方访问 Duolingo
跨 30 个地区和 1.4 亿住宅 IP 的地理定位意味着一致的访问,无需管理代理。
为大规模抓取 Duolingo 而生。
Crawling API 运行在同一张网络上,该网络服务着 46,000+ 付费客户和 70,000+ 开发者。无需购买代理,无需运行浏览器,Duolingo 变更时也无需打补丁。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。