Crawling API / Yandex

Yandex 抓取器。
任意 SERP,完全渲染。

发送任意 Yandex 搜索 URL,即可获取完全渲染的 HTML,通过住宅代理返回并内置 SmartCaptcha 处理。
使用通用提取器将其转为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
Yandex URLHTML or JSONyandex.com/search/?text=web+scrapingCrawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractoryandex.com · 速率限制已改道 · 200
实时抓取动态 · Yandex1.24M req/min流式传输
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54JP78ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2IN207ms
200yandex.com/search/?text=machine+learning+courseSG59ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2US192ms
200yandex.com/search/?text=crm+software&lr=143JP199ms
200yandex.com/search/?text=crm+software&lr=143BR77ms
200yandex.com/search/?text=hotels+in+sochi&lr=239GB83ms
200yandex.com/search/?text=web+scrapingDE165ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2DE76ms
200yandex.com/search/?text=crm+software&lr=143NL113ms
301yandex.ru/search/?text=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3+%D1%81%D0%B0%D0%B9%D1%82%D0%BE%D0%B2BR72ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54FR78ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54US80ms
301yandex.com/search/?text=seo+tools&lr=213BR56ms
200yandex.com/search/?text=crm+software&lr=143CA70ms
200yandex.com/search/?text=residential+proxiesIN113ms
200yandex.ru/search/?text=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%BD%D0%BE%D1%83%D1%82%D0%B1%D1%83%D0%BA&lr=2DE179ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54GB183ms
200yandex.com/search/?text=web+scrapingSG48ms
200yandex.com/search/?text=machine+learning+courseNL57ms
200yandex.com/search/?text=python+tutorialUS77ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2DE184ms
200yandex.com/search/?text=crm+software&lr=143BR198ms
200yandex.com/search/?text=residential+proxiesAU125ms
200yandex.com/search/?text=hotels+in+sochi&lr=239ES118ms
200yandex.com/search/?text=python+tutorialES43ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54JP78ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2IN207ms
200yandex.com/search/?text=machine+learning+courseSG59ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2US192ms
200yandex.com/search/?text=crm+software&lr=143JP199ms
200yandex.com/search/?text=crm+software&lr=143BR77ms
200yandex.com/search/?text=hotels+in+sochi&lr=239GB83ms
200yandex.com/search/?text=web+scrapingDE165ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2DE76ms
200yandex.com/search/?text=crm+software&lr=143NL113ms
301yandex.ru/search/?text=%D0%BF%D0%B0%D1%80%D1%81%D0%B8%D0%BD%D0%B3+%D1%81%D0%B0%D0%B9%D1%82%D0%BE%D0%B2BR72ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54FR78ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54US80ms
301yandex.com/search/?text=seo+tools&lr=213BR56ms
200yandex.com/search/?text=crm+software&lr=143CA70ms
200yandex.com/search/?text=residential+proxiesIN113ms
200yandex.ru/search/?text=%D0%BA%D1%83%D0%BF%D0%B8%D1%82%D1%8C+%D0%BD%D0%BE%D1%83%D1%82%D0%B1%D1%83%D0%BA&lr=2DE179ms
200yandex.ru/search/?text=%D0%B2%D0%B0%D0%BA%D0%B0%D0%BD%D1%81%D0%B8%D0%B8+%D0%BC%D0%B0%D1%80%D0%BA%D0%B5%D1%82%D0%BE%D0%BB%D0%BE%D0%B3&lr=54GB183ms
200yandex.com/search/?text=web+scrapingSG48ms
200yandex.com/search/?text=machine+learning+courseNL57ms
200yandex.com/search/?text=python+tutorialUS77ms
200yandex.ru/search/?text=%D1%80%D0%B5%D0%B9%D1%82%D0%B8%D0%BD%D0%B3+%D1%81%D0%BC%D0%B0%D1%80%D1%82%D1%84%D0%BE%D0%BD%D0%BE%D0%B2&lr=2DE184ms
200yandex.com/search/?text=crm+software&lr=143BR198ms
200yandex.com/search/?text=residential+proxiesAU125ms
200yandex.com/search/?text=hotels+in+sochi&lr=239ES118ms
200yandex.com/search/?text=python+tutorialES43ms
01 实时演示

任意 Yandex URL 输入。HTML 或 JSON 输出。

Crawling API,实时输入。获取渲染后的 HTML,或切换到通用提取器以获取 JSON。悬停以暂停并阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一次请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 Yandex 抛来的一切。

Yandex 结果由 JavaScript 渲染,地域限定于俄罗斯和独联体,并由 SmartCaptcha 守护。Crawling API 在真实浏览器中渲染 SERP,通过所在地区的住宅 IP 访问,并向你交付干净的 HTML 或 JSON。

render

完整 JavaScript 渲染

真实浏览器执行页面,因此动态渲染的结果、标题、摘要和结果 URL 全部被捕获,而不仅仅是初始 HTML。

proxies

1.4 亿住宅 IP

每次请求都会在 30 个地区轮换一个住宅 IP,覆盖俄罗斯和独联体,让你像真实的本地访客一样访问 Yandex。

anti-bot

为你处理 SmartCaptcha

Yandex SmartCaptcha、机器人墙和速率限制会被自动清除。无需求解,无需维护。

format

HTML 或 JSON

获取完全渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。

extras

截图与异步

同一次调用可以捕获整页截图,或通过 Webhook 和云存储异步运行。

one token

一个 API 适用于每个网站

Crawling API 适用于任意 URL,因此同一个令牌可覆盖 Yandex 以及你抓取的其他一切。 查看实时演示.

03 输出

渲染后的 HTML,或干净的 JSON。

默认情况下你将获得渲染后的 HTML。添加 generic-extractor 后,同一页面将以类型化的 JSON 返回。

{ "title": "web scraping: Yandex search", "favicon": "https://yastatic.net/favicon.ico", "meta": { "description": "Yandex search results.", "keywords": "..." }, "content": "Organic results, titles, snippets and result URLs for the query...", "canonical": "https://yandex.com/search/?text=web+scraping", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

从 URL 到数据,一次调用完成。

每个 Yandex 请求都经过相同的路径。你发送一个 URL,中间的一切由我们处理。

01

发送 URL

使用你的令牌传入任意公开的 Yandex 搜索 URL:一个查询、一个带 lr 参数的地区,可在 yandex.com 或 yandex.ru 上。

02

轮换代理

一个能干净访问 Yandex 的住宅 IP 和地理位置,覆盖俄罗斯和独联体,取自遍布 30 个地区的 1.4 亿 IP。

03

渲染页面

真实浏览器加载 SERP,因此 JavaScript 渲染的结果、摘要和结果 URL 会在捕获之前渲染完成。

04

清除反机器人

Yandex SmartCaptcha 和速率限制会被自动处理。无需求解,无需维护。

05

返回 HTML 或 JSON

返回完全渲染的 HTML,或在你添加通用提取器时返回类型化的 JSON。

05 使用场景

团队用 Yandex 数据构建什么。

USE / 01排名

排名追踪

追踪关键词在 Yandex 上跨查询和地区的位置,以监控在俄罗斯和独联体市场的可见度。

USE / 02SERP

SERP 监控

关注结果页面的排名变化、新竞争者以及随时变动的 SERP 特性。

USE / 03SEO

SEO 研究

拉取标题、摘要和结果 URL,以研究俄罗斯和独联体市场的意图与竞争格局。

USE / 04发现

链接与线索发现

从搜索页面挖掘结果 URL 和域名,以构建链接、潜在客户和线索列表。

USE / 05训练

训练数据与 RAG

通过一个 API 将干净的 Yandex SERP 文本喂入模型、RAG 管道和智能体。

USE / 06覆盖

任意 URL,一个 API

抓取 Yandex 查询和地区,以及你需要的任何其他网站。

06 须知

抓取 Yandex 时值得了解的事。

像真实浏览器一样渲染

Yandex 结果由 JavaScript 渲染;Crawling API 运行真实浏览器,因此自然结果、标题、摘要和结果 URL 会在捕获之前加载完成。

默认 HTML,按需 JSON

你将获得完全渲染的 HTML。添加 scraper=generic-extractor 即可解析标题、内容、图片和链接,或者你也可以自行从 HTML 中解析结果标题、摘要和 URL。

针对俄罗斯和独联体的地理定位

Yandex 结果受地域限定,因此设置国家和 lr 地区参数即可返回来自俄罗斯和独联体的本地 SERP,通过匹配地区的住宅 IP 送达。

自动清除 SmartCaptcha

Yandex SmartCaptcha 和访问量速率限制会为你处理,因此稳定的 SERP 采集无需人工求解即可持续运行。

07 为什么选择 Crawlbase

为大规模抓取 Yandex 而生。

Crawling API 运行在服务于 46,000+ 付费客户和 70,000+ 开发者的同一网络上。无需购买代理,无需运行浏览器,Yandex 变动时也无需修补任何东西。

99%
平均请求成功率
140M
住宅 IP,另加 9,800 万数据中心 IP
30
用于准确本地结果的地区数
20/s
默认每秒请求数,可按需增加

一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。

08 FAQ

Yandex 抓取问题。

使用你的令牌将 Yandex 搜索 URL 发送到 Crawlbase Crawling API。Crawlbase 会在俄罗斯或独联体轮换一个住宅代理,在真实浏览器中渲染页面,清除 SmartCaptcha,并返回完全渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。默认情况下 Crawling API 返回渲染后的 HTML;添加通用提取器(scraper=generic-extractor)即可以 JSON 形式接收标题、元数据、内容、图片和链接,或者你也可以自行从 HTML 中解析结果标题、摘要和 URL。
会。真实浏览器执行页面,因此 JavaScript 渲染的结果、摘要和结果 URL 会被捕获,而不仅仅是初始 HTML。
Crawlbase 通过轮换住宅 IP 路由每次请求,并自动清除 SmartCaptcha 和速率限制。你无需管理代理或求解 CAPTCHA,Yandex 更改其设置时也无需维护任何东西。
可以。Yandex 结果受地域限定,因此你设置国家和 lr 地区参数即可返回你需要的来自俄罗斯和独联体的本地 SERP,并使用匹配地区的住宅 IP。
任意公开 URL:yandex.com 和 yandex.ru 上的搜索结果页面,按查询和地区。同一个 API 也适用于任何其他网站。
免费开始,赠送最多 10,000 次请求,无需信用卡。付费套餐随用量扩展,同一个令牌可在 Crawling API 和每款 Crawlbase 抓取器中通用。

开始抓取 Yandex。
跳过 SmartCaptcha 和封锁。

免费起步,赠送最多 10,000 次请求。一个令牌,通用于 Crawling API 和每款抓取器。