Crawling API / OLX

OLX 抓取工具。
任意页面,完整渲染。

发送任意 OLX URL,即可获取完整渲染的 HTML,通过住宅代理返回并内置反爬处理。
使用 generic extractor 将其转换为 JSON。

99% 成功率1.4 亿住宅 IP30 个地区
OLX 网址HTML 或 JSONwww.olx.in/item/honda-civic-2020Crawlbase路由渲染提取渲染后的 HTML结构化 JSONcrawling-apigeneric-extractorolx.in · 已通过机器人检测 · 200
实时抓取动态 · OLX1.24M req/min流式传输
200www.olx.in/items/q-iphone-13JP128ms
200www.olx.in/electronicsJP179ms
200www.olx.pl/warszawaJP95ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665GB197ms
200www.olx.com.pk/lahoreIN125ms
200www.olx.pl/elektronikaAU70ms
200www.olx.in/electronicsBR113ms
200www.olx.in/item/honda-civic-2020-iid-1234567890DE71ms
200www.olx.in/real-estate_c84AU160ms
301www.olx.in/real-estate_c84ES87ms
200www.olx.in/electronicsES116ms
200www.olx.in/items/q-royal-enfieldDE78ms
200www.olx.com.pk/lahoreFR98ms
200www.olx.in/item/honda-civic-2020-iid-1234567890CA74ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665ES46ms
200www.olx.in/cars_c84DE97ms
200www.olx.com.br/items/q-notebook-dellGB151ms
200www.olx.in/items/q-royal-enfieldJP113ms
200www.olx.com.pk/lahoreIN189ms
200www.olx.pl/warszawaAU109ms
200www.olx.in/items/q-iphone-13CA45ms
200www.olx.com.br/sao-paulo-e-regiaoIN185ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665DE166ms
200www.olx.pl/d/oferta/rower-gorski-trek-iid-7741209.htmlIN143ms
200www.olx.in/item/honda-civic-2020-iid-1234567890DE214ms
200www.olx.in/mumbaiBR216ms
200www.olx.in/items/q-iphone-13JP128ms
200www.olx.in/electronicsJP179ms
200www.olx.pl/warszawaJP95ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665GB197ms
200www.olx.com.pk/lahoreIN125ms
200www.olx.pl/elektronikaAU70ms
200www.olx.in/electronicsBR113ms
200www.olx.in/item/honda-civic-2020-iid-1234567890DE71ms
200www.olx.in/real-estate_c84AU160ms
301www.olx.in/real-estate_c84ES87ms
200www.olx.in/electronicsES116ms
200www.olx.in/items/q-royal-enfieldDE78ms
200www.olx.com.pk/lahoreFR98ms
200www.olx.in/item/honda-civic-2020-iid-1234567890CA74ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665ES46ms
200www.olx.in/cars_c84DE97ms
200www.olx.com.br/items/q-notebook-dellGB151ms
200www.olx.in/items/q-royal-enfieldJP113ms
200www.olx.com.pk/lahoreIN189ms
200www.olx.pl/warszawaAU109ms
200www.olx.in/items/q-iphone-13CA45ms
200www.olx.com.br/sao-paulo-e-regiaoIN185ms
200www.olx.com.pk/item/toyota-corolla-2019-iid-998877665DE166ms
200www.olx.pl/d/oferta/rower-gorski-trek-iid-7741209.htmlIN143ms
200www.olx.in/item/honda-civic-2020-iid-1234567890DE214ms
200www.olx.in/mumbaiBR216ms
01 实时演示

输入任意 OLX URL,输出 HTML 或 JSON。

Crawling API 实时输入演示。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。

就绪
按键 1-2 切换 · 点击暂停运行你自己的 URL
几分钟内运行你的第一个请求。最多 10,000 次免费请求,无需信用卡。免费开始
02 功能

一个 API,应对 OLX 的一切。

OLX 使用 JavaScript 和延迟加载的图片渲染房源、价格和卖家信息,并通过位置和机器人检测限制页面访问。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并为你返回干净的 HTML 或 JSON。

渲染

完整 JavaScript 渲染

真实浏览器执行页面,因此由 JavaScript 渲染的价格、卖家信息和延迟加载的房源图片都会被捕获,而不仅仅是初始 HTML。

代理

1.4 亿住宅 IP

每次请求都会在 30 个地区轮换住宅 IP,因此你可以像真实本地访客一样访问每个 OLX 国家/地区域名。

反爬

为你处理封锁

搜索和商品页面上的 CAPTCHA、机器人墙和速率限制都会被自动清除。无需破解,无需维护。

格式

HTML 或 JSON

获取完整渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。

扩展

截图与异步

同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。

一个令牌

一个 API 适用于所有网站

Crawling API 适用于任意 URL,因此同一个令牌覆盖 OLX 以及你抓取的所有其他网站。 查看实时演示.

03 输出

渲染的 HTML,或干净的 JSON。

默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一页面就会以类型化 JSON 的形式返回。

{ "title": "Honda Civic 2020 for sale | OLX", "favicon": "https://www.olx.in/favicon.ico", "meta": { "description": "Find great deals on OLX.", "keywords": "..." }, "content": "Listing title, price, location, seller and description...", "canonical": "https://www.olx.in/item/honda-civic-2020-iid-1234567890", "images": [ "..." ], "og_images": [ "..." ], "links": [ "..." ] }

页面

title · string  canonical · string  favicon · string

元数据

meta.description · string  meta.keywords · string

内容

content · string

媒体

images · array  og_images · array

链接

links · array

04 工作原理

一次调用,从 URL 到数据。

每个 OLX 请求都经过相同的路径。你发送一个 URL,其间的一切由我们操作。

01

发送 URL

使用你的令牌传入任意公开的 OLX URL:商品房源、类目、城市页面或搜索。

02

轮换代理

从 30 个地区的 1.4 亿 IP 中选取住宅 IP 和地区,干净地访问相应的 OLX 国家/地区域名。

03

渲染页面

真实浏览器加载页面,因此由 JavaScript 渲染的价格、卖家信息和延迟加载的图片会在捕获前渲染完成。

04

清除反爬

搜索和商品页面上的 OLX 机器人检测和速率限制会被自动处理。无需破解,无需维护。

05

返回 HTML 或 JSON

返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化 JSON。

05 应用场景

团队基于 OLX 数据构建什么。

USE / 01市场

市场聚合

将跨类目、城市和 OLX 国家/地区域名的商品房源汇入一个标准化的数据流。

USE / 02定价

价格监控

长期追踪汽车、电子产品和房产的要价,发现趋势和异常值。

USE / 03研究

房源研究

挖掘标题、描述和属性,衡量供给、需求和类目覆盖情况。

USE / 04线索

线索生成

从公开房源中收集卖家和经销商信息,构建潜在客户名单。

USE / 05地理

地理定向覆盖

从匹配的地区访问 olx.in、olx.com.pk、olx.com.br 和 olx.pl,获得准确的本地结果。

USE / 06覆盖

任意 URL,一个 API

抓取商品、类目、城市和搜索,以及你需要的任何其他网站。

06 说明

抓取 OLX 时值得了解的信息。

像真实浏览器一样渲染

OLX 使用 JavaScript 和延迟加载的图片渲染房源、价格和卖家信息;Crawling API 运行真实浏览器,因此它们在捕获前会加载完成。

默认返回 HTML,按需返回 JSON

你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、内容、图片和链接,或自行解析 HTML。

跨国家/地区域名的地理定向

OLX 运行多个国家/地区域名并按位置限制页面访问;选择匹配的地区,让 olx.in、olx.com.pk、olx.com.br 和 olx.pl 返回本地结果。

处理搜索和商品页面

搜索和商品页面上的机器人检测会在 30 个地区和 1.4 亿住宅 IP 上自动清除,无需管理代理。

07 为什么选择 Crawlbase

为大规模抓取 OLX 而打造。

Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络上。无需购买代理,无需运行浏览器,OLX 变更时也无需修补任何内容。

99%
平均请求成功率
140M
住宅 IP,另有 9,800 万数据中心 IP
30
获得准确本地结果的地区数
20/s
默认每秒请求数,可按需增加

一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,以及底层 99.99% 正常运行时间的网络。

08 常见问题

OLX 抓取问题。

使用你的令牌将 OLX URL 发送到 Crawlbase Crawling API。Crawlbase 会轮换住宅代理,在真实浏览器中渲染页面,清除机器人检测,并返回完整渲染的 HTML。添加 scraper=generic-extractor 即可改为获取结构化 JSON。
可以。默认情况下 Crawling API 返回渲染的 HTML;添加 generic extractor(scraper=generic-extractor)即可以 JSON 形式接收标题、元数据、内容、图片和链接,或自行解析 HTML。
会。真实浏览器执行页面,因此由 JavaScript 渲染的价格、卖家信息和延迟加载的房源图片都会被捕获,而不仅仅是初始 HTML。
可以。OLX 运行多个国家/地区域名,例如 olx.in、olx.com.pk、olx.com.br 和 olx.pl。地理定向让你从匹配的地区访问每一个,且同一个 API 适用于所有域名。
Crawlbase 将每个请求通过 30 个地区轮换的住宅 IP 路由,并自动清除搜索和商品页面上的机器人检测。你无需管理代理或破解 CAPTCHA,且 OLX 更改其设置时也无需维护任何内容。
任意公开 URL:商品房源、类目和城市页面,以及跨 OLX 国家/地区域名的搜索结果。同一个 API 也适用于任何其他网站。
最多 10,000 次请求免费开始,无需信用卡。付费套餐随用量扩展,且同一个令牌适用于 Crawling API 和每一个 Crawlbase scraper。

开始抓取 OLX。
跳过代理和封锁。

最多 10,000 次请求免费起步。一个令牌适用于 Crawling API 和每一个 scraper。