输入任意 OLX URL,输出 HTML 或 JSON。
Crawling API 实时输入演示。获取渲染后的 HTML,或切换到 generic extractor 获取 JSON。悬停即可暂停阅读。
一个 API,应对 OLX 的一切。
OLX 使用 JavaScript 和延迟加载的图片渲染房源、价格和卖家信息,并通过位置和机器人检测限制页面访问。Crawling API 在真实浏览器中渲染页面,通过住宅 IP 访问,并为你返回干净的 HTML 或 JSON。
完整 JavaScript 渲染
真实浏览器执行页面,因此由 JavaScript 渲染的价格、卖家信息和延迟加载的房源图片都会被捕获,而不仅仅是初始 HTML。
1.4 亿住宅 IP
每次请求都会在 30 个地区轮换住宅 IP,因此你可以像真实本地访客一样访问每个 OLX 国家/地区域名。
为你处理封锁
搜索和商品页面上的 CAPTCHA、机器人墙和速率限制都会被自动清除。无需破解,无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor 以将标题、内容、图片和链接作为结构化 JSON 返回。
截图与异步
同一个调用可以捕获整页截图,或通过 webhook 和云存储异步运行。
渲染的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一页面就会以类型化 JSON 的形式返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 OLX 请求都经过相同的路径。你发送一个 URL,其间的一切由我们操作。
发送 URL
使用你的令牌传入任意公开的 OLX URL:商品房源、类目、城市页面或搜索。
轮换代理
从 30 个地区的 1.4 亿 IP 中选取住宅 IP 和地区,干净地访问相应的 OLX 国家/地区域名。
渲染页面
真实浏览器加载页面,因此由 JavaScript 渲染的价格、卖家信息和延迟加载的图片会在捕获前渲染完成。
清除反爬
搜索和商品页面上的 OLX 机器人检测和速率限制会被自动处理。无需破解,无需维护。
返回 HTML 或 JSON
返回完整渲染的 HTML,或在你添加 generic extractor 时返回类型化 JSON。
团队基于 OLX 数据构建什么。
市场聚合
将跨类目、城市和 OLX 国家/地区域名的商品房源汇入一个标准化的数据流。
价格监控
长期追踪汽车、电子产品和房产的要价,发现趋势和异常值。
房源研究
挖掘标题、描述和属性,衡量供给、需求和类目覆盖情况。
线索生成
从公开房源中收集卖家和经销商信息,构建潜在客户名单。
地理定向覆盖
从匹配的地区访问 olx.in、olx.com.pk、olx.com.br 和 olx.pl,获得准确的本地结果。
任意 URL,一个 API
抓取商品、类目、城市和搜索,以及你需要的任何其他网站。
抓取 OLX 时值得了解的信息。
像真实浏览器一样渲染
OLX 使用 JavaScript 和延迟加载的图片渲染房源、价格和卖家信息;Crawling API 运行真实浏览器,因此它们在捕获前会加载完成。
默认返回 HTML,按需返回 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、内容、图片和链接,或自行解析 HTML。
跨国家/地区域名的地理定向
OLX 运行多个国家/地区域名并按位置限制页面访问;选择匹配的地区,让 olx.in、olx.com.pk、olx.com.br 和 olx.pl 返回本地结果。
处理搜索和商品页面
搜索和商品页面上的机器人检测会在 30 个地区和 1.4 亿住宅 IP 上自动清除,无需管理代理。
为大规模抓取 OLX 而打造。
Crawling API 运行在为 46,000+ 付费客户和 70,000+ 开发者提供服务的同一网络上。无需购买代理,无需运行浏览器,OLX 变更时也无需修补任何内容。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,以及底层 99.99% 正常运行时间的网络。