输入任意 Walmart URL。输出结构化 JSON。
三个 Walmart 采集器,实时输入。切换标签页,或悬停暂停以便阅读。
Walmart 的每个部分,均已解析。
三个托管的 Walmart 采集器共享同一个 API、同一个令牌和同一套住宅代理网络。将其中任意一个指向某个 URL,即可获得类型化的 JSON,而非原始 HTML。
商品详情
将商品页面解析为 标题、品牌、价格、评分、reviewsCount、图片、功能要点、描述、 soldBy、配送选项、保修以及 Walmart 的 itemId。
搜索结果
将任意搜索 URL 转为商品列表,每个商品包含位置、标题、价格、评分和评论数,以及畅销和缺货标记、结果数量和分页。
分类列表
将任意分类或浏览 URL 读取为有序的 JSON:逐页返回每个商品的位置、标题、价格、评分和库存状态。
干净的字段,而非原始 HTML。
对 walmart-product-details 的调用会返回类型化的 JSON。以下是单个 Walmart 商品页面的数据结构。
标识
title · string brand · string itemId · string
定价
price · string currency · string
评分
ratings · string reviewsCount · string reviews · array
履约
soldBy · string deliveryOption · string returnPolicy · string
内容
features · array description · string images · array
一次调用,从 URL 到 JSON。
每个 Walmart 请求都经过同一条路径。你发送一个 URL,中间的一切由我们处理。
发送 URL
携带你的令牌和一个采集器,传入任意 Walmart 商品、搜索或分类 URL。
轮换代理
从覆盖 30 个地区的 1.4 亿 IP 中选取一个可干净访问 Walmart 的住宅 IP 和地理位置。
渲染页面
当 Walmart 需要 JavaScript 时,由真实浏览器加载列表,从而捕获实时价格和库存。
清除反爬
Walmart 的机器人拦截页和访问检查会被自动清除。无需求解任何内容,Walmart 变更时也无需维护。
返回 JSON
页面被解析为类型化字段并以 JSON 返回,如果你更愿意自行解析,也可返回原始 HTML。
各团队基于 Walmart 数据构建什么。
价格与库存监控
跨数千个 Walmart 商品和地区跟踪价格与库存,为重新定价、告警和仪表板提供支持。
商品组合与目录
读取分类和搜索页面,以描绘 Walmart 的目录、货架占比以及随时间推移的新品情况。
评论与评分洞察
大规模收集评分和评论,用于情感分析、缺陷检测和产品研究。
卖家与履约跟踪
查看是谁售出了商品以及配送选项,以跟踪第一方与第三方以及购买栏(buy box)。
竞争与市场研究
将 Walmart 的列表与其他零售商进行对比,以描绘需求、价格差距和竞争对手动向。
训练数据与智能体
通过同一个 API 将干净的 Walmart JSON 输入到模型、RAG 流程和购物智能体中。
采集 Walmart 时需要了解的事项。
itemId 与规范 URL
Walmart 商品以 /ip/ URL 中的数字 itemId 作为键。每个响应都会返回该 itemId 以及规范的 productLink,因此你可以干净地去重,并与自己的目录进行关联。
第一方与第三方
soldBy 字段会告诉你商品是由 Walmart.com 还是由第三方卖家履约,而这正是驱动购买栏(buy box)、MAP 和商品组合分析的因素。
搜索与分类共用同一结构
walmart-serp 读取关键词搜索,walmart-category 读取浏览页面;两者返回带有位置和分页的相同商品对象,因此一个解析器即可处理二者。
实时库存与配送
outOfStock 和 deliveryOption 字段反映实时可用性,因此跨地区的地理定位对于准确的本地库存和定价至关重要。
专为大规模采集 Walmart 而打造。
Walmart 采集器运行在同一套网络上,该网络服务着 46,000+ 付费客户和 70,000+ 开发者。无需购买代理,无需运行浏览器,Walmart 变更时也无需修补任何内容。
一个令牌,面向 Python、Node 和 Ruby 的官方 SDK,底层是 99.99% 正常运行时间的网络。