开发者通常使用代理(轮换或静态)来抓取 Amazon 公开页面,避免服务器 IP 被封。需要官方 API 不提供的 Amazon 公开数据的团队,最终不得不维护一份优质的代理列表。在自己这边保持代理健康既复杂又昂贵,但没有它们,你的爬虫就会被封。
01成本
住宅代理或数据中心代理成本与 Amazon API 的对比
权衡维护一份庞大代理列表(比如 20,000 个代理)的成本,与使用 Amazon API 获取商品详情、价格比较、相似商品以及跨市场的库存情况。有些用例需要住宅代理:在数据中心 IP 上你不太可能看到 Amazon Sponsored Ads。
代理往往比 Amazon 开发者 API 更便宜。你可以向 Amazon’s 开发者 API 支持团队申请配额,他们会提供拉取 Amazon 数据的说明和成本汇总。
02数据
网页抓取得到的数据与 Amazon API 得到的数据
网页抓取得到的数据与 Amazon API 得到的数据并不相同,而且以后也不太可能相同。原因有几点:
- API 是有限的,只暴露网站选择暴露的内容。
- 网页抓取能给你带来任何网站’s API 中可能永远不会出现的数据。
- 抓取质量因你的抓取工具而异。较弱的抓取工具可能会遗漏 API 会包含的信息。
- API 是一致的,因此使用它们有助于让你持续运行。
03地理
使用地理代理抓取 Amazon 市场
抓取某个 Amazon 市场时,请用正确的地理定位代理去请求。为什么这很重要:
- 结果因市场而异。用欧洲 IP 访问 Amazon.com 返回的结果、语言和详情,与美国 IP 不同。
- Amazon Prime 页面在某些市场存在,在另一些市场不存在,因此正确的代理能提升覆盖率和数据质量。
- 如果你用亚洲 IP 去请求(比如)德国市场,Amazon 更有可能显示 CAPTCHA,因为这类流量看起来不正常。
04 Crawlbase API
将您的 Amazon 抓取器切换到 Crawlbase API。
在 Crawlbase,我们让访问 Amazon 数据变成对我们 API 的一个简单 GET 请求。你只需请求一个端点,仅此而已,没有额外步骤。
我们的 API 相较于 Amazon API 和代理列表的主要优势:
- 面向任何网站(包括 Amazon)的简易接口。
- 将你的流量地理定位到任何 Amazon 市场。
- 接收原始 HTML 或经过抓取的结构化数据。
- 无需维护代理列表。
- 无需担心 CAPTCHA 页面或被封的 IP。
- 渲染需要真实浏览器和 JavaScript 的页面。
- 扩展到你的项目所需的任何规模。
05 定价