大规模访问受地理位置限制的数据,仅仅轮换 IP 地址是不够的。您需要精确控制国家/地区和邮政编码的定向,以及自动处理屏蔽、会话和特定位置的 Cookie。当您需要从亚马逊获取精确到邮政编码的价格信息,或者从谷歌获取特定国家/地区的搜索结果时,传统的 VPN 和代理池就显得力不从心了。

Smart AI Proxy 这个问题可以通过允许用户使用请求头为每个请求指定地理位置来解决。同时,人工智能系统会根据实时响应信号来管理 IP 地址的选择、轮换和屏蔽缓解措施。

为什么难以大规模访问受地理限制的数据?

地理锁定数据会根据多个信号(而不仅仅是 IP 地址)进行更改。

关键因素包括:

  • 国家/地区特定的定价、搜索引擎结果页面和可用性
  • IP地理位置和ASN信誉
  • 请求头,例如 Accept-Language
  • Cookie 和配送位置信息

这就是为什么同一个 URL 会根据请求来源的不同而返回不同的 HTML 代码。

实际上,这种情况随处可见:

  • 亚马逊会根据国家和邮政编码显示不同的价格、税费和配送选项。
  • 谷歌搜索结果页面会因国家和城市而异
  • 本地市场会展示不同地区的卖家和库存。

当请求数量从少数几个增加到成千上万个时,保持所有这些信号的一致性就成了真正的挑战。

为什么 VPN 和手动代理设置无法实现地理定向数据抓取

大多数团队一开始都会使用 VPN 或简单的代理池,这些方法在早期测试阶段通常都能奏效。但一旦流量和精度要求变得重要,问题就会显现出来。

核心原因:

  • 桥梁 VPN 是为人类浏览而设计的而非自动 HTTP 请求
  • 代理池存在 IP 地址重用和地理漂移的问题。
  • 会话之间不会保留位置上下文
  • 如果没有浏览器自动化,就无法进行邮政编码级别的定向。

生产环境中常见的故障模式:

  • 地理位置定位结果不一致
  • 高验证码和屏蔽率
  • 跨区域的会话泄漏
  • 手动 IP 轮换和重试逻辑
  • 网站界面更改时,浏览器工作流程会变得脆弱。

一旦测试不再局限于少量请求,而是尝试扩展到多个市场或地区,这些问题就会迅速加剧。

什么是 Smart AI Proxy?

Smart AI Proxy 是一个单一的代理端点,地理位置、轮换和屏蔽等功能均由其自动处理。 Crawlbase 利用人工智能驱动的决策。您可以通过请求头控制每个请求的行为,而无需管理 IP 列表、Cookie 或浏览器。

所有流量都通过单个端点进行路由:

1
smartproxy.crawlbase.com:8012 或 8013

当您需要应用地理位置或其他行为时,您需要包含以下内容: Crawlbase例如,在请求中添加 API-Parameters 标头:

1
CrawlbaseAPI 参数:country=US&javascript=true

从那里, Crawlbase 接管。人工智能模型持续评估请求上下文、目标行为和历史结果,以选择合适的 IP 地址,将标头与目标区域对齐,管理 cookie 和会话状态,并验证响应是否与请求的位置匹配。

如何 Smart AI Proxy 自动处理地理位置信息?

自动IP选择和旋转

当你指定一个 国家参数country=GB, Crawlbase:

  • 使用人工智能辅助路由逻辑选择一个干净的英国IP地址
  • 应用匹配的标头,例如 Accept-Language
  • 将请求路由到该IP地址
  • 自动轮换 IP 地址以减少指纹识别。

您无需自行管理 IP 地址池、轮换规则或会话生命周期。

内置块缓解

Smart AI Proxy 自动处理常见的阻塞机制:

  • 将标头规范化为类似浏览器的模式
  • 通过 JavaScript 处理挑战 无头浏览器 (加 javascript=true)
  • 验证码检测,并自动重试
  • 检测到障碍物时,采用人工智能辅助解决方案的备用策略

您这边发送的请求仍然是标准的 HTTP 调用。您无需自行管理 IP 地址池、轮换规则或会话生命周期。

对于亚马逊页面, Smart AI Proxy 支持专用的邮政编码参数,该参数:

  • 生成特定邮政编码位置的 Cookie
  • 将它们注入到请求中
  • 确保送货地点与目标邮政编码一致
  • 保持请求之间的会话隔离

这种方法无需使用 Puppeteer、Playwright 或 Selenium 等浏览器自动化工具,同时还能生成与真实用户在特定位置看到的 HTML 相匹配的 HTML。

如何使用 Smart AI Proxy?

国家层面的目标设定需要三个步骤。

  1. 使用 Crawlbase Smart AI Proxy 端点: smartproxy.crawlbase.com:8012 (HTTP)或端口 8013(HTTPS)
  2. 通过请求头传递国家/地区参数: 添加 CrawlbaseAPI-Parameters: country=XX 其中 XX 为 ISO 国家代码
  3. 提交您的请求: 回复将反映该国的地理定位内容。

实际案例:亚马逊产品在不同国家的定价

这个例子进行了比较。 索尼WH-1000XM5 美国和英国使用相同的代码和网址进行定价。

您也可以在我们的网站上获取完整剧本。 GitHub页面.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
进口 要求
,来自 urllib.parse 进口 网址
,来自 urllib3.异常 进口 不安全请求警告

请求.包.urllib3.disable_warnings(类别=InsecureRequestWarning)

输入网址 = "https://www.amazon.com/Sony-WH-1000XM5-Canceling-Headphones-Hands-Free/dp/B09XS7JWHH/ref=sr_1_1"

私有访问令牌 = “您的_CRAWLBASE_TOKEN”
代理网址 = f"http://{private_access_token}:@smartproxy.crawlbase.com:8012” # 使用 https:// 和端口 8013 实现 HTTPS
代理={
“http”:代理网址,
“https”:代理网址
}
crawlbase_api_parameters = {
“国家”: “我们”,
}

尝试:
响应 = 请求.get(
url=input_url,
标题={"CrawlbaseAPI 参数”: urlencode(crawlbase_api_parameters)},
代理=代理,
验证=,
超时=30
)
响应.raise_for_status() # 对错误状态码抛出异常

打印(“响应代码:”, 响应.status_code)

输出文件名 = f“示例1-{crawlbase_api_parameters['国家']}.html”
- open(输出文件名, 'w', 编码='utf-8') as f:
f.write(response.text)

打印(f'响应已保存 {输出文件名}')
requests.exceptions.RequestException as e:
打印(f“发生错误: {e}")

回应显示:

  • 价格以美元(USD)计价
  • 美国销售税信息
  • 美国特定产品供应情况
  • 亚马逊卖家排名和Prime资格

现在只需更改一个参数(将 country=US 改为 GB)。

1
2
3
crawlbase_api_parameters = {
“国家”: “GB”
}

英国的反应表明:

  • 价格以英镑(GBP)计价
  • 含增值税价格(20%)
  • 供应情况因当地库存而异
  • Amazon.co.uk 专属优惠和Prime会员权益

这就是实际应用中的请求级地理定位。

如何使用抓取功能获取邮政编码级别的价格信息 Smart AI Proxy

国家/地区级别的定位功能适用于进行大范围比较,但在需要精确定价时则显得不足。以亚马逊为例,它不会显示全美统一的价格。顾客看到的价格取决于他们的收货邮政编码,而这种差异会影响总价、商品库存和配送承诺。

Crawlbase Smart AI Proxy 它通过允许您直接在请求中传递邮政编码级别的上下文,解决了亚马逊的这个特定问题。您无需运行浏览器来设置送货地点,只需同时包含邮政编码和送货地点信息即可。 countryzipcode 参数,例如 country=US&zipcode=10001.

最终生成的亚马逊 HTML 页面与该邮政编码区域内的真实客户所看到的页面完全一致,无需浏览器自动化、cookie 管理或脆弱的 UI 工作流程。

支持邮政编码定向的国家/地区:

  • 美洲: 美国、加拿大、巴西、墨西哥
  • 欧洲: 英国、德国、法国、西班牙、意大利、荷兰、瑞典、波兰
  • 亚太: 日本、印度、新加坡、澳大利亚
  • 中东: 阿拉伯联合酋长国、沙特阿拉伯

所有邮政编码均经过预先验证,以确保目标电子商务网站能够识别它们。

实际例子:亚马逊产品在不同国家的定价

让我们比较一下同一产品在美国和英国的亚马逊价格。(您可以在我们的[此处插入链接]查看完整的代码示例) GitHub页面)

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
进口 要求
,来自 urllib.parse 进口 网址
,来自 urllib3.异常 进口 不安全请求警告

请求.包.urllib3.disable_warnings(类别=InsecureRequestWarning)

输入网址 = "https://www.amazon.com/Mount-Comfort-Coffee-Organic-Whole/dp/B07171HMF5/ref=sr_1_2"

私有访问令牌 = “您的_CRAWLBASE_TOKEN”
代理网址 = f"http://{private_access_token}:@smartproxy.crawlbase.com:8012” # 使用 https:// 和端口 8013 实现 HTTPS
代理={
“http”:代理网址,
“https”:代理网址
}
crawlbase_api_parameters = {
“国家”: “我们”,
“邮政编码”: “90210”, #10004 展位
}

尝试:
响应 = 请求.get(
url=input_url,
标题={"CrawlbaseAPI 参数”: urlencode(crawlbase_api_parameters)},
代理=代理,
验证=,
超时=30
)
响应.raise_for_status() # 对错误状态码抛出异常

打印(“响应代码:”, 响应.status_code)

输出文件名 = f“示例2-{crawlbase_api_parameters['国家']}-{crawlbase_api_parameters['邮政编码']}.html”
- open(输出文件名, 'w', 编码='utf-8') as f:
f.write(response.text)

打印(f'响应已保存 {输出文件名}')
requests.exceptions.RequestException as e:
打印(f“发生错误: {e}")

结果:

  • 价格: $28.27
  • 送货地点: “送货至比佛利山庄 90210。”
  • 销售税: 9.5% 加州销售税
  • Prime 配送: 具体地点的预计送达时间

现在修改一行。

1
2
3
crawlbase_api_parameters = {
“国家”: “GB”
}

结果:

在这种情况下,抓取数据时,该产品在亚马逊英国站上已售罄。这并非格式差异或货币问题,而是反映了该市场实际的库存限制。

如果没有精准的地理位置定位,您可能会错误地认为某个产品在全球范围内都有售,误判竞争压力,或者基于特定地区客户根本看不到的数据制定定价决策。邮政编码和国家/地区级别的精准定位,可以将亚马逊从粗略信号中抓取的数据转化为您可以信赖的定价分析和市场决策工具。

地理定位数据抓取的实际应用案例

按国家或城市进行电子商务价格监控

为了保持竞争力,团队需要了解每个市场中的客户实际看到的价格,而不是转换后的价格或平均价格。

通过地理定位抓取,这通常意味着使用国家或城市特定的定位,在亚马逊或其他市场上运行自动化的每日抓取。

典型的工作流程大致如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
市场 = [
{“国家”: “我们”, “邮政编码”: “10001”},
{“国家”: “GB”, “邮政编码”: “SW1A 1AA”},
{“国家”: “DE”, “邮政编码”: “10115”},
{“国家”: “JP”, “邮政编码”: “ 100-0001”}
]

HPMC胶囊 市场 in 市场:
response = scrape_with_smart_proxy(
url=product_url,
国家=市场[“国家”],
邮政编码=市场[“邮政编码”]
)
价格[市场[“国家”]] = extract_price(response)

每次运行都会生成反映当地真实情况的价格数据。随着时间的推移,这能让你可靠地了解竞争对手如何根据市场调整价格,以及存在哪些显著的价格差距。

本地SEO和SERP跟踪

搜索引擎通过多种方式实现搜索结果的个性化, 地理位置是最重要的因素之一。. 谷歌的文档 这证实,根据您进行查询时的位置,您的搜索结果可能与其他人的结果有所不同。

对于SEO专业人士而言,这意味着您不能仅仅依赖从单一地点获取的排名数据来代表不同地区受众的搜索可见性体验。运行地理位置定向排名跟踪可以让您了解网站在不同市场中的表现,无论您衡量的是自然排名、精选摘要还是本地搜索结果。

市场研究和竞争情报

市场扩张往往在执行之前就失败了。一旦你从内部视角审视市场,而不是依赖全球或本国视角,定价、供应和竞争压力都会发生变化。

人工核查的适用范围有限,只能覆盖少数几个地区。而地理定位抓取则可以做到这一点。从本地化的电商网站提取数据,可以显示顾客实际看到的内容,而不是转换后的价格或推断出的库存情况。

示例场景: 一家美国品牌在评估欧洲市场时,抓取了德国、法国和西班牙的本地化数据,发现:

  • 法国的物价比德国高出约20%。
  • 西班牙市场中过度饱和的品类
  • 市场对他们计划停产的产品线有着强劲的需求。

这改变了他们在投入资金之前的发布计划。如果没有本地数据,他们就会针对并不真实的情况进行优化。

如何实施 Smart AI Proxy 生产中

如果您已经运行爬虫或数据管道, Smart AI Proxy 无需重新设计您的现有架构。无需维护浏览器层,也无需引入新的编排模型。它可无缝集成到现有的基于 HTTP 的工作流程中。

第一步:获取您的身份验证密钥: UCpay Crawlbase 来自身份验证密钥 XNUMX月XNUMX日新用户可获得 5,000 次免费测试请求。

步骤2:安装依赖项

1
使用 pip 安装 requests urllib3

步骤 3:发送您的第一个地理定位请求: 可以使用本指南中的示例或现成的脚本。 ScraperHub你只需要将流量路由到…… Smart AI Proxy 端点并设置请求级参数。

第四步:生产准备

在这个阶段,你可以像对待其他任何数据管道一样对待它:

  • 添加重试机制和基本错误处理
  • 应用与您的计划相符的费率限制
  • 监控响应异常情况,而不是原始故障计数
  • 原始 HTML 代码与解析后的输出结果一起存储,以便进行验证。

第五步:优化成本

  • 在使用普通请求时 无头浏览器 不需要(可节省一半成本)
  • 缓存不经常更改的页面
  • 批量请求以减少开销

准备好扩大您的地理定位数据收集规模了吗?

在请求级别控制位置时,地理定向抓取不需要 VPN、管理代理池或自动化浏览器。 Smart AI Proxy 自动处理 IP 选择、轮换、屏蔽缓解和邮政编码级别的 Cookie 管理。您只需在请求头中指定国家/地区和邮政编码即可。

无论您是监控不同市场的亚马逊价格、跟踪本地搜索引擎结果页面,还是按地区收集竞争情报,此方法均可从测试扩展到生产,无需额外工作。

注册 Crawlbase 免费获得 5,000 次请求,并针对您的特定用例测试地理定位抓取功能。将结果与您当前的设置进行比较;大多数团队都能立即注意到数据准确性的提升。

常见问题解答 (FAQs)

问:有多少个国家? Smart AI Proxy 支持?

A: Smart AI Proxy 支持超过 195 个国家/地区的国家/地区级定向。在亚马逊上,支持邮政编码定向的 20 多个国家/地区,包括美国、加拿大、英国、德国、法国、日本、印度、澳大利亚以及欧洲、亚太和中东的主要市场。所有邮政编码均经过预先验证,以确保兼容性。

问:我可以指定某个国家内的特定城市吗?

A: 是的,对于亚马逊的数据抓取,您可以使用邮政编码参数实现城市级别的精度(例如, country=US&zipcode=10001 (例如纽约市)。对于其他网站,城市级别的定向取决于目标网站如何使用地理位置信息。大多数网站会响应国家/地区级别的 IP 定向,而有些网站则会考虑额外的标头和 Cookie。 Smart AI Proxy 自动管理。

问:国家/地区参数和邮政编码参数有什么区别?

A: 国家/地区参数针对的是广泛的地理限制内容,例如货币、语言和区域可用性。邮政编码参数(目前亚马逊使用)则为配送地点添加了上下文信息,影响定价、税费、运费和当地库存。例如: country=US 显示美元价格,而 country=US&zipcode=90210 显示包含加州销售税的准确价格以及比佛利山庄的预计送货时间。

问:可以用吗 Smart AI Proxy 除了亚马逊之外的其他网站呢?

A: 是的。 Smart AI Proxy 适用于大多数网站,包括谷歌、电商平台、本地市场和搜索引擎结果页面 (SERP) 追踪。国家/地区参数具有普遍适用性。目前,邮政编码级别的定向功能已针对亚马逊在 20 多个国家/地区进行了专门优化。