由于速卖通多年来的巨大增长,对于那些需要有价值的数据进行市场研究的人来说,寻找可靠的速卖通代理变得越来越重要。

从2022年2023月到2.7年432月,全球速卖通吸引了高达2023亿的访问者! 每月的访问量从未低于 449 亿次。 你猜怎么着? XNUMX 年 XNUMX 月,全球点击量超过 XNUMX 亿次,夺得桂冠。

全球速卖通流量统计

由于用户需求巨大,AliExpress 在定价和趋势方面领先于竞争对手,因此,抓取他们的数据可以提供有关当前趋势和定价的宝贵见解。但如果不使用代理,抓取 AliExpress 并不容易。

这就是我们的解决方案发挥作用的地方。 Crawlbase“ 智能AI代理 不是典型的速卖通代理服务; 它是一种利用旋转住宅和数据中心代理的多功能解决方案。

在本博客中,我们将逐步指导您使用 Python 和 Smart AI Proxy 构建 AliExpress 网页爬虫。您将学习如何设置编码环境、配置 Smart AI Proxy、创建爬虫以及如何处理常见的网页爬虫问题。

让我们深入了解并充分利用 Smart AI Proxy 的功能。这里有一个视频教程。如果您更喜欢文字教程,请向下滚动继续阅读。

目录

一、了解智能AI代理

二、智能AI代理如何帮助抓取AliExpress

III. 使用 Curl 命令进行智能 AI 代理的基本使用

四:向智能AI代理请求添加参数

五、使用Python创建AliExpress网络爬虫

六. 扩展 Python 项目的策略

七、结论

八. 经常问的问题

一、了解智能AI代理

这个 智能AI代理 通过由数百万个 IP 组成的一系列代理服务器自动进行流量路由,从而简化了复杂的网页抓取过程。 它是一个强大的工具,旨在促进网络爬行和抓取应用程序,这些应用程序不是为与基于 HTTP/S 的 API 交互而构建的,例如 Crawling API.

您无需修改​​现有应用程序,只需集成智能 AI 代理即可处理与 Crawling API。该过程涉及使用 轮换代理 将您的请求转发至 Crawling API,简化开发人员的集成。

这款多功能工具旨在使您的网页抓取项目更加顺畅和高效。 它的工作原理如下:

自动流量路由

智能 AI 代理会为您处理复杂的流量路由。这就像为您的网页抓取操作配备了一位智能流量指挥员。通过将您的请求分发到拥有数百万个全球 IP 的多个代理服务器,它可以避免任何单个服务器过载,确保您的网页抓取活动保持顺畅无阻。

多线程操作

Smart AI Proxy 能够在网页抓取中充分利用多线程技术。当您启动抓取任务时,Smart AI Proxy Manager 会智能地为不同的请求分配线程。这些线程并行运行,并发地从目标网站获取数据。

效率和速度

Smart AI Proxy 服务的一大亮点是其卓越的速度。它确保您的请求不会出现不必要的延迟。这对于时间至关重要的网页抓取来说尤其重要。使用代理管理器,您的抓取任务不仅速度更快,而且更准确。

自动 IP 轮换

Crawlbase的智能 AI 代理智能管理 IP轮换。这意味着您的请求所来自的 IP 地址会定期更改。此功能至关重要,因为它允许您轻松绕过限制、避免 IP 禁令并显著提高您的网页抓取速度。通过不断刷新您的 IP 地址,您可以降低遇到可能破坏抓取过程的障碍的风险。

平衡负载

无论您执行广告验证、市场调研还是分析竞争对手,Smart AI Proxy 都能保持负载均衡。这确保您能够轻松完成这些任务。这种平衡可防止任何单个代理服务器不堪重负,从而进一步提高您的网页抓取效率。

隐私和安全

Smart AI Proxy 的核心是对隐私和安全的承诺。通过多个代理服务器分发您的请求,您的在线身份将得到妥善保护,让您能够以最佳状态进行网络抓取活动。 数据隐私和安全.

总结一下,来自 Crawlbase 通过自动化和优化代理服务器管理流程,简化了网页抓取。其高效的流量路由、速度、自动化 IP轮换、多线程运行、负载均衡以及对隐私和安全的重视,使其成为广告验证、市场调研和竞争对手分析等网页抓取活动的宝贵工具。借助 Smart AI Proxy,您可以轻松自信地驾驭网页抓取领域。

速卖通代理来抓取速卖通数据

II. 智能 AI 代理如何帮助 AliExpress 进行网页抓取?

用于抓取 Aliexpress 数据的智能 AI 代理

AliExpress 作为全球最大的电商平台之一,为企业和研究人员提供了海量宝贵数据。然而,从 AliExpress 抓取数据也面临着一系列挑战。这些挑战包括 IP 封禁、验证码以及绕过机器人检测机制。智能 AI 代理 Crawlbase 是能够帮助您克服这些障碍并有效地从 AliExpress 提取数据的解决方案。

绕过 IP 封锁和限制

AliExpress 采用 IP 地址屏蔽作为标准措施,以防止过度抓取数据。通过不断轮换您的 IP 地址,Smart AI Proxy 可以帮助您轻松绕过这些限制。这意味着您可以放心抓取数据,无需担心 IP 地址被屏蔽,确保数据收集不间断。

智胜验证码

验证码是您在 AliExpress 数据抓取过程中会遇到的另一个障碍。这些安全测试旨在区分人类和机器人。智能 AI 代理的 轮换IP地址 这项功能可以帮您解决这一难题。当出现验证码时,智能 AI 代理会智能地切换到新的 IP 地址,确保您的抓取过程保持顺畅和连续。这些安全检查不会拖慢您的速度。

逃避机器人检测

与许多在线平台一样,速卖通也使用复杂的机器人检测机制来识别和阻止自动抓取活动。智能AI代理的自动IP轮换功能显著降低了被检测为机器人的风险。通过持续 改变IP,智能 AI 代理使您的抓取活动保持谨慎,允许您匿名抓取数据。

高速数据提取

效率在网页抓取中至关重要,而 Smart AI Proxy 在这方面表现出色。它确保您的请求以最小的延迟得到处理,使您能够快速从 AliExpress 提取数据。此外,凭借其多线程操作,Smart AI Proxy 可以同时处理多个请求,进一步提升网页抓取任务的速度和效率。

数据保密和保护

智能 AI 代理不仅能提高效率,还能优先保护您的匿名性。通过将您的请求路由到多个 代理服务器,它可以保护您的在线身份,使您能够以最高级别的隐私和安全性执行网络抓取。

既然我们已经讨论了智能 AI 代理在 AliExpress 数据抓取中的重要性,您准备好释放它的潜力来满足您的数据抓取需求了吗?在博客的下一部分中,我们将逐步指导您使用 Python 编写代码,并无缝集成智能 AI 代理,从而打造一个专为 AliExpress 定制的高效网页抓取工具。

III. 使用 Curl 命令进行智能 AI 代理的基本使用

在设置 Python 环境之前,我们先来测试一下 Smart AI Proxy,并使用简单的 curl 命令从 AliExpress 网页获取数据。第一步是 注册 - Crawlbase 然后去你的 智能 AI 代理仪表板 获取代理身份验证令牌。

智能 AI 代理仪表板

获得令牌后,打开命令提示符或终端,复制下面的命令行,替换 USER_TOKEN 使用您之前获得的令牌,然后按 Enter 执行代码。

1
卷曲-x “http://chingyeel@cchphealthplan.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

本篇 curl 命令将通过以下方式向目标 URL 发出 HTTP 请求 Crawlbase的智能 AI 代理。该代理设置为在 smartproxy.crawlbase.com 在港口 8012,并 -k 选项告诉 curl 忽略 SSL 证书验证。 当通过 HTTPS 连接到服务器并且您不想验证服务器证书的真实性时使用它。

中的上下文 Crawlbase的智能 AI 代理,禁用 SSL 验证至关重要。否则,可能会妨碍智能 AI 代理与您的应用程序之间的交互。

成功执行后,您应该收到来自的 HTML 响应 全球速卖通 类似于此屏幕截图中显示的内容:

aliexpress 网页抓取工具 html 响应

四:向智能AI代理请求添加参数

由于 Smart AI Proxy 会将您的请求转发到 Crawling API,它还受益于 Crawling API。您可以通过发送特定指令(称为 参数,通过一个名为 CrawlbaseAPI-Parameters.

这可以让您明确地告诉 Smart AI Proxy 您希望它如何处理您的请求。您可以自定义它,以完美满足您的需求。

在这种情况下,我们将使用一个名为 scraper=aliexpress-serp。这会指示智能人工智能代理提取网站的响应,并以易于理解的方式进行组织。这就像要求智能人工智能代理将杂乱的网站数据转换为整洁有序的信息。

1
卷曲-H "CrawlbaseAPI 参数:scraper=aliexpress-serp” -x “http://chingyeel@cchphealthplan.com:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

V. 使用 Python 创建 AliExpress Web Scraper

步骤 1. 配置您的 Python 项目

现在我们已经讨论了智能 AI 代理如何运行的基本细节。我们准备设置 Python 环境。

首先确保您有 Python 安装在您的机器上。 如果这是您第一次使用 Python,我们推荐我们的 Python 初学者指南 并按照有关如何在系统上正确设置 Python 的分步过程进行操作。

步骤 2. 设置项目目录

在计算机上配置 Python 后,我们现在需要设置一个新项目。 打开控制台或终端并执行以下命令。

1
MKDIR 爬行基地
  • mkdir:这是一个代表“make directory”的命令。 它用于创建新目录。
  • crawlbase:这是您要创建的目录的名称。 在本例中,它被命名为“crawlbase”,但您可以将其替换为您喜欢的任何其他名称。

接下来,执行下面的命令。

1
cd 文件夹名称 && 触摸 爬行库.py
  • cd folder-name:该命令代表“更改目录”。 它用于导航到特定文件夹。 将“文件夹名称”替换为您要输入的文件夹的名称。
  • &&:这是一个逻辑运算符,意思是“和”。 在此命令的上下文中,它确保命令的第二部分(touch crawlbase.py) 仅当第一部分 (cd folder-name) 成功。
  • touch crawlbase.pytouch 命令用于创建一个空文件。 在这种情况下,它会在前面指定的目录中创建一个名为“crawlbase.py”的文件 cd 命令。

因此,当您运行这行代码时,它会执行两件事:

  1. 它将当前目录更改为“文件夹名称”指定的目录。
  2. 它在该目录中创建一个名为“crawlbase.py”的新的空 Python 文件。

步骤3.安装依赖项

要从 AliExpress 网页检索数据并将其保存到 JSON 文件,我们需要两个基本包。

要求:这个包简化了发送HTTP/1.1请求的过程。 您不必手动将查询字符串添加到 URL 或对 PUT 和 POST 数据进行编码。 为了简单起见,您可以只使用 json 方法。

JSON:Python 本身支持 JSON。 它带有一个名为 json 的内置包,用于编码和解码 JSON 数据,无需安装额外的包。

要获取这些包,请使用以下命令:

1
点安装请求

此命令可确保您拥有从 AliExpress 获取数据并在 Python 脚本中处理 JSON 操作所需的工具。

步骤 4. 使用 Python 的智能 AI 代理

我们已经到了可以开始编写主要 Python 代码并集成智能 AI 代理调用的阶段。

在上一节中,我们创建了一个名为 crawlbase.py。 找到此文件,复制下面的代码并运行它以检索所需的数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
进口 要求

# 替换为你的 Crawlbase 用户令牌。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

响应= requests.get(url=url,代理=代理,验证=)

打印('响应正文:', 回复内容)

导入 requests 图书馆:

该行导入 requests 库,它简化了在 Python 中发出 HTTP 请求的过程。

设置代理身份验证:

更换 'USER_TOKEN' 和你的实际 Crawlbase 用户令牌。此令牌用于通过智能 AI 代理发出请求时进行身份验证。 proxy_auth 然后,遵循基本身份验证格式,将变量格式化为包含用户名和空密码。

定义 URL 和代理 URL:

  • url:这是您要抓取的目标 URL。 在本例中,它是与 MacBook Pro 批发相关的速卖通网页。
  • proxy_url:这是 Smart AI Proxy 服务器的 URL,包含身份验证详细信息。URL 格式为 http://username:password@proxy_host:proxy_port.

设置代理:

这个 proxies 创建字典来指定代理设置。 “http”和“https”都设置为使用相同的代理 URL。

提出请求:

  • requests.get:该函数向指定的URL发起HTTP GET请求。
  • proxies:代理参数设置为使用配置的代理设置。
  • verify=False:该参数设置为 False 忽略 SSL 证书验证。 在生产环境中,正确处理 SSL 验证至关重要。

打印响应正文:

此行打印响应的内容,其中包括 HTML 或从指定 URL 检索的数据。

步骤 5. 执行 Python 代码

1
爬行库.py
aliexpress 网页抓取工具 html 响应

代码的成功响应将获取 AliExpress URL 的完整 HTML 源代码并将其显示在您的控制台上。 该数据在大多数情况下还没有用处,因为它很难剖析。 为了获得更合理且易于阅读的数据,我们必须解析此响应并将其转换为结构化数据,然后将其存储在数据库中以便于检索和分析。

步骤 6. 使用 AliExpress scraper 解析数据

此步骤将利用智能 AI 代理自动解析 AliExpress 数据的功能。为此,我们只需传递 scraper=速卖通-serp - CrawlbaseAPI-parameters 作为我们代码中的标题。 编辑你的 crawlbase.py 文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
进口 要求
进口 JSON

# 替换为你的 Crawlbase 用户令牌。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
"CrawlbaseAPI 参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

执行此代码后,响应将采用 JSON 格式,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
{
“原始状态”: 200,
“电脑状态”: 200,
“网址”: “https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&”,
“身体”: {
“产品”: [
{
“标题”: “5 合 1 USB C 集线器 C 型 Naar 4K 高清适配器 Met Rj45 Netwerk 100M 1000M 以太网 Lan Oplader 适配器 Voor Macbook Pro”,
“价钱”: {
“当前的”: “\uffe11.27”
},
“网址”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“图片”: "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 207,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Getatek USB C 集线器 4K 60Hz Hdmi 扩展坞 C 型 Naar 以太网 Poort Pd 100W USB 3.2 集线器适配器 Voor Macbook Pro 小米联想”,
“价钱”: {
“当前的”: “\uffe19.66”
},
“网址”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“图片”: "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 261,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “12 合 1 USB C 集线器扩展坞 Hdmi 兼容适配器 4K 30Hz Pd 100W Type-C 集线器 USB 3.0 分路器 Voor 笔记本电脑 Macbook Pro Air”,
“价钱”: {
“当前的”: “\uffe113.92”
},
“网址”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“图片”: "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 47,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “倍思 USB Type C 集线器 Naar Hdmi 兼容 USB 3.0 适配器 6 合 1 Type C 集线器扩展坞 Voor macbook Pro Air USB C 分路器”,
“价钱”: {
“当前的”: “\uffe16.46”
},
“网址”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“图片”: "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 dagen”,
“已售出数量”: 900,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Huav 2024 Originele 笔记本电脑 13.3 英寸 360% Omgedraaid Ultralicht 2K 触摸屏 16G Met 2Tssd Intel N4120 Windows 10 11 笔记本电脑”,
“价钱”: {
“当前的”: “\uffe1270.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“图片”: "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 18,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB 集线器 3.0 4 Poorten USB3.0 多分路器适配器 Otg Voor 小米联想 Macbook Pro 13 15 Air Pro PC 电脑笔记本电脑配件”,
“价钱”: {
“当前的”: “\uffe12.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“图片”: "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: 9,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C 集线器 Voor Stoomdek 扩展坞 C 型 Naar Hdmi 兼容 4K 60Hz Pd 100W Usb 3.0 适配器kabel Voor 笔记本电脑 Macbook Pro”,
“价钱”: {
“当前的”: “\uffe17.57”
},
“网址”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“图片”: "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 30,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C Naar 以太网适配器 Rj45 Naar Thunderbolt 3 Type C 千兆网络 LAN 1000Mbps 转换器 Voor Macbook Pro/Air 三星 Galaxy”,
“价钱”: {
“当前的”: “\uffe13.37”
},
“网址”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“图片”: "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: ,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Minisopuru 集线器 USB C 集线器 10Gbps 集线器 USB Type C Naar Usb 3.2 Pd 100W 适配器 Voor Macbook Pro Imac Pc 配件 USB 集线器”,
“价钱”: {
“当前的”: “\uffe14.64”
},
“网址”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“图片”: "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 600,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “屏幕调节兼容 Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 液晶显示屏”,
“价钱”: {
“当前的”: “\uffe1113.97”
},
“网址”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“图片”: "",
“发货信息”: “验证:\uffe130.92”,
“已售出数量”: 128,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
}
],
“相关搜索”: [
{
“标题”: “适配器网络”,
“关联”: “https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html”
},
{
“标题”: “MacBook Lucht 边框”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html”
},
{
“标题”: “macbook oplader”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-oplader.html”
},
{
“标题”: “USB onderdeel”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html”
},
{
“标题”: “键盘令人着迷的 MacBook Air”,
“关联”: “https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html”
},
{
“标题”: “usb naar c 型分离器”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html”
},
{
“标题”: “麦克·普尔顿”,
“关联”: “https://nl.aliexpress.com/w/wholesale-mac-poorten.html”
},
{
“标题”: “戴尔笔记本电脑”,
“关联”: “https://nl.aliexpress.com/w/wholesale-dell-laptops.html”
},
{
“标题”: “magsafe oplader macbook pro”,
“关联”: “https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html”
},
{
“标题”: “MacBook Pro a1229”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html”
},
{
“标题”: “MacBook Lucht m1 16 16”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html”
},
{
“标题”: “MacBook Pro a1708 toetsenbord vervanging”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html”
}
],
“相关类别”: []
}
}

步骤 7. 将解析的数据保存到 JSON 文件

当然,我们不会让数据白白浪费。 在此步骤中,我们将在代码中添加几行,以便我们可以安全地存储抓取的数据以供以后使用。 回到你的 crawlbase.py 再次文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
进口 要求
进口 JSON

# 替换为您从仪表板获取的 user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
"CrawlbaseAPI 参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

- open('scraped_data.json', 'w') as json_文件:
json.dump(数据, json_file)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

处理响应并将其保存为 JSON:

  • json.loads(response.text):这会将响应的 JSON 格式文本转换为 Python 字典。
  • with open('scraped_data.json', 'w') as json_file:以写入模式打开名为“scraped_data.json”的文件。
  • json.dump(data, json_file):将Python字典(转换后的JSON数据)写入文件。

VI. 扩展 Python 项目的策略

扩展此网络抓取项目涉及有效管理大量请求,并确保您的项目保持可靠并符合网站的服务条款。 以下是一些需要考虑的策略:

使用异步请求: 不要一一发出请求,而是考虑使用异步编程与库,如 asyncioaiohttp。 异步请求允许您同时发送多个请求,从而显着提高抓取过程的速度。

并行处理: 该策略可用于同时处理多个 URL,从而加快整个数据检索过程。 Python 提供了多种并行处理机制,一种常见的方法是使用 concurrent.futures 模块。

使用代理池: 当处理大量请求时,请考虑使用代理池来避免 IP 禁止并分配请求。 Crawlbase的智能 AI 代理可以为您解决这个问题,因为它可以智能地为每个请求轮换不同的代理以防止被发现。

分布式抓取: 如果 URL 量非常大,您可能需要考虑分布式架构。 将抓取任务分解为更小的块,并将工作负载分配到多台机器或进程上。

优雅地处理错误: 实施错误处理来管理网络错误、超时和其他意外问题。 这确保您的抓取过程可以从故障中恢复而不会崩溃。

优化代码效率: 检查您的代码是否存在任何可能影响性能的低效率问题。 优化循环,最大限度地减少不必要的计算,并确保您的代码尽可能高效。

数据库优化: 使用可靠的数据库(例如 PostgreSQL、MySQL) 存储抓取的数据. 实施适当的索引以加快检索操作或将数据批量插入数据库以减少开销。

VII. 使用以下工具创建 AliExpress Web Scraper Crawlbase

在本篇博文中,我们深入探讨了智能 AI 代理的细节及其在提升 AliExpress 网页数据抓取效率方面发挥的重要作用。我们首先了解了智能 AI 代理的基础知识,探索了它在 AliExpress 数据抓取中的应用,然后逐步讲解了如何使用 Curl 命令和基于 Python 的网页数据抓取工具进行实际操作。

该分步指南详细介绍了如何配置 Python 项目、设置项目目录、安装依赖项、如何将 Smart AI Proxy 与 Python 无缝集成、如何执行代码以及如何使用 AliExpress 网页爬虫高效地解析所抓取的数据。最后一步是将解析后的数据保存到结构化的 JSON 文件中。

作为开发人员,我们认识到稳健且可扩展的项目的重要性。 结论部分将我们的讨论扩展到扩展 Python 项目的策略。 扩展不仅仅涉及处理更多数据;还涉及处理更多数据。 它是关于优化您的代码、架构和资源以实现可持续增长。

如果您对智能 AI 代理的其他项目感兴趣,您可以从以下链接探索更多主题:

使用 Firefox Selenium 和 Smart AI Proxy 抓取沃尔玛数据
使用智能 AI 代理抓取亚马逊 ASIN

如果您想查看更多速卖通项目,请浏览以下链接:

使用关键字抓取速卖通 SERP
使用 AliExpress 进行抓取 Crawling API

我们还提供各种教程,涵盖从各种电子商务平台(例如 沃尔玛, 易趣Amazon,或社交媒体平台,如 InstagramFacebook.

如果您有任何疑问或需要帮助,请随时与我们联系。 我们的 支持团队 将很高兴为您提供帮助。

八. 经常问的问题

问:Smart AI Proxy 能够处理大规模的抓取任务吗?

A: 当然。Smart AI Proxy 旨在高效管理小型和大型数据抓取任务。其多线程操作和负载均衡功能确保您能够轻松地从 AliExpress 抓取海量数据。

问:Smart AI Proxy 在网页抓取过程中是否优先考虑隐私和安全?

A: 是的,隐私和安全是 Smart AI Proxy 设计的核心。通过将您的请求路由到多个代理服务器,它可以保持您的在线身份匿名,让您在高度隐私和安全的环境下进行网页抓取。

问:除了 AliExpress 之外,Smart AI Proxy 还可用于在其他平台上进行网页抓取吗?

A: Smart AI Proxy 功能多样,可用于大多数在线平台上的网页抓取。它不仅限于 AliExpress;您还可以使用它来增强您在 Amazon、eBay、Facebook、Instagram 等众多网站上的抓取效果。

问:与使用单个静态 IP 进行网页抓取相比,Smart AI Proxy 有哪些优势?

A: 与单一静态 IP 不同,Smart AI Proxy 提供动态和轮换 IP 地址,使其更能抵御 IP 封禁和检测。它还能提高抓取速度和效率,让您能够更快速地提取数据,即使是大规模数据。

问:与其他语言相比,使用 Python 和 Smart AI Proxy 进行网页抓取有哪些优势?

A: Python 因其易读性、丰富的库和易学性,在网页抓取社区中被广泛使用。与 Smart AI Proxy 结合使用,您将受益于 Smart AI Proxy 代理解决方案的多功能性,从而获得更流畅、更安全的网页抓取体验。