由于速卖通多年来的巨大增长,对于那些需要有价值的数据进行市场研究的人来说,寻找可靠的速卖通代理变得越来越重要。

2022年2023月至XNUMX年XNUMX月, 全球速卖通 吸引了 2.7 亿访客!每月访问量从未低于 432 亿次。猜猜怎么着?2023 年 449 月,全球点击量超过 XNUMX 亿次,夺得桂冠。

全球速卖通流量统计

由于用户需求巨大,AliExpress 在定价和趋势方面领先于竞争对手,因此,抓取他们的数据可以提供有关当前趋势和定价的宝贵见解。但如果不使用代理,抓取 AliExpress 并不容易。

这就是我们的解决方案发挥作用的地方。Crawlbase 的 Smart Proxy 不是典型的速卖通代理服务; 它是一种利用旋转住宅和数据中心代理的多功能解决方案。

在此博客中,我们将指导您使用 Python 构建 AliExpress 网页抓取工具的过程,以及 Smart Proxy,为您提供循序渐进的方法。您将学习如何设置编码环境、配置 Smart Proxy,创建一个抓取工具,并处理常见的网络抓取问题。

让我们深入了解并充分利用 Smart Proxy的功能。这里有一个视频教程。如果您更喜欢书面教程,请向下滚动并继续阅读。

目录

一、理解 Smart Proxy

二、如何 Smart Proxy 帮助抓取 AliExpress

三、基本情况 Smart Proxy 与 Curl 命令一起使用

IV:添加参数 Smart Proxy 要求

五、使用Python创建AliExpress网络爬虫

六. 扩展 Python 项目的策略

七、结论

八. 经常问的问题

一、理解 Smart Proxy

这款 Smart Proxy 通过由数百万个 IP 组成的一系列代理服务器自动进行流量路由,从而简化了复杂的网页抓取过程。 它是一个强大的工具,旨在促进网络爬行和抓取应用程序,这些应用程序不是为与基于 HTTP/S 的 API 交互而构建的,例如 Crawling API.

您无需修改​​现有应用程序,只需集成 Smart Proxy 处理与 Crawling API。该过程涉及使用 轮换代理 将您的请求转发至 Crawling API,简化开发人员的集成。

这款多功能工具旨在使您的网页抓取项目更加顺畅和高效。 它的工作原理如下:

自动流量路由

这款 Smart Proxy 为您处理复杂的流量路由。这有点像为您的网络抓取操作配备一个智能流量指挥。通过将您的请求分发到具有数百万个全球 IP 的多个代理服务器,它可以避免任何单个服务器过载,确保您的网络抓取活动保持顺畅和不间断。

多线程操作

Smart Proxy 能够在网页抓取环境中充分利用多线程。启动抓取任务时, Smart Proxy 管理器会智能地为不同的请求分配线程。这些线程并行运行,并发地从目标网站获取数据。

效率和速度

的突出特点之一 Smart Proxy 服务的一个显著特点是速度快。它可以确保您的请求不会出现不必要的延迟。这对于时间至关重要的网页抓取来说尤其重要。使用代理管理器,您的抓取任务不仅会变得更快,而且会更准确。

自动 IP 轮换

Crawlbase的 Smart Proxy 智能管理 IP轮换。这意味着您的请求所来自的 IP 地址会定期更改。此功能至关重要,因为它允许您轻松绕过限制、避免 IP 禁令并显著提高您的网页抓取速度。通过不断刷新您的 IP 地址,您可以降低遇到可能破坏抓取过程的障碍的风险。

平衡负载

无论您是在进行广告验证、市场调研还是分析竞争对手, Smart Proxy 保持平衡负载。这可确保您轻松执行这些任务。平衡可防止任何单个代理服务器不堪重负,从而进一步提高您的网络抓取活动的效率。

隐私和安全

核心是 Smart Proxy 是对隐私和安全的承诺。通过多个代理服务器分发您的请求,您的在线身份将得到很好的保护,让您能够以最大程度地进行网络抓取活动 数据隐私和安全.

综上所述, Smart Proxy Crawlbase 通过自动化和优化代理服务器管理流程简化了网页抓取。其高效的流量路由、速度、自动化 IP轮换、多线程操作、负载平衡以及对隐私和安全的关注使其成为广告验证、市场研究和竞争对手分析等网络抓取活动的宝贵工具。 Smart Proxy,您可以轻松、自信地浏览网页抓取领域。

速卖通代理来抓取速卖通数据

二、如何 Smart Proxy 帮助 AliExpress 进行网页抓取吗?

用于抓取全球速卖通的智能代理

AliExpress 是全球最大的电子商务平台之一,为企业和研究人员提供了大量有价值的数据。然而,从 AliExpress 抓取数据也面临着一系列挑战。这些挑战包括 IP 禁令、CAPTCHA 以及绕过机器人检测机制的需求。 Smart Proxy Crawlbase 提供的解决方案将帮助您克服这些障碍并有效地从 AliExpress 提取数据。

绕过 IP 封锁和限制

AliExpress 使用 IP 封锁作为标准措施,以防止过度抓取活动。通过不断轮换您的 IP 地址, Smart Proxy 帮助您轻松绕过这些限制。这意味着您可以放心地进行抓取,而不必担心 IP 地址被封锁,从而确保数据收集不间断。

智胜验证码

CAPTCHA 是您在抓取 AliExpress 数据时会遇到的另一个障碍。这些安全测试旨在区分人类和机器人。 Smart Proxy“ 轮换IP地址 功能可以解决这个问题。当出现 CAPTCHA 时, Smart Proxy 智能地切换到新的 IP 地址,确保您的抓取过程保持顺畅和连续。这些安全检查不会减慢您的速度。

逃避机器人检测

与许多在线平台一样,AliExpress 使用复杂的机器人检测机制来识别和阻止自动抓取活动。 Smart Proxy的自动 IP 轮换显著降低了被检测为机器人的风险。通过不断 改变IP, Smart Proxy 使您的抓取活动保持谨慎,允许您匿名抓取数据。

高速数据提取

效率对于网页抓取至关重要, Smart Proxy 在这方面表现出色。它确保您的请求以最小的延迟得到处理,使您能够快速从 AliExpress 提取数据。此外,凭借其多线程操作, Smart Proxy 可以同时处理多个请求,进一步提高您的网络抓取任务的速度和效率。

数据保密和保护

Smart Proxy 不仅提高了效率,还优先考虑了您的匿名性。通过将您的请求路由到多个 代理服务器,它可以保护您的在线身份,使您能够以最高级别的隐私和安全性执行网络抓取。

现在我们已经讨论了 Smart Proxy 在抓取 AliExpress 时,您准备好释放其潜力来满足您的抓取需求了吗?在我们博客的下一部分中,我们将带您逐步了解如何使用 Python 编写代码并无缝集成 Smart Proxy 为 AliExpress 定制一个高效的网页抓取工具。

三、基本情况 Smart Proxy 与 Curl 命令一起使用

在设置 Python 环境之前,我们先尝试测试一下 Smart Proxy 并使用简单的 curl 命令从 AliExpress 网页获取数据。您的第一步是 注册 使用 Crawlbase 并转到您的 Smart Proxy XNUMX月XNUMX日 获取代理身份验证令牌。

Smart Proxy XNUMX月XNUMX日

获得令牌后,打开命令提示符或终端,复制下面的命令行,替换 USER_TOKEN 使用您之前获得的令牌,然后按 Enter 执行代码。

1
卷曲-x “http://[电子邮件保护]:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

本篇 curl 命令将通过 Crawlbase 的 Smart Proxy。代理设置为运行于 smartproxy.crawlbase.com 在港口 8012,并 -k 选项告诉 curl 忽略 SSL 证书验证。 当通过 HTTPS 连接到服务器并且您不想验证服务器证书的真实性时使用它。

在 Crawlbase 的背景下 Smart Proxy,禁用 SSL 验证至关重要。不这样做可能会妨碍 Smart Proxy 和您的申请。

成功执行后,您应该收到来自的 HTML 响应 全球速卖通 类似于此屏幕截图中显示的内容:

aliexpress 网页抓取工具 html 响应

IV:添加参数 Smart Proxy 要求

建立 Smart Proxy 将您的请求转发至 Crawling API,它还受益于 Crawling API。您可以通过发送特定指令(称为 参数,通过一个名为 CrawlbaseAPI-Parameters.

这让你知道 Smart Proxy 完全按照您希望的方式处理您的请求。您可以自定义它以完全满足您的需求。

在这种情况下,我们将使用一个名为 scraper=aliexpress-serp。 这说明 Smart Proxy 提取网站的响应,并以一种易于理解的方式组织起来。这就像问 Smart Proxy 将杂乱的网站数据转化成整洁有序的信息。

1
卷曲-H “CrawlbaseAPI-参数:scraper=aliexpress-serp” -x “http://[电子邮件保护]:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

V. 使用 Python 创建 AliExpress Web Scraper

步骤 1. 配置您的 Python 项目

现在我们已经讨论了如何 Smart Proxy 运行。我们已准备好设置 Python 环境。

首先确保您有 Python 安装在您的机器上。 如果这是您第一次使用 Python,我们推荐我们的 Python 初学者指南 并按照有关如何在系统上正确设置 Python 的分步过程进行操作。

步骤 2. 设置项目目录

在计算机上配置 Python 后,我们现在需要设置一个新项目。 打开控制台或终端并执行以下命令。

1
MKDIR 爬行基地
  • mkdir:这是一个代表“make directory”的命令。 它用于创建新目录。
  • crawlbase:这是您要创建的目录的名称。 在本例中,它被命名为“crawlbase”,但您可以将其替换为您喜欢的任何其他名称。

接下来,执行下面的命令。

1
cd 文件夹名称 && 触摸 爬行库.py
  • cd folder-name:该命令代表“更改目录”。 它用于导航到特定文件夹。 将“文件夹名称”替换为您要输入的文件夹的名称。
  • &&:这是一个逻辑运算符,意思是“和”。 在此命令的上下文中,它确保命令的第二部分(touch crawlbase.py) 仅当第一部分 (cd folder-name) 成功。
  • touch crawlbase.pytouch 命令用于创建一个空文件。 在这种情况下,它会在前面指定的目录中创建一个名为“crawlbase.py”的文件 cd 命令。

因此,当您运行这行代码时,它会执行两件事:

  1. 它将当前目录更改为“文件夹名称”指定的目录。
  2. 它在该目录中创建一个名为“crawlbase.py”的新的空 Python 文件。

步骤3.安装依赖项

要从 AliExpress 网页检索数据并将其保存到 JSON 文件,我们需要两个基本包。

要求:这个包简化了发送HTTP/1.1请求的过程。 您不必手动将查询字符串添加到 URL 或对 PUT 和 POST 数据进行编码。 为了简单起见,您可以只使用 json 方法。

JSON:Python 本身支持 JSON。 它带有一个名为 json 的内置包,用于编码和解码 JSON 数据,无需安装额外的包。

要获取这些包,请使用以下命令:

1
点安装请求

此命令可确保您拥有从 AliExpress 获取数据并在 Python 脚本中处理 JSON 操作所需的工具。

步骤 4. 利用 Smart Proxy 使用 Python

我们已经到了可以开始编写主要 Python 代码并集成的阶段 Smart Proxy 呼叫。

在上一节中,我们创建了一个名为 crawlbase.py。 找到此文件,复制下面的代码并运行它以检索所需的数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
进口 要求

# 替换为您的 Crawlbase user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

响应= requests.get(url=url,代理=代理,验证=)

打印('响应正文:', 回复内容)

导入 requests 图书馆:

该行导入 requests 库,它简化了在 Python 中发出 HTTP 请求的过程。

设置代理身份验证:

更换 'USER_TOKEN' 使用您的实际 Crawlbase 用户令牌。此令牌用于通过以下方式发出请求时的身份验证: Smart Proxy。 该 proxy_auth 然后,遵循基本身份验证格式,将变量格式化为包含用户名和空密码。

定义 URL 和代理 URL:

  • url:这是您要抓取的目标 URL。 在本例中,它是与 MacBook Pro 批发相关的速卖通网页。
  • proxy_url:这是 Smart Proxy 服务器,包括身份验证详细信息。URL 格式为 http://username:password@proxy_host:proxy_port.

设置代理:

这款 proxies 创建字典来指定代理设置。 “http”和“https”都设置为使用相同的代理 URL。

提出请求:

  • requests.get:该函数向指定的URL发起HTTP GET请求。
  • proxies:代理参数设置为使用配置的代理设置。
  • verify=False:该参数设置为 False 忽略 SSL 证书验证。 在生产环境中,正确处理 SSL 验证至关重要。

打印响应正文:

此行打印响应的内容,其中包括 HTML 或从指定 URL 检索的数据。

步骤 5. 执行 Python 代码

1
爬行库.py
aliexpress 网页抓取工具 html 响应

代码的成功响应将获取 AliExpress URL 的完整 HTML 源代码并将其显示在您的控制台上。 该数据在大多数情况下还没有用处,因为它很难剖析。 为了获得更合理且易于阅读的数据,我们必须解析此响应并将其转换为结构化数据,然后将其存储在数据库中以便于检索和分析。

步骤 6. 使用 AliExpress scraper 解析数据

这款 Smart Proxy此步骤将利用自动解析 AliExpress 数据的功能。为此,我们只需传递 scraper=速卖通-serp - CrawlbaseAPI-parameters 作为我们代码中的标题。 编辑你的 crawlbase.py 文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
进口 要求
进口 JSON

# 替换为您的 Crawlbase user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
“CrawlbaseAPI-参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

执行此代码后,响应将采用 JSON 格式,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
{
“原始状态”: 200,
“电脑状态”: 200,
“网址”: “https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&”,
“身体”: {
“产品”: [
{
“标题”: “5 合 1 USB C 集线器 C 型 Naar 4K 高清适配器 Met Rj45 Netwerk 100M 1000M 以太网 Lan Oplader 适配器 Voor Macbook Pro”,
“价钱”: {
“当前的”: “\uffe11.27”
},
“网址”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“图片”: "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 207,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Getatek USB C 集线器 4K 60Hz Hdmi 扩展坞 C 型 Naar 以太网 Poort Pd 100W USB 3.2 集线器适配器 Voor Macbook Pro 小米联想”,
“价钱”: {
“当前的”: “\uffe19.66”
},
“网址”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“图片”: "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 261,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “12 合 1 USB C 集线器扩展坞 Hdmi 兼容适配器 4K 30Hz Pd 100W Type-C 集线器 USB 3.0 分路器 Voor 笔记本电脑 Macbook Pro Air”,
“价钱”: {
“当前的”: “\uffe113.92”
},
“网址”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“图片”: "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 47,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “倍思 USB Type C 集线器 Naar Hdmi 兼容 USB 3.0 适配器 6 合 1 Type C 集线器扩展坞 Voor macbook Pro Air USB C 分路器”,
“价钱”: {
“当前的”: “\uffe16.46”
},
“网址”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“图片”: "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 dagen”,
“已售出数量”: 900,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Huav 2024 Originele 笔记本电脑 13.3 英寸 360% Omgedraaid Ultralicht 2K 触摸屏 16G Met 2Tssd Intel N4120 Windows 10 11 笔记本电脑”,
“价钱”: {
“当前的”: “\uffe1270.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“图片”: "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 18,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB 集线器 3.0 4 Poorten USB3.0 多分路器适配器 Otg Voor 小米联想 Macbook Pro 13 15 Air Pro PC 电脑笔记本电脑配件”,
“价钱”: {
“当前的”: “\uffe12.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“图片”: "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: 9,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C 集线器 Voor Stoomdek 扩展坞 C 型 Naar Hdmi 兼容 4K 60Hz Pd 100W Usb 3.0 适配器kabel Voor 笔记本电脑 Macbook Pro”,
“价钱”: {
“当前的”: “\uffe17.57”
},
“网址”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“图片”: "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 30,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C Naar 以太网适配器 Rj45 Naar Thunderbolt 3 Type C 千兆网络 LAN 1000Mbps 转换器 Voor Macbook Pro/Air 三星 Galaxy”,
“价钱”: {
“当前的”: “\uffe13.37”
},
“网址”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“图片”: "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: ,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Minisopuru 集线器 USB C 集线器 10Gbps 集线器 USB Type C Naar Usb 3.2 Pd 100W 适配器 Voor Macbook Pro Imac Pc 配件 USB 集线器”,
“价钱”: {
“当前的”: “\uffe14.64”
},
“网址”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“图片”: "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 600,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “屏幕调节兼容 Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 液晶显示屏”,
“价钱”: {
“当前的”: “\uffe1113.97”
},
“网址”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“图片”: "",
“发货信息”: “验证:\uffe130.92”,
“已售出数量”: 128,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
}
],
“相关搜索”: [
{
“标题”: “适配器网络”,
“关联”: “https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html”
},
{
“标题”: “MacBook Lucht 边框”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html”
},
{
“标题”: “macbook oplader”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-oplader.html”
},
{
“标题”: “USB onderdeel”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html”
},
{
“标题”: “键盘令人着迷的 MacBook Air”,
“关联”: “https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html”
},
{
“标题”: “usb naar c 型分离器”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html”
},
{
“标题”: “麦克·普尔顿”,
“关联”: “https://nl.aliexpress.com/w/wholesale-mac-poorten.html”
},
{
“标题”: “戴尔笔记本电脑”,
“关联”: “https://nl.aliexpress.com/w/wholesale-dell-laptops.html”
},
{
“标题”: “magsafe oplader macbook pro”,
“关联”: “https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html”
},
{
“标题”: “MacBook Pro a1229”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html”
},
{
“标题”: “MacBook Lucht m1 16 16”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html”
},
{
“标题”: “MacBook Pro a1708 toetsenbord vervanging”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html”
}
],
“相关类别”: []
}
}

步骤 7. 将解析的数据保存到 JSON 文件

当然,我们不会让数据白白浪费。 在此步骤中,我们将在代码中添加几行,以便我们可以安全地存储抓取的数据以供以后使用。 回到你的 crawlbase.py 再次文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
进口 要求
进口 JSON

# 替换为您从仪表板获取的 user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
“CrawlbaseAPI-参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

- 打开('scraped_data.json', 'w') as json_文件:
json.dump(数据, json_file)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

处理响应并将其保存为 JSON:

  • json.loads(response.text):这会将响应的 JSON 格式文本转换为 Python 字典。
  • with open('scraped_data.json', 'w') as json_file:以写入模式打开名为“scraped_data.json”的文件。
  • json.dump(data, json_file):将Python字典(转换后的JSON数据)写入文件。

VI. 扩展 Python 项目的策略

扩展此网络抓取项目涉及有效管理大量请求,并确保您的项目保持可靠并符合网站的服务条款。 以下是一些需要考虑的策略:

使用异步请求: 不要一一发出请求,而是考虑使用异步编程与库,如 asyncioaiohttp。 异步请求允许您同时发送多个请求,从而显着提高抓取过程的速度。

并行处理: 该策略可用于同时处理多个 URL,从而加快整个数据检索过程。 Python 提供了多种并行处理机制,一种常见的方法是使用 concurrent.futures 模块。

使用代理池: 当处理大量请求时,请考虑使用代理池来避免 IP 禁止并分配请求。Crawlbase 的 Smart Proxy 它可以为您解决这个问题,因为它可以智能地为每个请求轮换不同的代理以防止被检测到。

分布式抓取: 如果 URL 量非常大,您可能需要考虑分布式架构。 将抓取任务分解为更小的块,并将工作负载分配到多台机器或进程上。

优雅地处理错误: 实施错误处理来管理网络错误、超时和其他意外问题。 这确保您的抓取过程可以从故障中恢复而不会崩溃。

优化代码效率: 检查您的代码是否存在任何可能影响性能的低效率问题。 优化循环,最大限度地减少不必要的计算,并确保您的代码尽可能高效。

数据库优化: 使用可靠的数据库(例如 PostgreSQL、MySQL) 存储抓取的数据. 实施适当的索引以加快检索操作或将数据批量插入数据库以减少开销。

VII. 使用 Crawlbase 创建 AliExpress Web Scraper

在这篇博客中,我们深入探讨了 Smart Proxy 以及它在提高 AliExpress 网络抓取效率方面发挥的重要作用。我们首先了解了 Smart Proxy,探索了它在抓取 AliExpress 数据中的应用,然后介绍了使用 Curl 命令和基于 Python 的网络抓取工具使用它的实际方面。

分步指南提供了有关配置 Python 项目、设置项目目录、安装依赖项、使用 Smart Proxy 与 Python 无缝集成,执行代码,并使用 AliExpress 网络抓取工具高效解析抓取的数据。最后一步是将解析后的数据保存到结构化的 JSON 文件中。

作为开发人员,我们认识到稳健且可扩展的项目的重要性。 结论部分将我们的讨论扩展到扩展 Python 项目的策略。 扩展不仅仅涉及处理更多数据;还涉及处理更多数据。 它是关于优化您的代码、架构和资源以实现可持续增长。

如果你对其他项目感兴趣 Smart Proxy,您可以从以下链接探索更多主题:

使用 Firefox Selenium 爬取沃尔玛数据 Smart Proxy
使用以下方式抓取亚马逊 ASIN Smart Proxy

如果您想查看更多速卖通项目,请浏览以下链接:

使用关键字抓取速卖通 SERP
使用 AliExpress 进行抓取 Crawling API

我们还提供各种教程,涵盖从各种电子商务平台(例如 沃尔玛, 易趣Amazon,或社交媒体平台,如 InstagramFacebook.

如果您有任何疑问或需要帮助,请随时与我们联系。 我们的 支持团队 将很高兴为您提供帮助。

八. 经常问的问题

问:是吗 Smart Proxy 能够处理大规模的抓取任务吗?

A: 当然。 Smart Proxy 旨在高效管理小型和大型抓取任务。其多线程操作和负载平衡功能可确保您轻松从 AliExpress 抓取大量数据。

问:有 Smart Proxy 在网页抓取过程中优先考虑隐私和安全?

A: 是的,隐私和安全是 Smart Proxy的设计。通过将您的请求路由到多个代理服务器,它可以保持您的在线身份匿名,从而使您能够以高水平的隐私和安全性执行网页抓取。

问:可以 Smart Proxy 除了 AliExpress 之外,还可以用来在其他平台上抓取网页数据吗?

A: Smart Proxy 用途广泛,可用于大多数在线平台上的网页抓取。它不仅限于 AliExpress;您可以使用它来增强您在各种网站上的抓取活动,例如 Amazon、eBay、Facebook、Instagram 等。

问: 有什么好处 Smart Proxy 是否提供使用单个静态 IP 进行网页抓取的功能?

A: 与单个静态 IP 不同, Smart Proxy 提供动态和轮换 IP 地址,使其更能抵御 IP 禁令和检测。它还可以提高抓取速度和效率,让您能够更快地提取数据,即使是大规模数据。

问:使用 Python 和 Smart Proxy 比其他语言更适合网页抓取吗?

A: Python 因其可读性、丰富的库和易学性而在网络抓取社区中被广泛使用。与 Smart Proxy,您将受益于 Smart Proxy的代理解决方案,确保简化和更安全的网络抓取体验。