由于速卖通多年来的巨大增长,对于那些需要有价值的数据进行市场研究的人来说,寻找可靠的速卖通代理变得越来越重要。

从2022年2023月到2.7年432月,全球速卖通吸引了高达2023亿的访问者! 每月的访问量从未低于 449 亿次。 你猜怎么着? XNUMX 年 XNUMX 月,全球点击量超过 XNUMX 亿次,夺得桂冠。

全球速卖通流量统计

凭借巨大的用户需求,全球速卖通的定价和趋势在竞争中保持领先地位,因此抓取其数据可以为当前趋势和定价提供有价值的见解。 但如果不使用代理,抓取全球速卖通并不容易。

这就是我们的解决方案发挥作用的地方。Crawlbase 的 智能代理 不是典型的速卖通代理服务; 它是一种利用旋转住宅和数据中心代理的多功能解决方案。

在本博客中,我们将指导您完成使用 Python 和智能代理构建 AliExpress 网络抓取工具的过程,为您提供分步方法。 您将学习如何设置编码环境、配置智能代理、创建抓取工具以及处理常见的网页抓取问题。

让我们深入研究并充分利用智能代理的功能。这是有关它的视频教程。如果您更喜欢书面教程,请向下滚动并继续阅读。

目录

一、了解智能代理

二. 智能代理如何帮助抓取全球速卖通

三. Curl 命令的基本智能代理用法

IV:为智能代理请求添加参数

五、使用Python创建AliExpress网络爬虫

六. 扩展 Python 项目的策略

七、结论

八. 经常问的问题

一、了解智能代理

智能代理 通过由数百万个 IP 组成的一系列代理服务器自动进行流量路由,从而简化了复杂的网页抓取过程。 它是一个强大的工具,旨在促进网络爬行和抓取应用程序,这些应用程序不是为与基于 HTTP/S 的 API 交互而构建的,例如 抓取 API.

您可以集成智能代理来处理与爬网 API 的通信,而无需修改现有应用程序。 该过程涉及使用 轮换代理 将您的请求转发到 Crawling API,从而简化开发人员的集成。

这款多功能工具旨在使您的网页抓取项目更加顺畅和高效。 它的工作原理如下:

自动流量路由

智能代理为您处理复杂的流量路由。 这有点像为您的网络抓取操作配备一个智能交通指挥员。 通过将您的请求分发到具有数百万个全球 IP 的多个代理服务器上,可以避免任何单个服务器超载,从而确保您的网络抓取活动保持平稳且不间断。

多线程操作

智能代理可以在网页抓取的情况下充分利用多线程。 当您启动抓取任务时,智能代理管理器会智能地将线程分配给不同的请求。 这些线程并行运行,同时从目标网站获取数据。

效率和速度

智能代理服务的突出特点之一是其卓越的速度。 它确保您的请求不会出现不必要的延迟。 这对于时间至关重要的网络抓取尤其重要。 使用代理管理器,您的抓取任务不仅变得更快而且更准确。

自动 IP 轮换

Crawlbase的智能代理智能管理 IP轮换。 这意味着您请求的 IP 地址会定期发生变化。 此功能至关重要,因为它可以让您轻松绕过限制、避免 IP 禁令并显着提高网页抓取速度。 通过不断刷新您的 IP 地址,您可以降低遇到可能破坏抓取过程的障碍的风险。

平衡负载

无论您是执行广告验证、进行市场研究还是分析竞争对手,智能代理都能保持均衡的负载。 这确保您可以轻松执行这些任务。 这种平衡可以防止任何单个代理服务器不堪重负,从而进一步提高网络抓取活动的效率。

隐私和安全

智能代理的核心是对隐私和安全的承诺。 通过通过多个代理服务器分发您的请求,您的在线身份得到妥善保护,使您能够最大程度地进行网络抓取活动 数据隐私和安全.

总之,Crawlbase 的智能代理通过自动化和优化代理服务器管理流程来简化网络抓取。 其高效的交通路由、速度、自动化 IP轮换、多线程操作、负载平衡以及对隐私和安全的关注使其成为广告验证、市场研究和竞争对手分析等网络抓取活动的宝贵工具。 借助智能代理,您可以轻松自信地浏览网络抓取环境。

速卖通代理来抓取速卖通数据

二. 智能代理如何帮助抓取全球速卖通?

用于抓取全球速卖通的智能代理

全球速卖通作为全球最大的电子商务平台之一,为企业和研究人员提供大规模的宝贵数据。 然而,从全球速卖通抓取数据也面临着一系列挑战。 这些挑战包括 IP 禁令、验证码以及绕过机器人检测机制的需要。 Crawlbase 的智能代理解决方案将使您能够克服这些障碍并有效地从 AliExpress 中提取数据。

绕过 IP 封锁和限制

全球速卖通采用 IP 封锁作为防止过度抓取活动的常见措施。 通过不断轮换您的 IP 地址,智能代理可以帮助您轻松绕过这些限制。 这意味着您可以进行抓取,而不必担心您的 IP 地址被屏蔽,从而确保不间断的数据收集。

智胜验证码

验证码是您在抓取速卖通时遇到的另一个障碍。 这些安全测试旨在区分人类和机器人。 智能代理 轮换IP地址 功能在这里可以解决问题。 当验证码出现时,智能代理会智能地切换到新的 IP 地址,确保您的抓取过程保持平稳和连续。 这些安全检查不会减慢您的速度。

逃避机器人检测

与许多在线平台一样,速卖通使用复杂的机器人检测机制来识别和阻止自动抓取活动。 智能代理的自动 IP 轮换可显着降低被检测为机器人的风险。 通过不断地 改变IP,智能代理使您的抓取活动保持谨慎,允许您匿名抓取数据。

高速数据提取

网络抓取的效率至关重要,而 Smart Proxy 在这方面表现出色。 它确保以最小的延迟处理您的请求,使您能够快速从速卖通提取数据。 此外,凭借其多线程操作,智能代理可以同时处理多个请求,进一步提高网页抓取任务的速度和效率。

数据保密和保护

智能代理不仅提高效率,还优先考虑您的匿名性。 通过多个路由您的请求 代理服务器,它可以保护您的在线身份,使您能够以最高级别的隐私和安全性执行网络抓取。

现在我们已经讨论了智能代理在抓取速卖通中的重要性,您准备好释放它的潜力来满足您的抓取需求了吗? 在我们博客的下一部分中,我们将引导您逐步完成使用 Python 编写代码并无缝集成智能代理的过程,以制作专为速卖通定制的高效网络抓取工具。

三. Curl 命令的基本智能代理用法

在设置Python环境之前,让我们尝试测试智能代理并使用简单的curl命令从AliExpress网页获取数据。 你的第一步是 注册 使用 Crawlbase 并转到您的 智能代理仪表板 获取代理身份验证令牌。

智能代理仪表板

获得令牌后,打开命令提示符或终端,复制下面的命令行,替换 USER_TOKEN 使用您之前获得的令牌,然后按 Enter 执行代码。

1
卷曲-x “http://[电子邮件保护]:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

本篇 curl 命令将通过 Crawlbase 的智能代理向您的目标 URL 发出 HTTP 请求。 代理设置为运行于 smartproxy.crawlbase.com 在港口 8012-k 选项告诉 curl 忽略 SSL 证书验证。 当通过 HTTPS 连接到服务器并且您不想验证服务器证书的真实性时使用它。

在 Crawlbase 的智能代理上下文中,禁用 SSL 验证至关重要。 否则可能会阻碍智能代理和您的应用程序之间的交互。

成功执行后,您应该收到来自的 HTML 响应 全球速卖通 类似于此屏幕截图中显示的内容:

速卖通 html 响应

IV:为智能代理请求添加参数

由于智能代理将您的请求转发到 抓取 API,它还受益于 Crawling API 的大部分功能。 您可以通过发送特定指令来微调您的请求,称为 参数,通过一个名为 CrawlbaseAPI-Parameters.

这可以让您准确地告诉智能代理您希望它如何处理您的请求。 您可以对其进行自定义以完美满足您的需求。

在这种情况下,我们将使用一个名为 scraper=aliexpress-serp。 这告诉智能代理提取网站的响应并以易于理解的方式组织它。 这就像要求 Smart Proxy 将杂乱的网站数据转变为整齐且有组织的信息。

1
卷曲-H “CrawlbaseAPI-参数:scraper=aliexpress-serp” -x “http://[电子邮件保护]:8012" -k “https://aliexpress.com/w/wholesale-macbook-pro.html”

五、使用Python创建AliExpress网络爬虫

步骤 1. 配置您的 Python 项目

现在我们已经讨论了智能代理如何运行的基本细节。 我们已准备好设置 Python 环境。

首先确保您有 蟒蛇 安装在您的机器上。 如果这是您第一次使用 Python,我们推荐我们的 Python 初学者指南 并按照有关如何在系统上正确设置 Python 的分步过程进行操作。

步骤 2. 设置项目目录

在计算机上配置 Python 后,我们现在需要设置一个新项目。 打开控制台或终端并执行以下命令。

1
MKDIR 爬行基地
  • mkdir:这是一个代表“make directory”的命令。 它用于创建新目录。
  • crawlbase:这是您要创建的目录的名称。 在本例中,它被命名为“crawlbase”,但您可以将其替换为您喜欢的任何其他名称。

接下来,执行下面的命令。

1
cd 文件夹名称 && 触摸 爬行库.py
  • cd folder-name:该命令代表“更改目录”。 它用于导航到特定文件夹。 将“文件夹名称”替换为您要输入的文件夹的名称。
  • &&:这是一个逻辑运算符,意思是“和”。 在此命令的上下文中,它确保命令的第二部分(touch crawlbase.py) 仅当第一部分 (cd folder-name) 成功。
  • touch crawlbase.py:本 touch 命令用于创建一个空文件。 在这种情况下,它会在前面指定的目录中创建一个名为“crawlbase.py”的文件 cd 命令。

因此,当您运行这行代码时,它会执行两件事:

  1. 它将当前目录更改为“文件夹名称”指定的目录。
  2. 它在该目录中创建一个名为“crawlbase.py”的新的空 Python 文件。

步骤3.安装依赖项

要从 AliExpress 网页检索数据并将其保存到 JSON 文件,我们需要两个基本包。

要求:这个包简化了发送HTTP/1.1请求的过程。 您不必手动将查询字符串添加到 URL 或对 PUT 和 POST 数据进行编码。 为了简单起见,您可以只使用 json 方法。

JSON:Python 本身支持 JSON。 它带有一个名为 json 的内置包,用于编码和解码 JSON 数据,无需安装额外的包。

要获取这些包,请使用以下命令:

1
点安装请求

此命令可确保您拥有从 AliExpress 获取数据并在 Python 脚本中处理 JSON 操作所需的工具。

步骤 4. 通过 Python 使用智能代理

我们已经可以开始编写主要的 Python 代码并集成智能代理调用了。

在上一节中,我们创建了一个名为 crawlbase.py。 找到此文件,复制下面的代码并运行它以检索所需的数据。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
进口 要求

# 替换为您的 Crawlbase user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

响应= requests.get(url=url,代理=代理,验证=)

打印('响应正文:', 回复内容)

导入 requests 图书馆:

该行导入 requests 库,它简化了在 Python 中发出 HTTP 请求的过程。

设置代理身份验证:

更换 'USER_TOKEN' 使用您实际的 Crawlbase 用户令牌。 该令牌用于通过智能代理发出请求时进行身份验证。 这 proxy_auth 然后,遵循基本身份验证格式,将变量格式化为包含用户名和空密码。

定义 URL 和代理 URL:

  • url:这是您要抓取的目标 URL。 在本例中,它是与 MacBook Pro 批发相关的速卖通网页。
  • proxy_url:这是智能代理服务器的 URL,包括身份验证详细信息。 网址格式为 http://username:password@proxy_host:proxy_port.

设置代理:

proxies 创建字典来指定代理设置。 “http”和“https”都设置为使用相同的代理 URL。

提出请求:

  • requests.get:该函数向指定的URL发起HTTP GET请求。
  • proxies:代理参数设置为使用配置的代理设置。
  • verify=False:该参数设置为 False 忽略 SSL 证书验证。 在生产环境中,正确处理 SSL 验证至关重要。

打印响应正文:

此行打印响应的内容,其中包括 HTML 或从指定 URL 检索的数据。

步骤 5. 执行 Python 代码

1
爬行库.py
速卖通 html 响应

代码的成功响应将获取 AliExpress URL 的完整 HTML 源代码并将其显示在您的控制台上。 该数据在大多数情况下还没有用处,因为它很难剖析。 为了获得更合理且易于阅读的数据,我们必须解析此响应并将其转换为结构化数据,然后将其存储在数据库中以便于检索和分析。

步骤 6. 使用 AliExpress scraper 解析数据

此步骤将利用智能代理自动解析 AliExpress 数据的功能。 为此,我们只需要传递 scraper=速卖通-serp CrawlbaseAPI-parameters 作为我们代码中的标题。 编辑你的 crawlbase.py 文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
进口 要求
进口 JSON

# 替换为您的 Crawlbase user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
“CrawlbaseAPI-参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

执行此代码后,响应将采用 JSON 格式,如下所示:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
{
“原始状态”: 200,
“电脑状态”: 200,
“网址”: “https://nl.aliexpress.com/w/wholesale-macbook-pro.html?spm=MI7V_IrIdoZgPjgbnB0s3Q&”,
“身体”: {
“产品”: [
{
“标题”: “5 合 1 USB C 集线器 C 型 Naar 4K 高清适配器 Met Rj45 Netwerk 100M 1000M 以太网 Lan Oplader 适配器 Voor Macbook Pro”,
“价钱”: {
“当前的”: “\uffe11.27”
},
“网址”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“图片”: "https://ae04.alicdn.com/kf/Sbffa8b7a90564cff82ca0b7c2ece62038/5-in-1-USB-C-Hub-Type-C-To-4K-HD-Adapter-with-RJ45-Network-100M.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 207,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653517644.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-0&pdp_npi=4%40dis%21GBP%215.76%211.27%21%21%216.86%21%21%40210318ec16999696359782730e2cad%2112000033898457492%21sea%21UK%210%21AB&curPageLogUid=SwEz55KtOSLT",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Getatek USB C 集线器 4K 60Hz Hdmi 扩展坞 C 型 Naar 以太网 Poort Pd 100W USB 3.2 集线器适配器 Voor Macbook Pro 小米联想”,
“价钱”: {
“当前的”: “\uffe19.66”
},
“网址”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“图片”: "https://ae04.alicdn.com/kf/S07ec6c1f025748f591ba11f8c9289000U/Getatek-USB-C-Hub-4K-60Hz-HDMI-Docking-Station-Type-C-to-Ethernet-Port-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 261,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005980859268.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-1&pdp_npi=4%40dis%21GBP%2130.10%219.66%21%21%21261.78%21%21%40210318ec16999696359782730e2cad%2112000035159491762%21sea%21UK%210%21AB&curPageLogUid=zcTTJdwE54mt",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “12 合 1 USB C 集线器扩展坞 Hdmi 兼容适配器 4K 30Hz Pd 100W Type-C 集线器 USB 3.0 分路器 Voor 笔记本电脑 Macbook Pro Air”,
“价钱”: {
“当前的”: “\uffe113.92”
},
“网址”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“图片”: "https://ae04.alicdn.com/kf/S5a1cda79dd644150b8755030c9bdc68aJ/12-in-1-USB-C-HUB-Docking-Station-HDMI-compatible-Adapter-4K-30Hz-PD-100W-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 47,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006054738654.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-2&pdp_npi=4%40dis%21GBP%2136.62%2113.92%21%21%2143.63%21%21%40210318ec16999696359782730e2cad%2112000035520585565%21sea%21UK%210%21AB&curPageLogUid=YU2V7Z8Q7JSg",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “倍思 USB Type C 集线器 Naar Hdmi 兼容 USB 3.0 适配器 6 合 1 Type C 集线器扩展坞 Voor macbook Pro Air USB C 分路器”,
“价钱”: {
“当前的”: “\uffe16.46”
},
“网址”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“图片”: "https://ae04.alicdn.com/kf/S72ff1470a93645d6b3afd70400d7a288N/Baseus-USB-Type-C-HUB-to-HDMI-compatible-USB-3-0-Adapter-6-in-1-Type.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 5 dagen”,
“已售出数量”: 900,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005208865147.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-3&pdp_npi=4%40dis%21GBP%2137.49%216.46%21%21%21325.98%21%21%40210318ec16999696359782730e2cad%2112000032856872202%21sea%21UK%210%21AB&curPageLogUid=0JuHtQXjX8DN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Huav 2024 Originele 笔记本电脑 13.3 英寸 360% Omgedraaid Ultralicht 2K 触摸屏 16G Met 2Tssd Intel N4120 Windows 10 11 笔记本电脑”,
“价钱”: {
“当前的”: “\uffe1270.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“图片”: "https://ae04.alicdn.com/kf/S09eb548a999e407384e583126b354e73Y/HUAV-2024-Original-Laptop-13-3-inch-360-Flipped-Ultra-Light-2K-Touch-Screen-16G-Running.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 18,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006176614563.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-4&pdp_npi=4%40dis%21GBP%21356.23%21270.74%21%21%213097.62%21%21%40210318ec16999696359782730e2cad%2112000036140607614%21sea%21UK%210%21AB&curPageLogUid=CWtKq454SCOw&search_p4p_id=20231114054716531607197640720004634170_1",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB 集线器 3.0 4 Poorten USB3.0 多分路器适配器 Otg Voor 小米联想 Macbook Pro 13 15 Air Pro PC 电脑笔记本电脑配件”,
“价钱”: {
“当前的”: “\uffe12.74”
},
“网址”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“图片”: "https://ae04.alicdn.com/kf/S3a56023e42be4eff830bd6174528311bp/USB-HUB-3-0-4-Ports-USB3-0-Multi-Splitter-Adapter-OTG-For-Xiaomi-Lenovo-Macbook.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: 9,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006212928878.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-5&pdp_npi=4%40dis%21GBP%214.57%212.74%21%21%215.44%21%21%40210318ec16999696359782730e2cad%2112000036304475455%21sea%21UK%210%21AB&curPageLogUid=koszKvWCNDet",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C 集线器 Voor Stoomdek 扩展坞 C 型 Naar Hdmi 兼容 4K 60Hz Pd 100W Usb 3.0 适配器kabel Voor 笔记本电脑 Macbook Pro”,
“价钱”: {
“当前的”: “\uffe17.57”
},
“网址”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“图片”: "https://ae04.alicdn.com/kf/S73ea26b1e655401cb67152e3c2aa3f30i/USB-C-HUB-for-Steam-Deck-Docking-Station-Type-C-to-HDMI-compatible-4K-60Hz-PD.jpg_220x220xz.jpg_.webp",
“发货信息”: “免费审核”,
“已售出数量”: 30,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005653434065.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-6&pdp_npi=4%40dis%21GBP%2120.45%217.57%21%21%2124.37%21%21%40210318ec16999696359782730e2cad%2112000033897379128%21sea%21UK%210%21AB&curPageLogUid=E6zEd5ZZ3wXs",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “USB C Naar 以太网适配器 Rj45 Naar Thunderbolt 3 Type C 千兆网络 LAN 1000Mbps 转换器 Voor Macbook Pro/Air 三星 Galaxy”,
“价钱”: {
“当前的”: “\uffe13.37”
},
“网址”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“图片”: "https://ae04.alicdn.com/kf/S6a1bc693df814f689c8a28bb25ce9867L/USB-C-to-Ethernet-Adapter-RJ45-to-Thunderbolt-3-Type-C-Gigabit-Network-LAN-1000Mbps-Converter.jpg_220x220xz.jpg_.webp",
“发货信息”: “12-dag 杠杆作用于 \uffe18.39”,
“已售出数量”: ,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005006224668700.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-7&pdp_npi=4%40dis%21GBP%2111.24%213.37%21%21%2197.76%21%21%40210318ec16999696359782730e2cad%2112000036356461171%21sea%21UK%210%21AB&curPageLogUid=PuUF5xuqSwIN",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “Minisopuru 集线器 USB C 集线器 10Gbps 集线器 USB Type C Naar Usb 3.2 Pd 100W 适配器 Voor Macbook Pro Imac Pc 配件 USB 集线器”,
“价钱”: {
“当前的”: “\uffe14.64”
},
“网址”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“图片”: "https://ae04.alicdn.com/kf/S13153af571704d17b2143b89918557785/Minisopuru-HUB-USB-C-Hub-10Gbps-Hub-USB-Type-C-to-USB-3-2-PD-100W.jpg_220x220xz.jpg_.webp",
“发货信息”: “Gratis verzending boven de \uffe18 \u00b7 Levering binnen 7 dagen”,
“已售出数量”: 600,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005005883953605.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-8&pdp_npi=4%40dis%21GBP%2132.13%214.64%21%21%21279.37%21%21%40210318ec16999696359782730e2cad%2112000034711180884%21sea%21UK%210%21AB&curPageLogUid=QeKUEU8r5Hh8",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
},
{
“标题”: “屏幕调节兼容 Macbook Pro Air A1706 A1708 A1989 A2159 A2251 A2289 A2338 A1466 A1932 A2179 A2337 液晶显示屏”,
“价钱”: {
“当前的”: “\uffe1113.97”
},
“网址”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“图片”: "",
“发货信息”: “验证:\uffe130.92”,
“已售出数量”: 128,
“评级值”: "",
“评级链接”: "https://nl.aliexpress.com/item/1005003836485026.html?algo_pvid=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9&aem_p4p_detail=20231114054716531607197640720004634170&algo_exp_id=fdb7f6a7-4ed1-4ca4-b128-a1adec7f7fd9-9&pdp_npi=4%40dis%21GBP%21113.97%21113.97%21%21%21135.79%21%21%40210318ec16999696359782730e2cad%2112000031226615553%21sea%21UK%210%21AB&curPageLogUid=0LcWc3CWSgz3&search_p4p_id=20231114054716531607197640720004634170_2",
“卖家信息”: {
“商店名称”: "",
“商店链接”:
}
}
],
“相关搜索”: [
{
“标题”: “适配器网络”,
“关联”: “https://nl.aliexpress.com/w/wholesale-adapter-netsnoer.html”
},
{
“标题”: “MacBook Lucht 边框”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-bezel.html”
},
{
“标题”: “macbook oplader”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-oplader.html”
},
{
“标题”: “USB onderdeel”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-c-onderdeel.html”
},
{
“标题”: “键盘令人着迷的 MacBook Air”,
“关联”: “https://nl.aliexpress.com/w/wholesale-keyboard-bescherming-macbook-air.html”
},
{
“标题”: “usb naar c 型分离器”,
“关联”: “https://nl.aliexpress.com/w/wholesale-usb-naar-type-c-splitter.html”
},
{
“标题”: “麦克·普尔顿”,
“关联”: “https://nl.aliexpress.com/w/wholesale-mac-poorten.html”
},
{
“标题”: “戴尔笔记本电脑”,
“关联”: “https://nl.aliexpress.com/w/wholesale-dell-laptops.html”
},
{
“标题”: “magsafe oplader macbook pro”,
“关联”: “https://nl.aliexpress.com/w/wholesale-magsafe-charger-macbook-pro.html”
},
{
“标题”: “MacBook Pro a1229”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1229.html”
},
{
“标题”: “MacBook Lucht m1 16 16”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-air-m1-16-512.html”
},
{
“标题”: “MacBook Pro a1708 toetsenbord vervanging”,
“关联”: “https://nl.aliexpress.com/w/wholesale-macbook-pro-a1708-keyboard-replacement.html”
}
],
“相关类别”: []
}
}

步骤 7. 将解析的数据保存到 JSON 文件

当然,我们不会让数据白白浪费。 在此步骤中,我们将在代码中添加几行,以便我们可以安全地存储抓取的数据以供以后使用。 回到你的 crawlbase.py 再次文件并粘贴下面的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
进口 要求
进口 JSON

# 替换为您从仪表板获取的 user_token。
用户名= 'USER_TOKEN'
密码 = '' # 密码为空,不用于身份验证。
代理验证= f'{用户名}:{密码}'

网址= 'https://nl.aliexpress.com/w/wholesale-macbook-pro.html'
代理网址 = f"http://{代理验证}@smartproxy.crawlbase.com:8012"
代理={“http”:代理网址, “https”: 代理网址}

标头= {
“CrawlbaseAPI-参数”: “scraper=aliexpress-serp”
}

响应 = requests.get(url=url, proxies=proxies,
标头=标头,验证=)

数据= json.loads(response.text)

打开('scraped_data.json', 'w') as json_文件:
json.dump(数据, json_file)

打印('响应刮伤身体:', json.dumps(数据, 缩进=4))

处理响应并将其保存为 JSON:

  • json.loads(response.text):这会将响应的 JSON 格式文本转换为 Python 字典。
  • with open('scraped_data.json', 'w') as json_file:以写入模式打开名为“scraped_data.json”的文件。
  • json.dump(data, json_file):将Python字典(转换后的JSON数据)写入文件。

六. 扩展 Python 项目的策略

扩展此网络抓取项目涉及有效管理大量请求,并确保您的项目保持可靠并符合网站的服务条款。 以下是一些需要考虑的策略:

使用异步请求: 不要一一发出请求,而是考虑使用异步编程与库,如 asyncioaiohttp。 异步请求允许您同时发送多个请求,从而显着提高抓取过程的速度。

并行处理: 该策略可用于同时处理多个 URL,从而加快整个数据检索过程。 Python 提供了多种并行处理机制,一种常见的方法是使用 concurrent.futures 模块。

使用代理池: 当处理大量请求时,可以考虑使用代理池来避免 IP 封禁并分发请求。 Crawlbase 的智能代理可以为您解决这个问题,因为它会针对每个请求智能地轮换不同的代理以防止检测。

分布式抓取: 如果 URL 量非常大,您可能需要考虑分布式架构。 将抓取任务分解为更小的块,并将工作负载分配到多台机器或进程上。

优雅地处理错误: 实施错误处理来管理网络错误、超时和其他意外问题。 这确保您的抓取过程可以从故障中恢复而不会崩溃。

优化代码效率: 检查您的代码是否存在任何可能影响性能的低效率问题。 优化循环,最大限度地减少不必要的计算,并确保您的代码尽可能高效。

数据库优化: 使用可靠的数据库(例如 PostgreSQL、MySQL) 存储抓取的数据。 实施适当的索引以加快检索操作,或将数据批量插入数据库以减少开销。

七、 结论

在这篇博客中,我们深入研究了智能代理的细节及其在提高网络抓取效率方面的重要作用,特别是在全球速卖通的背景下。 我们首先了解智能代理的基础知识,探索其在抓取速卖通中的应用,然后逐步了解将其与 Curl 命令和基于 Python 的网络抓取工具一起使用的实际方面。

该分步指南提供了有关配置 Python 项目、设置项目目录、安装依赖项、与 Python 无缝利用智能代理、执行代码以及使用 AliExpress scraper 高效解析抓取数据的见解。 最后一步是将解析后的数据保存到结构化 JSON 文件中。

作为开发人员,我们认识到稳健且可扩展的项目的重要性。 结论部分将我们的讨论扩展到扩展 Python 项目的策略。 扩展不仅仅涉及处理更多数据;还涉及处理更多数据。 它是关于优化您的代码、架构和资源以实现可持续增长。

如果您对智能代理的其他项目感兴趣,您可以通过以下链接探索更多主题:

使用 Firefox Selenium 和智能代理抓取沃尔玛
使用智能代理抓取亚马逊 ASIN

如果您想查看更多速卖通项目,请浏览以下链接:

使用关键字抓取速卖通 SERP
使用 Crawling API 抓取 AliExpress

我们还提供各种教程,涵盖从各种电子商务平台(例如 沃尔玛, 易趣Amazon,或社交媒体平台,如 InstagramFacebook.

如果您有任何疑问或需要帮助,请随时与我们联系。 我们的 支持团队 将很高兴为您提供帮助。

八. 经常问的问题

问:Smart Proxy 是否能够处理大规模的抓取任务?

A: 绝对地。 智能代理旨在有效管理小型和大规​​模的抓取任务。 其多线程操作和负载均衡功能确保您可以轻松地从 AliExpress 中抓取大量数据。

问:智能代理在网络抓取过程中是否优先考虑隐私和安全?

A: 是的,隐私和安全是 Smart Proxy 设计的核心。 通过通过多个代理服务器路由您的请求,它可以使您的在线身份保持匿名,从而使您能够以高水平的隐私和安全性执行网络抓取。

问:Smart Proxy 可以用于速卖通以外的其他平台上的网页抓取吗?

A: 智能代理用途广泛,可用于大多数在线平台上的网页抓取。 不仅限于全球速卖通; 您可以使用它来增强您在 Amazon、eBay、Facebook、Instagram 等各种网站上的抓取活动。

问:与使用单个静态 IP 进行网页抓取相比,智能代理有哪些优势?

A: 与单个静态 IP 不同,智能代理提供动态和轮换的 IP 地址,使其更能适应 IP 禁止和检测。 它还提高了抓取速度和效率,让您甚至可以更快速地提取大规模数据。

问:与其他语言相比,使用 Python 和智能代理进行网页抓取有哪些优势?

A: Python 因其可读性、丰富的库和易于学习而在网络抓取社区中得到广泛使用。 与 Smart Proxy 结合使用时,您可以受益于 Smart Proxy 代理解决方案的多功能性,确保简化且更安全的网络抓取体验。