在数字时代,利用社交媒体平台的数据已成为企业、研究人员和营销人员的重要策略。 凭借庞大的用户群和多样化的内容,Instagram 提供了大量有价值的信息。 然而,由于平台复杂的结构和隐私措施,访问和抓取 Instagram 数据的任务可能相当复杂。 幸运的是,Python 提供了一个强大的解决方案,在本指南中,我们将探索 Python 的功能并介绍一个非常宝贵的工具: Crawlbase 爬取 API。 无论您是有兴趣分析用户档案、跟踪主题标签、监控参与度还是进行市场研究,本指南都将为您提供准确执行此操作所需的知识和工具。

目录:

为什么 Instagram 数据抓取很有用?

Instagram拥有数十亿活跃用户,它不仅仅是一个分享时刻和故事的平台,它还是一个蕴含深刻见解的巨大数据存储库。 利用此数据源的企业、研究人员和个人会发现大量的好处。 以下是 Instagram 数据抓取成为不同行业重要工具的关键原因。

  1. 市场调查: 它使企业能够深入了解目标受众的偏好、行为和兴趣,包括他们的 Instagram的追随者。公司可以通过从 Instagram 个人资料、帖子和评论中抓取数据来更好地了解市场趋势和客户情绪。如果您要开发一个新的 标志制造商 或者开发它的新版本,比方说,你可以解释 Instagram 分析并根据用户交互数据进行设计。后者可以帮助您创建响应速度更快、用户友好的设备。
  2. 竞争对手分析: 从竞争对手的个人资料和帖子中抓取数据可以提供有关其策略、内容表现和参与度指标的宝贵信息。 这有助于企业保持竞争力并相应地调整自己的战略。
  3. 有影响力的营销: Instagram 是一个流行的影响者营销平台。 抓取数据有助于根据关注者数量、参与率和内容相关性来识别潜在的影响者,从而使与符合品牌目标的影响者的合作变得更加容易。
  4. 内容策略: 抓取 Instagram 数据使内容创建者能够分析其利基市场中的热门帖子、主题标签和标题。 这些信息可以激发内容创意,提高帖子参与度,并帮助创作者根据受众的喜好定制内容。
  5. 社交媒体分析: 对于个人和企业来说,抓取 Instagram 数据可以全面了解他们的社交媒体表现。 可以跟踪和分析关注者增长、帖子覆盖率和参与率等指标,以优化社交媒体策略。
  6. 用户参与: 品牌可以通过分析用户评论和发布反馈来更有效地与受众互动。 抓取评论有助于识别客户的疑虑、问题或可能需要回复的反馈。
  7. 领先一代: 抓取 Instagram 数据可用于识别对特定产品或服务感兴趣的潜在线索或客户。 例如,企业可以搜索与其行业相关的帖子并与表达兴趣的用户互动。
  8. 内容个性化: 企业可以通过抓取用户数据来个性化他们的营销工作。 他们可以根据用户偏好和行为定制产品推荐、广告和内容,从而提高转化率。
  9. 趋势分析: Instagram 是一个流行趋势快速涌现的平台。 数据抓取使用户能够识别并利用其利基或行业的新兴趋势,从而在竞争中保持领先地位。
  10. 学术研究: 研究人员可以使用 Instagram 数据抓取来研究在线行为、社会趋势和文化现象。 这些数据对于学术研究和社会学研究很有价值。
Instagram 数据抓取用途

Instagram 页面的结构如何?

Instagram 页面以用户友好且具有视觉吸引力的方式构建,具有各种元素和部分,可提供无缝的浏览体验。 以下是 Instagram 页面通常结构的概述:

  1. 资料图片: 在 Instagram 页面的顶部,您会找到用户的个人资料照片。 这通常是代表帐户持有人的小圆形图像。 单击个人资料图片可打开该图片的放大版本。

  2. 用户名和简介: 您将在个人资料图片的正下方看到用户的用户名和个人简介。 用户名是帐户的唯一标识符,个人简介是用户可以自定义的简短描述,以提供有关他们自己、他们的兴趣或他们的业务的信息。

  3. 导航选项卡: Instagram 就在个人简介下方,为不同的用户个人资料部分提供了导航选项卡。 这些选项卡通常包括:

    • 文章: 此选项卡显示用户发布的照片​​和视频网格。
    • IGTV: 您可以在此处找到用户的较长视频和内容。
    • 卷轴: 显示用户的短视频内容。
    • 标签: 显示其他人标记用户的帖子。
    • 已保存: 此选项卡允许用户保存帖子和收藏以供以后查看。
    • 关注者和关注者: 这些选项卡显示用户的关注者列表以及他们所关注的帐户。
    • 亮点: 亮点是用户选择在其个人资料中展示的精选故事集。
  4. 帖子网格: Instagram 页面的主要内容区域由用户帖子的网格占据。 正方形或矩形图像或视频缩略图代表每个帖子。 用户可以向下滚动查看更多帖子。 单击帖子会以完整视图打开它,以及其标题和参与选项(点赞、评论、分享)。

  5. 关注和消息按钮: 在页面顶部附近,有一些按钮可以关注用户或向他们发送直接消息 (DM)。 这些按钮允许用户与个人资料所有者联系。

  6. 统计: 在用户的个人资料图片和用户名下方,您可能会看到与该帐户相关的统计信息,例如帖子数、关注者数和关注者数。

  7. 楼层数: 在页面顶部,您会发现带有彩色圆环的小型圆形个人资料图片。 这些表明用户已经发布了一个故事。 单击个人资料图片会打开该用户的故事,这是一个持续 24 小时的临时帖子。

  8. 亮点: “故事”部分下方可能有一排亮点。 亮点是用户选择永久保留在其个人资料中的精选故事。 每个精彩片段都可以包含一系列相关的故事。

  9. IGTV 和卷轴: IGTV 和 Reels 选项卡(如果在用户个人资料中可用)可分别提供对其较长视频和短视频内容的访问。

  10. 标记照片: 在“标记”部分,用户可以查看其他人标记了个人资料所有者的帖子。 这些标记的帖子可以提供有关用户兴趣和活动的附加背景信息。

  11. 已保存的帖子和收藏: 在“已保存”部分,用户可以访问已保存的帖子并组织已保存内容的集合。

  12. 关注者和关注列表: 单击“关注者”和“关注”选项卡将分别显示关注个人资料的用户列表和个人资料所有者关注的用户列表。

随着平台引入新功能和设计变化,Instagram 的结构可能会随着时间的推移而演变,但这些元素提供了 Instagram 页面如何组织的基本概述。

使用 Crawlbase Crawling API 抓取 Instagram 数据

步骤1: 注册 爬虫库 并获取您的私人令牌。 您可以通过访问来获取此令牌 账户文件 您的 Crawlbase 帐户中的部分。

步骤2: 安装 Crawlbase Python 库。 要安装它,请按照下列步骤操作:

  • 首先,确认您的系统上是否安装了Python。 如果没有安装,可以从官方下载安装 Python网站.
  • 安装 Python 后,打开命令提示符或终端。
  • 要安装 Crawlbase Python 库,请通过运行以下命令使用 pip(Python 包安装程序):

pip install crawlbase

  • 等待 Pip 下载并安装库。 它还将安装任何必要的依赖项。

步骤3: 选择您想要抓取的 Instagram 个人资料页面。 在此背景下,我们选择了 苹果 Instagram 个人资料页面。 选择这样的个人资料页面很重要,因为它提供了广泛的内容元素,展示了抓取过程的适应性和多功能性。

苹果 Instagram 个人资料页面

步骤4: 创建一个名为的 Python 文件 instagram-page-scraper.py 使用以下命令:

touch instagram-page-scraper.py

此命令将创建一个名为的空 Python 脚本文件 instagram-page-scraper.py 在您当前的目录中。 然后,您可以打开并编辑此文件以编写用于抓取 Instagram 页面的 Python 代码。

步骤5: 通过指定所需的参数和端点来配置 Crawlbase 爬网 API,以使 API 能够正确运行。 将提供的脚本复制到 instagram-page-scraper.py 您在步骤 4 中创建的文件。要执行以下脚本,请使用此命令 python instagram-page-scraper.py 在终端:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
 爬行基地 进口 抓取API

# 设置您的 Crawlbase 令牌
抓取基础令牌 = 'YOUR_CRAWLBASE_TOKEN'

# 要抓取的 Instagram 页面的 URL
instagram_page_url = 'https://www.instagram.com/apple/'

# 使用您的令牌创建一个 Crawlbase API 实例
api = 爬行API({ '令牌':crawlbase_token})

尝试: # 发送GET请求抓取URL
响应 = api.get(instagram_page_url)

# 检查响应状态码是否为200(OK)
if '状态代码' in 响应:
if 回复['状态代码'] == 200:
# 打印响应正文
打印(回复['身体'])
其他:
打印(f“请求失败,状态代码: {回复['状态代码']}")
其他:
打印(“响应不包含状态代码。”)

特殊课程 as e: # 处理任何异常或错误
打印(f“发生错误: {STR(e)}")

上面的脚本演示了如何利用 Crawlbase 的 Crawling API 从 Instagram 页面访问和提取数据。 这是通过设置 API 令牌、定义目标 URL 并启动 GET 请求来完成的。 运行此代码后,您将收到指定 Instagram 页面的原始 HTML 内容,该内容将显示在控制台中,如下所示:

Apple Instagram 个人资料 HTML 响应

使用 Crawlbase Scrapers 抓取有意义的 Instagram 数据

在前面的示例中,我们探索了如何检索 Instagram 页面的基本结构,该结构本质上为我们提供了页面的 HTML。 然而,有时我们不需要这些原始数据。 相反,我们的兴趣在于从页面中提取特定且重要的信息。 幸运的是,Crawlbase 的 Crawling API 配备了内置的 Instagram 抓取工具 称为是 Instagram 帖子, Instagram 个人资料Instagram标签。 这些抓取工具旨在帮助我们提取有价值的内容,我们将分别讨论它们。

爬行基地“Instagram 帖子” 刮刀

要在 Python 中使用 Crawling API 时启用此功能,至关重要的是包含一个“scraper”参数及其值 Instagram 帖子 在你的代码中。 该参数方便提取JSON格式的相关页面内容。 将对现有文件进行修改, “instagram-page-scraper.py”。 让我们看一下下面的例子,以便更清楚地理解:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
 爬行基地 进口 抓取API

# 设置您的 Crawlbase 令牌
抓取基础令牌 = 'YOUR_CRAWLBASE_TOKEN'

# 要抓取的 Instagram 帖子的 URL
instagram_post_url = 'https://www.instagram.com/p/B5LQhLiFFCX'

# 抓取 API 的选项
选项= {
'刮刀': 'Instagram 帖子',
}

# 使用您的令牌创建一个 Crawlbase API 实例
api = 爬行API({ '令牌':crawlbase_token})

尝试: # 发送 GET 请求来抓取带选项的 URL
响应= api.get(instagram_post_url,选项=选项)

# 检查响应状态码是否为200(OK)
if 响应.get('状态代码', 0)== 200:
# 解析 JSON 响应并打印它
响应体_json = 响应.get('身体', {})
打印(response_body_json)
其他:
打印(f“请求失败,状态代码: {响应.get('状态代码', 0)}")

特殊课程 as e: # 处理任何异常或错误
打印(f"API请求错误: {STR(e)}")

上面的 Python 代码使用 Crawlbase 的 Crawling API 从特定的 Instagram 帖子页面提取数据。 首先定义 Instagram 帖子页面的目标 URL 并使用以下命令配置抓取选项 Instagram 帖子 刮刀。 随后发起GET请求访问该URL。 收到状态代码为 200 的成功响应后,代码会解析检索到的数据并将其以 JSON 格式显示在控制台上。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
{
“发布者”: {
“帐户名称”: “苹果”,
“账户用户名”: “苹果”,
“账户链接”: “https://www.instagram.com/apple/”
},
“发布位置”: {
“地点名称”: “韩国天安市”,
“关联”: “https://www.instagram.com/explore/locations/236722267/cheonan-korea/”
},
“标题”: {
“文本”: ““大自然可以成为设计师。” #landscapephotography #ShotoniPhone,作者:Chang D.@hello*dongwon”,
“标签”: [
{
“井号”: “#风景摄影”,
“关联”: “https://www.instagram.com/explore/tags/landscapephotography/”
},
{
“井号”: “#雪顿iPhone”,
“关联”: “https://www.instagram.com/explore/tags/shotoniphone/”
},
{
“账户用户名”: “@hello_dongwon”,
“关联”: “https://www.instagram.com/hello_dongwon/”
}
]
},
“媒体”: {
“图片”: [
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/p1080x1080/74483667_176621576856831_5638323409997236915_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&;_nc_cat=103&_nc_ohc=oIc2iP5MKD0AX9Jxs0r&oh=728c8878e963134633bf7f58f95fb5c5&oe=5F0CA467"
],
“视频”: []
},
“标记帐户”: [],
“喜欢数”: 373174,
“观看次数”: 0,
“约会时间”: "2019-11-22T17:21:42.000Z",
“回复数”: 12,
“回复”: [
{
“账户用户名”: “李晓927”,
“账户链接”: “https://www.instagram.com/lixiao927/”,
“文本”: “太尼玛好看了吧”,
“喜欢数”: 0,
“约会时间”: "2020-03-26T05:48:15.000Z"
},
{
“账户用户名”: “tanmoy8440”,
“账户链接”: “https://www.instagram.com/tanmoy8440/”,
“文本”: “好的图片”,
“喜欢数”: 0,
“约会时间”: "2020-04-03T19:42:18.000Z"
},
{
“账户用户名”: “雷克斯卡龙空”,
“账户链接”: “https://www.instagram.com/lexikarongkong/”,
“文本”: “像三星 Galaxy S20 Ultra 相机”,
“喜欢数”: 1,
“约会时间”: "2020-04-04T13:37:39.000Z"
},
{
“账户用户名”: “奈苏萨斯”,
“账户链接”: “https://www.instagram.com/naisouzas/”,
“文本”: “帕雷塞·乌玛·平图拉”,
“喜欢数”: 0,
“约会时间”: "2020-04-07T01:37:57.000Z"
},
{
“账户用户名”: “hj_od597”,
“账户链接”: “https://www.instagram.com/hj_od597/”,
“文本”: "@juhee__15 오겁나 외국같փ겼다 했는데 밑에 비상구라 써짐ㅋㅋㅋㅋㅋㅋ",
“喜欢数”: 0,
“约会时间”: "2020-04-09T00:12:15.000Z"
},
{
“账户用户名”: “jbskiee378”,
“账户链接”: “https://www.instagram.com/jbskiee378/”,
“文本”: “你能给我一部 iphone x吗@apple 为什么你的产品这么贵 你能不能用你的价格给学生折扣?????????”,
“喜欢数”: 0,
“约会时间”: "2020-04-13T07:19:55.000Z"
},
{
“账户用户名”: “雷罗阿拉纳齐”,
“账户链接”: “https://www.instagram.com/reroalanazi/”,
“文本”: “照片很棒,但如果用#Samsung #Galaxy S20 Ultra镜头拍摄,会更漂亮。♥️”,
“喜欢数”: 0,
“约会时间”: "2020-04-19T20:18:42.000Z"
},
{
“账户用户名”: “马里奥_快门1”,
“账户链接”: “https://www.instagram.com/mario_shutter1/”,
“文本”: “一位设计师”,
“喜欢数”: 0,
“约会时间”: "2020-04-27T13:08:27.000Z"
},
{
“账户用户名”: “dostmealone”,
“账户链接”: “https://www.instagram.com/dostmealone/”,
“文本”: “🤮”,
“喜欢数”: 0,
“约会时间”: "2020-05-03T13:23:31.000Z"
},
{
“账户用户名”: “excellsior_x”,
“账户链接”: “https://www.instagram.com/excellsior_x/”,
“文本”: “@apple28k*”,
“喜欢数”: 0,
“约会时间”: "2020-05-07T04:59:11.000Z"
},
{
“账户用户名”: “安娜保拉啊”,
“账户链接”: “https://www.instagram.com/annapaulaaah/”,
“文本”: “Eu quero um iPhone”,
“喜欢数”: 0,
“约会时间”: "2020-05-11T19:45:36.000Z"
},
{
“账户用户名”: “arieneisa0810”,
“账户链接”: “https://www.instagram.com/arieneisa0810/”,
“文本”: ”😍”,
“喜欢数”: 0,
“约会时间”: "2020-05-29T02:20:19.000Z"
}
]
}

爬行基地“Instagram 个人资料” 刮刀

在此示例中,我们将重点关注从 Instagram 个人资料页面提取数据,特别是 URL https://www.instagram.com/apple/。 Crawlbase 的爬行 API 包括一个专门为 Instagram 个人资料页面量身定制的抓取工具,这使得从这些页面中提取重要信息变得简单。 要实现此目的,您需要调整 “刮刀” 提供的Python代码中的参数,将其从 Instagram 帖子Instagram 个人资料。 下面通过一个例子来阐明这一修改并帮助您更容易地掌握该过程:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
 爬行基地 进口 抓取API

# 设置您的 Crawlbase 令牌
抓取基础令牌 = 'YOUR_CRAWLBASE_TOKEN'

# 要抓取的 Instagram 个人资料的 URL
instagram_profile_url = 'https://www.instagram.com/apple/'

# 抓取 API 的选项
选项= {
'刮刀': 'instagram 个人资料',
}

# 使用您的令牌创建一个 Crawlbase API 实例
api = 爬行API({ '令牌':crawlbase_token})

尝试: # 发送 GET 请求来抓取带选项的 URL
响应= api.get(instagram_profile_url,选项=选项)

# 检查响应状态码是否为200(OK)
if 响应.get('状态代码', 0)== 200:
# 解析 JSON 响应并打印它
响应体_json = 响应.get('身体', {})
打印(response_body_json)
其他:
打印(f“请求失败,状态代码: {响应.get('状态代码', 0)}")

特殊课程 as e: # 处理任何异常或错误
打印(f"API请求错误: {STR(e)}")

JSON 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
{
“用户名”: “苹果”,
“已验证”: true,
“帖子数”: {
“值”: “645”,
“文本”: “645”
},
“关注者数”: {
“值”: “23,226,349”,
“文本”: "23.2m"
},
“以下计数”: {
“值”: “6”,
“文本”: “6”
},
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.2885-19/s150x150/20635165_1942203892713915_5464937638928580608_a.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_ohc=lcE_RCkZ_V0AX88YnQ-&oh=61a7f414a083262a6a3a267c72712d7e&oe=5ECF0664",
“名称”: “苹果”,
“生物”: {
“文本”: “每个人都有一个故事要讲。标记#ShotoniPhone 即可参与。”,
“标签”: [
{
“井号”: “#雪顿iPhone”,
“关联”: “https://www.instagram.com/explore/tags/shotoniphone/”
}
]
},
《开放的故事》: [
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c45.528.1152.1152a/s150x150/89355871_2612402225710092_3475237627656449116_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=100&_nc_ohc=l-ZJug3llnAAX81ac9M&oh=560c36b6bd08b2836271e77daca9c136&oe=5EA5EB70",
“文本”: “Hermitage🎨的头像”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/82179545_827696967671926_8787817111555610935_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=_wHOpjhVeXkAX_hEKdc&oh=b7d8db9aed851dbfccd9df4f49f94780&oe=5EA65BC6",
“文本”: “🐌💗的头像”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e15/c26.306.667.667a/s150x150/76876296_2550913171857183_128215401869222325_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=103&_nc_ohc=Rpbq12v0NKcAX-RpFK-&oh=c33a7715317b3e7ad3ccc683c12d6446&oe=5EA6766A",
“文本”: “💧+💡的头像”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e35/c37.435.949.949a/s150x150/75580662_537509090168097_4020885592126699575_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=109&_nc_ohc=qzEjW6UBISoAX_I7gQz&oh=ac6278fe93277ccac21b5f46f1f55f9b&oe=5EA66382",
“文本”: “回顾一年的个人资料图片”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/72484738_746166185869011_2854931396367331804_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=103&_nc_ohc=TkYeayoAfVwAX-_p9vt&oh=506ceaad1801cdd780f074a534f5560e&oe=5EA5FCC9",
“文本”: “Amazigh Art 的头像”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/75629745_203840840646467_1028107524492424399_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=111&_nc_ohc=FCGYL9q0NS4AX-pABQZ&oh=db4c4c5a46d7b1e44465ef13b970d15b&oe=5EA66374",
“文本”: “乍得湖的头像”
},
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/72598591_490861721522737_1631333478359405579_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=101&_nc_ohc=UEDftmksjuoAX_okqKB&oh=bca099e93450243a43e3b9e1856d836e&oe=5EA67DFC",
“文本”: “Gaucha🐎的头像”
},
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/71320503_574809409935193_1862692088555636172_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=101&_nc_ohc=sRSAfRJT6q4AX8j8Arp&oh=424876dcdbbbb191bfb57966a48f8df7&oe=5EA65EF7",
“文本”: “柏林☮️的头像”
},
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/75252641_2469511756436035_2732997290614957157_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=107&_nc_ohc=8SXHPxPVpuQAX-eWZwL&oh=26050310662d1f6e15512dd61715dda0&oe=5EA63130",
“文本”: “⚾️的头像”
},
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/73398050_101756347887937_5197053380786476217_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=101&_nc_ohc=VahfCymvDKcAX-tDviP&oh=3477c066aa1c552cc4e7476fe9951379&oe=5EA6877D",
“文本”: “印度接力的头像”
},
{
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.12442-15/e35/c30.352.768.768a/s150x150/69275532_179485926551741_6507592363859849347_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=Bh4voI0AYSsAX-MaenG&oh=d7e3b1e081ec88b66cb1599177bc6521&oe=5EA66F18",
“文本”: “Biosphere2 🌎的头像”
},
{
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.12442-15/e35/c33.340.768.768a/s150x150/69193245_541142776629778_1447685455316918382_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=110&_nc_ohc=tHA-uBL1TvcAX8i5m9F&oh=f80230be3683aa57e81262c442824574&oe=5EA5EC74",
“文本”: “Bonneville🧂🚘的头像”
}
],
“帖子”: [
{
“关联”: “https://www.instagram.com/p/B_XxvQvlsGe/”,
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/c0.180.1440.1440a/s640x640/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=97e0116f3109fce547a15a11ddab0447&oe=5ECD0478",
“图像数据”: “照片由 apple 于 24 年 2020 月 XNUMX 日拍摄。图片中可能有:一人或多人、天空、云和​​户外”,
“图片”: [
"https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s150x150/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=6e49d368b2c316cc27ed9c6495e13c9c&oe=5ECF6548",
"150w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s240x240/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=1f51010c75b41d12b9944b60a125381b&oe=5ECEEFC2",
"240w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s320x320/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=1da35bddf453501e9aa6f119ea9cc3d6&oe=5ECC7740",
"320w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s480x480/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=c6f96946ec16399ff05aa66a51c5b251&oe=5ECB92F9",
"480w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/c0.180.1440.1440a/s640x640/94347557_2642896465946523_7616332183822673338_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=KxQBdzP0DyYAX_9c81u&oh=97e0116f3109fce547a15a11ddab0447&oe=5ECD0478",
“640瓦”
]
},
{
“关联”: “https://www.instagram.com/p/B9mQWorlh5K/”,
“图片”: "https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/c0.180.1440.1440a/s640x640/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=1b3f702494fa1d0abba71b08d3231ccf&oe=5ECEDFB2",
“图像数据”: “照片由苹果于 11 年 2020 月 XNUMX 日拍摄。图片中可能有:摩天大楼、天空和户外”,
“图片”: [
"https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s150x150/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=eb7bcb99461044d704f7065a6e9f5ae8&oe=5ECF5A02",
"150w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s240x240/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=fa08a359404e0caf766fe658d957d2d6&oe=5ECC7D08",
"240w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s320x320/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=2e648fff1129f47877163b9d462c9ce9&oe=5ECDEF7A",
"320w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/e35/c0.180.1440.1440a/s480x480/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=4cb6dee670cc0064a0812fc5760bab35&oe=5ECE2BBF",
"480w,https://scontent-ams4-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/c0.180.1440.1440a/s640x640/89475596_1075731759466811_2351671729121046109_n.jpg?_nc_ht=scontent-ams4-1.cdninstagram.com&_nc_cat=1&_nc_ohc=2ufLVB-w6AoAX_VsRyx&oh=1b3f702494fa1d0abba71b08d3231ccf&oe=5ECEDFB2",
“640瓦”
]
},
{
“关联”: “https://www.instagram.com/p/B9ex0TSlMCg/”,
“图片”: "https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/c0.342.1236.1236a/s640x640/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=3880da040bc6b01f0e6598babf173f66&oe=5EA62785",
“图像数据”: “受 Apple 委托。摄影师 Petecia Le Fawnhawk @Lefawnhawk 因结合雕塑和编辑技术创造引人注目的超现实主义风景而闻名。观看视频,了解 Petecia 与沙漠的创造性联系,以及她如何利用透视法探索她在沙漠中的地方感。世界。#IWD #ShotoniPhone 11 Pro。”,
“图片”: [
"https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/e35/p150x150/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=9e479bd5dec698a155ef65696b19bf4f&oe=5EA65AC4",
"150w,https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/e35/p240x240/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=25e819e0e6cc83696fb7a2231d543c5f&oe=5EA60F06",
"240w,https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/e35/p320x320/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=6bacf87f04dddb72c4be45fd286a4fdf&oe=5EA5EDFC",
"320w,https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/e35/p480x480/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=7f7822d462f1d8057f55db0f1c4d8413&oe=5EA671FD",
"480w,https://scontent-amt2-1.cdninstagram.com/v/t51.2885-15/sh0.08/e35/p640x640/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-amt2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX8Gb2aj&oh=c44e200acc057978a7e8b7f9d69951cd&oe=5EA676C7",
“640瓦”
]
}
],
“igtv”: [
{
“关联”: “https://www.instagram.com/tv/B9ex0TSlMCg/”,
“图片”: "https://scontent-hel2-1.cdninstagram.com/v/t51.2885-15/e35/p1080x1080/87611430_2959850554038353_1847999869221037422_n.jpg?_nc_ht=scontent-hel2-1.cdninstagram.com&_nc_cat=105&_nc_ohc=LjsOfeejEHIAX_EkiaS&oh=2c50756e50e4fe2bb4f226d8843b0e64&oe=5EA68E44",
“标题”: “转变视角”,
“期间”: “1:44”
},
{
“关联”: “https://www.instagram.com/tv/B84GQDlF_w8/”,
“图片”: "https://scontent-hel2-1.cdninstagram.com/v/t51.2885-15/e35/85025635_192470508692931_652833229817579830_n.jpg?_nc_ht=scontent-hel2-1.cdninstagram.com&_nc_cat=1&_nc_ohc=REfGNQCCkWUAX-VM8Cr&oh=7ccf83c46324e3da814da68a83445345&oe=5EA66F02",
“标题”: 《火之谷》,
“期间”: “1:47”
}
]
}

爬行基地“Instagram标签” 刮刀

在此示例中,我们的目标是从 Instagram 主题标签页面(精确地从 URL)提取数据 https://www.instagram.com/explore/tags/love/。 Crawlbase 的 Crawling API 提供了专门为 Instagram 主题标签页面设计的抓取工具,可以更轻松地从这些页面收集重要信息。 要实现此目的,您应该修改 “刮刀” 所提供的 Python 代码中的参数,将其值设置为 Instagram标签。 下面的示例说明了此更改,使该过程更容易理解:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
 爬行基地 进口 抓取API

# 设置您的 Crawlbase 令牌
抓取基础令牌 = 'YOUR_CRAWLBASE_TOKEN'

# 要抓取的 Instagram 主题标签页面的 URL
instagram_hashtag_url = 'https://www.instagram.com/explore/tags/love/'

# 抓取 API 的选项
选项= {
'刮刀': 'instagram 标签',
}

# 使用您的令牌创建一个 Crawlbase API 实例
api = 爬行API({ '令牌':crawlbase_token})

尝试: # 发送 GET 请求来抓取带选项的 URL
响应= api.get(instagram_hashtag_url,选项=选项)

# 检查响应状态码是否为200(OK)
if 响应.get('状态代码', 0)== 200:
# 解析 JSON 响应并打印它
响应体_json = 响应.get('身体', {})
打印(response_body_json)
其他:
打印(f“请求失败,状态代码: {响应.get('状态代码', 0)}")

特殊课程 as e: # 处理任何异常或错误
打印(f"API请求错误: {STR(e)}")

JSON 响应:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
{
“井号”: “#爱”,
“帖子数”: 1922533116,
“图片”: "https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s150x150/120246611_370598574112098_9059520366968441717_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=106&_nc_ohc=R-6kKmhfuBMAX83OgWd&_nc_tp=15&oh=153a7cc8b65ebe5e6e9e61d983bc56af&oe=5F9D1E75",
《开放的故事》: [
{
“图片”: "https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s150x150/120246611_370598574112098_9059520366968441717_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=106&_nc_ohc=R-6kKmhfuBMAX83OgWd&_nc_tp=15&oh=153a7cc8b65ebe5e6e9e61d983bc56af&oe=5F9D1E75",
“文本”: ""
}
],
“帖子”: [
{
“关联”: “https://www.instagram.com/p/CFr2LTkDGAL”,
“ID”: 2408256697191391000,
“短代码”: “CFr2LTkDGAL”,
“图片”: "https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/p1080x1080/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&_nc_tp=19&oh=90b2d2e4132aeae51b365fc19aed877b&oe=5F9C1051",
“标题”: “认真的。\n内衣@incantoofficial 👙\n-\n-\n-\n#fitness #gym #workout #fit #fitnessmotivation #motivation #bodybuilding #training #health #love #lifestyle #fitfam #instagood #sport #healthylifestyle #健康#crossfit #gymlife #personaltrainer #follow #exercise #instagram #like #muscle #weightloss #life #fitnessmodel #gymmotivation #fashion #bhfyp",
“图像数据”: “ALICEORR Ù 于 28 年 2020 月 1 日分享的照片,标签为 @incantoofficial。图片中可能包含:XNUMX 人、特写。”,
“图片”: [
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c0.156.1440.1440a/s150x150/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&_nc_tp=16&oh=2cc026bc4c80afa790da8963a4e5d29c&oe=5F99BF4B",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c0.156.1440.1440a/s240x240/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&_nc_tp=16&oh=f0190a3d7886bf26d8cf364d08205cfc&oe=5F9CDC4D",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c0.156.1440.1440a/s320x320/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&_nc_tp=16&oh=9aedc25e6054c9a0e70cbb1f1f7b81fe&oe=5F9B8FB3",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c0.156.1440.1440a/s480x480/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&_nc_tp=16&oh=6b20088f6ba92cc64ae94b4d231aa125&oe=5F9BB5F6",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/sh0.08/e35/c0.156.1440.1440a/s640x640/120203930_765572937337282_8075299313306189359_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=kL7cL2KiBN4AX_NYjVH&oh=78dff09d1276b9a5ab713b2fdea342ca&oe=5F9D6B7B"
],
“评论数”: 20,
“点赞数”: 633,
“预览计数”: 633,
“所有者”: {
“ID”: “263510071”
},
“采取于”: "2020-09-28T15:23:11.000+00:00",
“是视频”: false
},
{
“关联”: “https://www.instagram.com/p/CBkWvL5BYhz”,
“ID”: 2334090506491234300,
“短代码”: “CBkWvL5BYhz”,
“图片”: "https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&_nc_tp=18&oh=81fb128b21e96e4ef4214e1afe60c395&oe=5F9BC995",
“标题”: “𝐉𝐮𝐬𝐭𝐚𝐭𝐢𝐫𝐞𝐝𝐬𝐨𝐮𝐥𝐰𝐢𝐭𝐡𝐬𝐨𝐦𝐞𝐚𝐜𝐭𝐢𝐯𝐞 𝐭𝐡𝐢𝐧𝐤𝐢𝐧𝐠!🐾🔥\n.\n.\n#captionplus #travel #nature #outdoors #photography #photooftheday #winter #landscape #trekking #mountains #camping #love #forest #naturelovers #beautiful #日落#sun #adventure #naturephotography #sky #explore # #outdoor #hiking #snow #mountain #wanderlust #sea",
“图像数据”: “照片由 𝐏𝐎𝐎𝐇𝐑𝐀𝐕𝐕 𝐍𝐄𝐆𝐈 🦄 在 BRUH 拍摄。图片中可能有:1 人、特写。”,
“图片”: [
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s150x150/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&_nc_tp=15&oh=8bedd624b0de89f73545d637d0d1a1c1&oe=5F9D27D7",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s240x240/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&_nc_tp=15&oh=b794838e9b4fe5ea80a4064c16bd68ad&oe=5F99C21D",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s320x320/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&_nc_tp=15&oh=dd30cd55554d1ccd748fcdce7798aaec&oe=5F9AC027",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/s480x480/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&_nc_tp=15&oh=b1a857e926e5954c3499ea11ff05e4fc&oe=5F9CE07D",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/sh0.08/e35/s640x640/104132652_564752484400882_961350199636081290_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=110&_nc_ohc=WHvCFqed1wgAX-Mzb7F&oh=664518fb766b403dc6730286ab4d9045&oe=5F9CE5F2"
],
“评论数”: 22,
“点赞数”: 301,
“预览计数”: 301,
“所有者”: {
“ID”: “8305592364”
},
“采取于”: "2020-06-18T07:28:12.000+00:00",
“是视频”: false
},
{
“关联”: “https://www.instagram.com/p/Bi-gtzJlA6N”,
“ID”: 1783006387271634700,
“短代码”: “BigtzJlA6N”,
“图片”: "https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&_nc_tp=18&oh=bf38e0776301d7ce67a38d3d34629b6b&oe=5F99F9D4",
“标题”: “地球是我们的地盘。\n最佳瑜伽道具💯\nDhurvaYoga.com”,
“图像数据”: “由 Dhurva Yoga® 在圣地亚哥硬石酒店与 @hardrocksd、@fitathletic、@partynakedsd、@pointlomasportsclub、@supersofie86、@floatpoolclub 和 @sunburnpool 拍摄的照片。图片中可能包含:2 人。”,
“图片”: [
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c215.0.650.650a/s150x150/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&_nc_tp=16&oh=8c13d5e2d2fa44b74c2a86a7b00f3c49&oe=5F9A0FC8",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c215.0.650.650a/s240x240/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&_nc_tp=16&oh=85007b413309462dfbf2072c7c489ed4&oe=5F9AB3C2",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c215.0.650.650a/s320x320/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&_nc_tp=16&oh=34cf919addc6189a51a6d0540d1675fc&oe=5F9A6640",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/e35/c215.0.650.650a/s480x480/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&_nc_tp=16&oh=d44bac8fc2936b387c2fce9639345c8d&oe=5F9C7379",
"https://instagram.fccu1-1.fna.fbcdn.net/v/t51.2885-15/sh0.08/e35/c215.0.650.650a/s640x640/31890427_1239149812887528_4372281762504507392_n.jpg?_nc_ht=instagram.fccu1-1.fna.fbcdn.net&_nc_cat=100&_nc_ohc=aySdF8l2m1EAX-8cHl_&oh=de802bc56258d23ba321200bdd1a91fa&oe=5F9AFB01"
],
“评论数”: 8,
“点赞数”: 178,
“预览计数”: 178,
“所有者”: {
“ID”: “21731675”
},
“采取于”: "2018-05-19T23:02:26.000+00:00",
“是视频”: false
}
]
}

处理防刮措施

在网络抓取领域,Instagram 等平台已经实施了反抓取措施来保护用户数据并维护其服务的完整性。 Instagram 庞大的用户群和拥有的丰富数据使其成为网络爬虫的有吸引力的目标。 然而,由于这些保护机制,从 Instagram 抓取数据会带来挑战。

Instagram 的反抓取机制

  1. 速率限制: Instagram 采用速率限制来限制用户在特定时间范围内可以发出的请求。 如果您超出这些限制,Instagram 可能会暂时阻止您的访问或永久禁止您的帐户或 IP 地址。
  2. 验证码挑战: 为了验证用户是否是人类而不是机器人,Instagram 有时会在浏览或交互过程中提出验证码挑战。 频繁遇到验证码可能会扰乱抓取过程。
  3. 动态页面结构: Instagram 定期更改其 HTML 结构和类名称。 这种动态性质使得抓取工具难以一致地定位和提取数据。
  4. 会话Cookie: Instagram 使用会话 cookie 来跟踪用户活动。 会话 cookie 的更改可能会触发安全警报,从而导致对自动活动的怀疑。
  5. 用户代理检查: Instagram 可能会检查抓取工具在 HTTP 标头中发送的用户代理字符串。 异常或可疑的用户代理字符串可能会导致检测。

避免被发现的策略

为了成功应对 Instagram 的反抓取措施,网络抓取工具必须采用有助于融入合法用户行为的策略:

  1. 使用代理: 轮换 IP 地址并利用代理服务器以避免被单个 IP 识别。 代理 将请求分布到多个地址,从而降低速率限制或 IP 禁止的可能性。
  2. 随机化用户代理: 改变 HTTP 标头中的用户代理字符串以模仿不同的浏览器和设备。 这使得 Instagram 不太可能根据用户代理检查来标记您的抓取工具。
  3. 限制请求频率: 在请求之间实现随机延迟,以模拟人类用户的自然浏览行为。 确保快速连续地提出足够的请求。
  4. 会话管理: 正确管理会话cookie,以避免频繁登录并保持一致的用户会话。 这可以确保您不会因为自动化机器人而脱颖而出。
  5. 用户行为模拟: 通过滚动页面、单击帖子以及像人类用户一样与网站交互来复制典型的用户行为。
  6. 避开高峰时段: 在非高峰时段进行抓取可以减少遇到速率限制或验证码的机会,因为 Instagram 的服务器不太拥挤。
  7. 尊重机器人.txt: 检查 Instagram 的 robots.txt 文件,其中概述了抓取指南。 遵守这些准则可以避免抓取问题并确保符合道德的抓取实践。
  8. 使用无头浏览器: 像 Selenium 这样的无头浏览器可以渲染 JavaScript 并提供更真实的浏览体验,从而降低检测的可能性。
  9. 会话持续性: 实施会话持久性技术来跨请求维护 cookie 和用户状态。
  10. 错误处理: 开发强大的错误处理机制,以优雅地管理验证码或临时禁令等问题,而不会中断您的抓取过程。
  11. 监控和警报: 设置监控系统来检测页面结构的变化或异常行为。 及时的警报可以帮助您根据需要调整抓取策略。

虽然这些策略可以提高您避免被发现的机会,但必须强调的是,抓取 Instagram 数据应始终以合乎道德的方式进行,并遵守 Instagram 的服务条款和法律法规。 负责任的抓取行为有助于建立积极的在线形象并降低法律风险。

结论

总之,利用 Instagram 数据 网络抓取 对于数字时代的企业、研究人员和营销人员来说已经变得至关重要。 Instagram 庞大的用户群提供了丰富的见解宝库。 Python 提供了强大的数据提取功能,但明智地使用 Instagram 的反抓取措施至关重要。 Instagram 采用速率限制、验证码挑战和动态页面更改来阻止抓取者。 为了避免被发现,采用代理、随机化用户代理和模拟人类行为等策略至关重要。 道德和负责任的抓取行为势在必行。 借助正确的工具和策略,Instagram 数据抓取可以帮助用户获得有价值的见解并做出明智的决策。

常见问题解答

什么是 Instagram 抓取工具?

Instagram 抓取工具是一种软件工具或程序,旨在从 Instagram 平台提取数据。 它自动从 Instagram 个人资料、帖子、评论和其他公共内容收集信息。 Instagram 抓取工具 使用网络抓取技术来访问和检索数据,包括图像、文本、用户配置文件、主题标签和参与度指标。

如果您避免违反版权和数据保护法,则抓取 Instagram 是合法的。 这意味着您应该避免窃取知识产权或私人信息。 只允许抓取可公开访问的数据,例如图像、评论以及点赞数和关注者数等指标。 然而,在抓取过程中避免收集个人信息(例如联系方式)至关重要。

Instagram 抓取行为引发了有关用户同意、数据使用和遵守 Instagram 服务条款的道德问题。 尊重用户的隐私、收集个人数据时获得同意以及采用负责任的抓取做法至关重要。

从法律上讲,抓取可能会侵犯版权、违反数据保护法并违反 Instagram 的条款,并可能导致法律诉讼或帐户被暂停。 为了解决这些问题,从业者必须优先考虑透明度、负责任的数据使用以及遵守相关法律法规,同时承认其行为的道德影响。

可以从 Instagram 中抓取哪些类型的数据?

可以从 Instagram 抓取各种数据,包括:

  1. 用户资料: 有关用户的信息,例如用户名、个人简介、关注者数量和帖子。
  2. 文章: 用户帖子中的文本、图像和视频,包括标题、主题标签和参与度指标(点赞、评论、分享)。
  3. 管理员评论: 对帖子的评论,包括评论者的用户名、文本和时间戳。
  4. 喜欢的和不喜欢的: 有关帖子和视频的喜欢和不喜欢数量(如果公开)的数据。
  5. 关注者和关注者: 关注特定帐户的用户以及该帐户所关注的用户的列表。
  6. #标签: 与帖子中使用的主题标签相关的信息,包括它们的使用次数。
  7. 位置数据: 与帖子相关的地理信息,例如拍摄照片的位置。
  8. 用户故事: 在故事功能中共享的内容,包括图像和视频。
  9. 个人资料分析: 参与度数据,例如点赞数、评论数和关注者随时间的增长趋势。
  10. 公开联系信息: 用户选择公开的联系方式详细信息,例如电子邮件地址或网站链接。

值得注意的是,虽然其中一些数据是可公开访问的,但抓取操作应始终遵守 Instagram 的服务条款和法律规定,尊重用户隐私和道德考虑。

抓取的 Instagram 数据有哪些实际用例?

抓取的 Instagram 数据可应用于广泛的实际用例,为各种目的提供有价值的见解和信息。 抓取 Instagram 数据的一些实际用例包括:

  1. 社交媒体市场营销: 分析用户参与度、流行标签和内容趋势,以优化社交媒体营销策略。
  2. 有影响力的营销: 识别潜在的影响者,跟踪他们的参与率,并评估他们的合作适合性。
  3. 竞争对手分析: 监控竞争对手的社交媒体活动、内容表现和关注者增长以获得竞争优势。
  4. 市场调查: 收集与特定产品或服务相关的客户偏好、意见和趋势的数据。
  5. 趋势分析: 识别特定领域或行业内的新兴趋势、病毒式内容和热门话题。