输入任意 Daum URL。输出 HTML 或 JSON。
Crawling API,实时输入。获取渲染后的 HTML,或切换到通用提取器以获取 JSON。悬停即可暂停并阅读。
一个 API,应对 Daum 抛给你的一切。
Daum 是一个由 JavaScript 渲染的韩国门户,其新闻和搜索信息流动态加载,并按地理位置限定于韩国。Crawling API 在真实浏览器中渲染它,通过韩国本地住宅 IP 访问它,并交付给你干净的 HTML 或 JSON。
完整的 JavaScript 渲染
真实浏览器执行页面,因此动态加载的新闻标题、搜索结果和门户信息流都会被捕获,而不仅仅是初始 HTML。
韩国本地住宅 IP
Daum 按地理位置限定于韩国,因此每个请求都会轮换一个韩国本地住宅 IP,让你像真实本地访客一样访问该门户。
拦截由我们处理
CAPTCHA、机器人墙和速率限制都会被自动清除。无需解决任何问题,也无需维护。
HTML 或 JSON
获取完整渲染的 HTML,或添加 scraper=generic-extractor以将标题、内容、图片和链接作为结构化 JSON 返回。
截图和异步
同一次调用即可捕获整页截图,或通过 webhook 和云存储异步运行。
渲染后的 HTML,或干净的 JSON。
默认情况下你会获得渲染后的 HTML。添加 generic-extractor,同一页面便会以带类型的 JSON 返回。
页面
title · string canonical · string favicon · string
元数据
meta.description · string meta.keywords · string
内容
content · string
媒体
images · array og_images · array
链接
links · array
一次调用,从 URL 到数据。
每个 Daum 请求都经过同一条路径。你发送一个 URL,其间的一切由我们运营。
发送 URL
带上你的 token 传入任意公开的 Daum URL:主页、新闻文章、搜索结果页或咖啡社区。
轮换代理
一个韩国本地住宅 IP,可干净地访问 Daum,取自遍布 30 个地区的 1.4 亿个 IP。
渲染页面
真实浏览器加载页面,让新闻标题、搜索结果和门户信息流在捕获前完成渲染。
清除反机器人
Daum 的地理限制、机器人检查和速率限制都会被自动处理。无需解决任何问题,也无需维护。
返回 HTML 或 JSON
完整渲染的 HTML 会返回,或在你添加通用提取器时返回带类型的 JSON。
各团队基于 Daum 数据构建什么。
韩国市场研究
追踪门户、新闻和咖啡社区中的热门趋势,实时把握韩国市场。
新闻监测
关注 Daum 新闻标题和搜索页面,在事件发生时追踪报道、覆盖面和舆情。
本地化和质量保证
以韩国本地访客的身份渲染 Daum,验证本地化页面、区域内容和地理限定行为。
门户和 SERP 数据
收集 Daum 搜索结果、板块和链接,以对标韩国市场的可见度和排名。
金融和体育信息流
抓取金融和体育页面,获取全天更新的价格、赛程和数据。
任意 URL,一个 API
抓取主页、新闻、搜索、咖啡社区和金融,以及你需要的任何其他网站。
抓取 Daum 时需要了解的要点。
像真实浏览器一样渲染
Daum 是一个由 JavaScript 渲染的门户;Crawling API 运行真实浏览器,让新闻标题、搜索结果和门户信息流在捕获前完成加载。
韩国地理定向
Daum 按地理位置限定于韩国。Crawlbase 轮换韩国本地住宅 IP,让门户干净地加载,无需你购买或管理代理。
默认 HTML,按需 JSON
你会获得完整渲染的 HTML。添加 scraper=generic-extractor 以获取解析后的标题、内容、图片和链接,或自行解析 HTML。
仅限公开页面
Crawling API 读取公开可见的页面,无需登录,因此你获取的是韩国未登录访客所看到的内容。
为大规模抓取 Daum 而打造。
Crawling API 运行在服务于 46,000+ 付费客户和 70,000+ 开发者的同一网络上。无需购买代理,无需运行浏览器,Daum 变更时也无需打补丁。
一个 token,面向 Python、Node 和 Ruby 的官方 SDK,以及底层 99.99% 正常运行时间的网络。