你能想象 18 世纪技术革命之前的生活是怎样的吗? 你有没有想过如果没有 19 世纪托马斯·爱迪生发明的电灯泡,没有卡尔·本茨的汽车发明,甚至没有约翰·阿塔纳索夫发明第一台电子数字计算机,我们的生活会怎样?
这些只是过去 1000 年来我们的生活发生了怎样变化的例子。 我们发明了数字和字母,创造了让距离变得如此短的飞机,帮助我们拯救生命的医疗设备,并在这样做的同时将整个世界数字化。
这都归功于人脑。 它的能力、能力和无穷无尽的创造力。 我们拥有理性思考、相应行动、明智监控和广泛发展的智力。 直到今天,我们已经证明我们的智力是无与伦比和不可替代的,或者是吗?
事实上,由于我们的智力,我们能够将“思维”从仅仅被人类和动物所限制,转变为在机器和系统中受到阻碍,我们称之为“人工智能”(AI)。 当我们教这些机器从错误中“学习”并纠正错误时,我们甚至更进一步,而无需对系统进行编程来告诉他们该做什么。 这就是我们所说的“机器学习”(ML)。
因此,在这篇博文中,我们将探讨人工智能和机器学习的含义、它们为何如此重要以及您可以在哪里找到可以帮助您开始使用 AI 和 ML 之旅的数据。
什么是人工智能
在定义 AI 和 ML 时,存在一种误解,认为它们具有相同的含义。 事实上,机器学习被认为是人工智能的一个子集。
简单来说,人工智能是计算机科学的一个分支,它与开发类似人类的机器有关,这些机器可以执行通常需要人类完成的任务。 这些任务的范围从使用人工智能提供对话以安慰孤独的人(聊天机器人)到开发确保高度安全的自动驾驶汽车。 不确定性仍然是人工智能面临的主要挑战之一。 不确定性区分具有弱人工智能的机器,这些机器不是为了自己思考,而是为了响应特定情况而创建的,而具有强人工智能的机器能够像人类一样思考和行动。
强大的人工智能知道如何思考,即使情况是前所未有的并且伴随着高度的不确定性。 实现这不是一件容易的事情,不确定性管理能力需要考虑的第一件事是将关于新情况的证据与获得的关于类似情况的知识结合起来,以便做出解释并预测某些活动的影响。

什么是机器学习?
另一方面,机器学习是人工智能的一种应用,它为系统提供了自动学习和改进经验的能力,而无需明确编程。
ML 使用统计编程技术(也称为算法)来接收数据、分析数据并估计结果。 这些算法用于构建智能计算机系统,该系统可以从存储的数据和新数据中学习,以改进操作、提高性能并确保“智能”响应。 ML 算法通常被分类为有监督的或无监督的。
有监督的 ML 算法可以应用通过分析存储的训练数据集所学到的知识,使用标记示例对新数据做出反应,并得出足够的结果。 他们可以将他们的估计结果与正确的结果进行比较,以修改发现的任何错误。
然而,无监督机器学习模型提供了算法试图理解的未标记数据,他们研究系统如何收集能力以从未标记数据中描绘隐藏结构。 在这种情况下,系统不会提供输出,但它可以研究新数据并得出关于如何显示数据隐藏结构的推论。
人工智能和机器学习的重要性
人工智能和机器学习不仅是过去的参与或现在的工作,而且也是对未来的承诺。 SAS 执行副总裁兼首席技术官 Oliver Schabenberger 表示:“人工智能正在帮助将‘更智能的机器嵌入到机器中’,但它并没有接管世界”。
话虽如此,并不是每个人都同意人工智能的好处。 有些人认为,我们越是训练我们的机器“智能”,我们就越是在教它们如何成为这个星球上的主要智能形式。 此外,不可否认的是,我们对社会进行的变革越多,人们失去工作和被取代的风险就越大。 在本篇博客中,我将重点关注 AI(包括 ML)的重要性,以下是一些 AI 和 ML 为何如此重要的示例:
它们减少了人员伤亡: 无论我们是使用人工智能来编程和创建一个在战争中作战还是在危险的工作场所工作的机器人,AI 和 ML 都可以减少人类的伤亡。 以特斯拉为例,他们结合人工智能不仅是为了“增强”他们的汽车,而且还为汽车驾驶创造了新的未来。 特斯拉的自动驾驶仪采用无人监督算法设计,据说比人类驾驶安全 9 倍。 这是因为无监督算法使用数十亿数据进行自我训练,并针对汽车可能所处的前所未有的情况得出结果。这只是人工智能如何减少人员伤亡的一个例子; 减少灾害影响是其运作方式的另一个例子。 所以基本上,人工智能和机器学习通过整合和学习大数据来开发成果,从而减少了人类的危险。
它们实现了高精度: 人工智能通过神经系统实现了不可思议的准确性——这在以前是不可理解的。 例如,您与 Alexa、谷歌搜索和谷歌照片的联系完全建立在深度学习之上——我们使用它们的次数越多,它们就会越来越精确。 在医学领域,来自深度学习和对象识别的人工智能程序现在将被用于发现 MRI 上的恶性生长,其精度与训练有素的放射科医生相似。
他们依赖大数据: AI的核心是分析数据。 是的,这是人类大脑力量的证明,是的,机器可以达到可以进行手术和挽救生命的程度,但如果不使用数据,这将留在想象中。 您需要数百万数据来训练学习模型,因为这就是他们直接学习的方式。 因此,您收集和提供给他们的数据越多,它们就会变得越准确,结果的错误就越少。

在哪里可以找到数据
信不信由你,这并不像看起来那么难回答。 如今,有一些公司专门为用户提供来自数百万个网站的数据。 这些数据可以根据个人需求进行定制和提取,以最适合他们的用例; 无论是用于基础测量还是增强他们的人工智能和机器学习。 数据提供公司的一个很好的例子是 Crawlbase(以前的 ProxyCrawl). 如果您想查看,请点击 此处.
Crawlbase(以前的 ProxyCrawl) 为客户提供从数百万个网站中提取的 html 文档。 它有多种使用人工智能和机器学习的产品。 例如,Crawler 是在 Crawlbase(以前的 ProxyCrawl) 结合了人工智能和机器学习。
假设您想从特定网站获取大数据,并且您向爬虫发送请求以获取数据,每当爬虫遇到问题或无法获取数据时,它会自动重试 100 次,直到它成功地获得了所需的数据量。 每次失败时,爬虫“学到”的错误都会自动修复,并再次尝试取回请求。
这只是您如何获取数据以帮助您成为强大的人工智能和机器学习技术的下一个先驱的一个小例子。