如何给没有计算机基础的人解释“机器学习”和“数据挖掘”?


推荐  (0) | 8人关注关注
5个答案
2 0

我觉得这样的应用科学领域的概念比纯理论领域的概念要容易解释得多,至少这些概念不是反直觉的,向普通人解释非欧几何的概念或者量子力学的概念比这个困难多了。

具体看你要解释到什么深度啦,如果不涉及原理、算法、严格定义的话,这两个概念应该不难解释。一般的外行人也不需要知道得那么深入。

虽然我几乎完全不了解这两个概念的内涵原理,但是我想如果用类似于以下这样的话来解释,不求甚解的外行人应该可以感到满意了:

机器学习,是人工智能系统的一种重要特征,让计算机模拟人类的学习过程,使机器(计算机)具有对已有信息进行整理、归纳、识别并自主获得新知识、新技能的能力。这一课题目前还处于比较有限的初级阶段,但是是计算机科学未来发展的重要领域。

数据挖掘,就是利用计算机的强大计算能力,通过分析海量的原始数据,从中揭示出隐含的、先前未知的并有潜在价值的信息和规律的技术。然后你可以举几个实际利用数据挖掘的例子,如阿里巴巴如何从大量的淘宝交易数据中找出有需求有能力的高质量小额贷款客户。

特别说明:以上解释并不严谨,也不一定正确,只是示范如何用普通人能懂的语言简略阐述高深科学概念。欢迎讨论。

1 0
支持者: 风荷晚香

这是一个很好的例子。
假设有一天你准备去买点芒果。有个小贩摆放了一车。你可以一个一个挑,然后小贩根据你挑的芒果的斤两来算钱(在印度的典型情况)。显然,你想挑最甜最熟的芒果对吧(因为小贩是按芒果的重量来算钱,而不是按芒果的品质来算钱的)。可是你准备怎么挑呢?
你记得奶奶和你说过, 嫩黄的芒果比暗黄的甜。 所以你有了一个简单的判断标准:只挑嫩黄的芒果。你检查各个芒果的颜色, 挑了些嫩黄的,买单,走人,爽不?
可没那么简单。
生活是很复杂的
你回到家,开始慢慢品尝你的芒果。你发现有一些芒果没有想的那么甜。你焦虑了。显然,奶奶的智慧不够啊。挑芒果可不是看看颜色那么简答的。

你开始数据分析的工作。
经过深思熟虑(并且尝了各种不同类型的芒果), 你发现那些大个儿的,嫩黄的芒果绝对是甜的,而小个儿,嫩黄的芒果,只有一半的时候是甜的(比如你买了100个嫩黄的芒果,50个比较大,50个比较小, 那么你会发现50个大个儿的芒果是甜的,而50个小个儿的芒果,平均只有25个是甜的)。
你对自己的发现非常开心,下次去买芒果的时候你就将这些规则牢牢的记在心里。但是下次再来到市集的时候,你发现你最喜欢的那家芒果摊搬出了镇子。于 是你决定从其它卖芒果的小贩那里购买芒果,但是这位小贩的芒果和之前那位产地不同。现在,你突然发现你之前学到的挑芒果办法(大个儿的嫩黄的芒果最甜)又 行不通了。你得从头再学过。你在那位小贩那里,品尝了各类芒果,你发现在这里,小个儿、暗黄的芒果其实才是最甜的。
没多久,你在其它城市的远房表妹来看你。你准备好好请她吃顿芒果。但是她说芒果甜不甜无所谓,她要的芒果一定要是最多汁的。于是,你又用你的方法品尝了各种芒果,发现比较软的芒果比较多汁。
之后,你搬去了其它国家。在那里,芒果吃起来和你家乡的味道完全不一样。你发现绿芒果其实比黄芒果好吃。
再接着,你娶了一位讨厌芒果的太太。她喜欢吃苹果。你得天天去买苹果。于是,你之前积累的那些挑芒果的经验一下子变的一文不值。你得用同样的方法,去学习苹果的各项物理属性和它的味道间的关系。你确实这样做了,因为你爱她。
有请计算机程序出场
现在想象一下,最近你正在写一个计算机程序帮你挑选芒果(或者苹果)。你会写下如下的规则:
if(颜色是嫩黄 and 尺寸是大的 and 购自最喜欢的小贩): 芒果是甜的
if(软的): 芒果是多汁的
等等等等。
你会用这些规则来挑选芒果。你甚至会让你的小弟去按照这个规则列表去买芒果,而且确定他一定会买到你满意的芒果。
但是一旦在你的芒果实验中有了新的发现, 你就不得不手动修改这份规则列表。你得搞清楚影响芒果质量的所有因素的错综复杂的细节。
如果问题越来越复杂, 则你要针对所有的芒果类型,手动地制定挑选规就变得非常困难。你的研究将让你拿到芒果科学的博士学位(如果有这样的学位的话)。
可谁有那么多时间去做这事儿呢。
有请机器学习算法
机器学习算法是由普通的算法演化而来。通过自动地从提供的数据中学习,它会让你的程序变得更“聪明”。
你从市场上的芒果里随机的抽取一定的样品(训练数据), 制作一张表格, 上面记着每个芒果的物理属性, 比如颜色, 大小, 形状, 产地, 卖家, 等等。(这些称之为特征)。
还记录下这个芒果甜不甜, 是否多汁,是否成熟(输出变量)。你将这些数据提供给一个机器学习算法(分类算法/回归算法),然后它就会学习出一个关于芒果的物理属性和它的质量之间关系的模型。
下次你再去市集, 只要测测那些芒果的特性(测试数据),然后将它输入一个机器学习算法。算法将根据之前计算出的模型来预测芒果是甜的,熟的, 并且/还是多汁的。
该算法内部使用的规则其实就是类似你之前手写在纸上的那些规则(例如, 决策树),或者更多涉及到的东西,但是基本上你就不需要担心这个了。
瞧,你现在可以满怀自信的去买芒果了,根本不用考虑那些挑选芒果的细节。更重要的是,你可以让你的算法随着时间越变越好(增强学习),当它读进更多 的训练数据, 它就会更加准确,并且在做了错误的预测之后自我修正。但是最棒的地方在于,你可以用同样的算法去训练不同的模型, 比如预测苹果质量的模型, 桔子的,香蕉的,葡萄的,樱桃的,西瓜的,让所有你心爱的人开心:)

0 0

当你深入理解了这些概念以后你就能用通俗的方法做简单的解释了,如果你自己还没有完全弄懂,那是讲不明白的。

0 0

yangjiera数学控,不怎么会计算机的计算机硕士

2013-01-05 20:42

ML Mitchell有句话,可以去cmu机器学习系找那篇文章。DM可以看周志华老师的一篇中文介绍文章,可以去周老师主页找。都是介绍性的。

0 0

给你举个例子吧,你钱包有一叠钱,5毛1块5块10块20块100块都有几张。

数据挖掘是计算机根据钱币的颜色和尺寸把他们都区分开,5毛一堆,1块一堆,5块一堆。。。至此数据挖掘任务就完成了。
机器学习是有个计算机学习了认钱的本领后生成了一个识别模型,以后你告诉它钱币的颜色和尺寸,那个模型能告诉你那张钱币是5块的还是100块的。

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字第朝200003号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区