《大数据时代》疑问:如果说能收集到总体,就不需要样本了啊。那么也就只需要描述统计就行了,不需要推断统计了啊,这样的话,推断统计的价值又在哪了?会不会因此不会再发展了

最近看了《大数据时代》产生了一个疑问,如果说能收集到总体,就不需要样本了啊。那么也就只需要描述统计就行了,不需要推断统计了啊,这样的话,推断统计的价值又在哪了?会不会因此不会再发展了?求高人指教!

推荐  (0) | 5人关注关注
3个答案
1 0
支持者: Obliviou_s

问题就是大多数情况下总体是不容易知道。既然总体不容易知道,我们只能得到总体的一个样本,再通过统计的方法推断总体。统计推断就是通过样本来推知总体的特征。有样本特征得到总体特征,这才是统计的意义所在。

0 0

yejbjb基础心理系准硕士

2015-02-22 17:26

并不是所有领域里的总体数据都是那么容易收集的,尤其是大部分科学领域,所以,你不用担心呃

0 0

sophiadw心理学,人机交互,社交网络

2016-01-23 21:02

首先需要定义总体,就拿大数据来说话吧,比方说某社交网络公司有该公司所有用户的数据,这个数据是不是总体?相对于全世界人口来说这还是个样本,而且是个有取样偏差的样本,因为你取的这个样本是至少会认字会上网的一部分样本,相对来说总体里那些低收入,不识字,住在偏远地区没有网络基础设施的人群就没包括在里面。这时候做的统计还是个机遇样本的推论,而且在推广到总体的时候还需要各种小心。

其次,退一步讲,就算你把某社交网络公司的所有用户就当作一个整体,你有没有可能直接分析所有用户在该社交网络存在的所有时间内的数据?如果你不是公司内部人员,绝对不可能,虽然有些公司开放API允许你抓一部分数据,但API都有限制,能抓下来的只是很少一部分,所以你做的还是基于样本的分析。那么哪怕你是公司内部人员,多数情况下也还是不可能直接分析整体,因为那样的数据是海量海量的,公司处于保护用户隐私的考虑和出于节省计算资源的考虑都不太可能一次拿出所有历史数据来分析。我看到的很多研究都是取比方某地区的所有用户,或者取所有用户一个月内的使用数据来做分析,那么这个说起来也还是样本,用某地区来推断所有用户,用某一时间段来推断所有时间,等等。而这样的一个样本的数据量和计算量就已经非常惊人了。

还有很重要的一点,虽然数字痕迹可以记录和用户有关的很多信息,但是很多很多需要研究的变量是无法通过数字痕迹来测得的,或者数字痕迹也许跟这个变量有关系,但是还是有很大差别。比方你想知道某城市未婚男性或者女性过去一年内的相亲次数和年龄之间的相关关系。。。就算年龄你能通过什么渠道拿到数据,相亲次数这种数据,你就只能抽样调查了,既然是抽样调查,就不可能是总体,就算你有那个时间精力一个个问过去,还有不愿意搭理你的呢。

总而言之,两点:1,大数据虽然量大,但很多时候仍然不是总体,2,仍然有很多变量需要用传统的取样的方法来具体调查,也许现有的技术能让你取样的数量比以前传统的纸笔的方法大很多,但是你测到的仍然不是总体。


查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区