什么是「大数据」?

经常看到有人说大数据,也看到果壳有人在问相关问题,但是到底什么是大数据?

推荐  (0) | 40人关注关注
19个答案
90 19

馒头家的花卷技术图书译者,音乐人

2013-04-18 13:29

今年初我翻译了一本由野村综合研究所的城田真琴写的《大数据的冲击》:http://www.ituring.com.cn/book/1128
这本书的中文版现在已经上市了,摘其中的一小段出来:

所谓大数据,狭义上可以定义为难以用现有的一般技术管理的大量数据的集合。大数据难以管理的原因,可以用3V来描述即Volume(容量)、Variety(多样性)、Velocity(产生频率、更新频率)。从广义上来说,大数据可以定义为包括因具备3V特征而难以进行管理的数据,对这些数据进行存储、处理、分析的技术,以及能够通过分析这些数据获得实用意义和观点的人才和组织的综合性概念。

对大量数据进行分析,并从中获得有用观点这种做法在一部分研究机构和大企业中,过去就已经存在了。现在的大数据和过去相比,主要有三点区别。第一,随着社交媒体和传感器网络等的发展,在我们身边正产生出大量且多样的数据。第二,随着硬件和软件技术的发展,数据的存储、处理成本大幅下降。第三,随着云计算的兴起,大数据的存储、处理环境已经没有必要自行搭建。
19 2

先要分清楚结构性数據和非结构类数據, 大数據是后者。必要指明, 不是就黑白不分。

25 8

大数据是有来由的,中国搞信息化几十年了,很多企业公司政府都积累了海量的数据,但是数据僵尸对业务的发展是没有任何意义的,通过对海量的数据分析、挖掘,可以产生极大的利益和带来产业升级发展,甚至可以优化我们在产业链的地位,但是如何做得好,现在中国还很基础,不过大数据比3D打印更实际

20 4

小0e数学,软件

2013-07-16 13:01

海量数据,比如全世界的人用搜索引擎搜索过的词,统计出来就是大数据。

18 3

我的理解是,这个词语和云计算一样,原本是没多少必要创造出来的词语,但出于装B和忽悠人的需要,被装B犯们广泛使用着。
比如说云计算,其实就是将原先本地处理的数据交由网络上的远程计算机处理。这么简单的概念含义,可你看完intel或IBM市场部做出的不知所云的广告后还能明白是啥意思吗?
再说所谓的大数据,自从IT行业出现以来,数据处理量和数据处理复杂度就一直在上升,目前并没有什么理由需要特意弄一个新名词出来。如果要说数据分析,那就说好好说数据分析。如果要说数据相关性,那就好好说数据相关性。随便什么情况就弄一个新概念,这让当年的数据库开发者情何以堪?
MapReduce和Hadoop出现前,企业对数据进行大规模并行处理也不是件容易事,可那时候也没谁提大数据呀。现如今动不动就弄出几个新概念,可见IT行业也喜欢装B,不过喜欢装那种把简单弄成复杂同时没有多少美感的B。就像十年前微软吹.Net这个概念时那样,概念是吹得漫天都是,似乎微软旗下的产品和内容都和.Net联系上了,IT行业人士不用这个词汇就落伍和不专业了,可搞笑的是,当年用这个词汇装B的人没几个知道它到底是什么(其实.Net是一个类似Jave的中间代码技术),如同皇帝的新装。

BTW:看着存储在线、存储时代等网站一天到晚扯大数据都想吐了有没有?!

15 4

看过很多对大数据的定义,个人最认同的定义是亚马逊网络服务(AWS)、大数据科学家JohnRauser提到一个简单的定义:大数据就是任何超过了一台计算机处理能力的庞大数据量。 通常是10TB以上。

15 8

星云半仙心理学菜鸟,数学控

2013-06-04 10:24

一般是要看学科领域的。比如神经科学里,10个被试已经算很大了;心理学里面,老师一直说是30个算大样本。
后来说到功效的时候,怎么样算大样本要根据犯第二类错误的概率来估算,
效应比较小的话30个就少,可能100个都少,效应 大的话一般只要取30就可以了。

11 5

按我的理解,大数据是对数据的一种新的处理思路。比如,原来我们想得到这样的结论:“IT类从业者对电子产品比较感兴趣”。但是“职业”这种信息过于隐私,不好让用户透露。所以“大数据”的思路是要得到这样的结论:“经常玩轻博客的人对摄影类产品比较感兴趣”(这个结论肯定是不准确的,只是想说明这个意思)。

9 3

对于程序猿们来说,大数据神马的就是各种 group by 啦!

12 10

利用尽量接近总体的数据或总体数据(跟抽样相对)找出事物之间的相关性,大数据找出来的是相关性(大数据注重的不是因果关系),是概率。可以利用找出的相关性来预测事情的发展趋势,这也是大数据的核心。我的理解来自《大数据时代》一书。

4 5

出版圈郭志敏图灵教育图书营销经理

2013-04-19 10:59

图灵的大数据耶!这个问题提的好。看过的朋友们,不要错过图灵即将上市的《大数据的冲击》哦。
目前给大家贴一下

4 7

其实说白了, 以前数据量太大,分析起来太费时间,时效性差。现在借助分布式计算机很在很短的时间里面分析出大量数据里面的有效部分(基本上都是出于营销目的)。

6 10


大数据Big data ,就是巨量的数据,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

至于为啥非要整个新名词出来……是由于技术的限制,处理少量的数据的方法并不适用于处理巨量信息,需要其他特别手段来完成,于是“数据”和“巨量数据”就开始区分了。这样也引发了技术革新。

3 9

推荐《big data-- a revolution that will transforn how we live,work,and think》viktor mayer-schônberger, kenneth cukier 也有翻译版本《大数据时代--生活、工作与思维的大变革》http://bookapp.book.qq.com/origin/book/?workid=2527069这里是腾讯图书《大数据时代》的电子版本。

5 5

ThoughtWorks的大忽悠们从09年后最喜欢讲的俩关键词:大数据&云计算
屡试不爽。
这俩词一出,项目仿佛立马就跟国际接轨了。

查看更多

添加回答

登录 后回答问题,你也可以用以下帐号直接登录

相关问答

关于我们 加入果壳 媒体报道 帮助中心 果壳活动 家长监控 免责声明 联系我们 移动版 移动应用

©果壳网    京ICP证100430号    京网文[2018] 6282-492号    新出发京零字东150005号     京公网安备11010502007133号

违法和不良信息举报邮箱:jubao@guokr.com    举报电话:18612934101    网上有害信息举报专区    儿童色情信息举报专区