牛宝体育新闻

牛宝体育什么是大数据权威专家谈大数据的4V1C特质

2023-10-17
浏览次数:
返回列表

  大数据是当前较为火爆的一个词汇,究竟什么是大数据、大数据的概念是怎样的?大数据有哪些特质,大数据有哪些技术方面的要求,大数据对当前社会产生了哪些重要的影响?

  国内知名大数据专家、中科院计算所博士、职品汇创始人龚才春博士对此做了详尽的分析,他指出:“从常规定义来讲,大数据就是大小超出常规数据库工具获取、存储、管理和分析能力的数据库,并且也强调,不是说一定要超过特定TB的数据集才是大数据。这个定义并没有诠释什么是常规的数据库工具,也没有诠释大数据与数据量的关系,是一个比较原始的大数据定义。”

  而国际数据公司(International Data Corporation,简称IDC)则从四个特征定义大数据:数据规模庞大(Volume)、数据更新频繁(Velocity)、数据类型多样(Variety)和数据价值巨大(Value)。

  龚博士认为,在上述四大定义的基础上,一般偏向于再加上数据处理复杂(Complexity),构成相对完整的大数据的定义,这就是大家耳熟能详的4V+1C。

  当数据规模很小时,属于传统的“小数据”时代的问题,已有非常成熟的数据存储、计算、分析、呈现方案,数据模型也有非常多的研究。大数据必须是规模异常庞大的数据,只有当规模庞大时候牛宝体育,才有新的研究价值。

  前面已经提到,大数据的大,不是说一定要超过特定TB的数据集才是大数据。由于计算能力、存储能力、分析能力的有限,现在看起来很简单的问题,在历史上可能都是大数据的问题。辽沈战役中,司令员对战报要求很细,包括每支部队歼敌多少、俘虏多少;缴获的火炮、车辆多少;、物资多少……一天深夜,值班参谋正读着一份某师上报的战斗缴获报告大数据,那是该师的下属部队偶然碰上的一个不大的遭遇战,他们歼灭了一部分敌人,缴获了一些战利品,敌人余部逃走。听了汇报后,立即口授命令,全力追击从胡家窝棚逃走的那股敌人,一定要把它彻底打掉。果然活捉了新编第六军军长廖耀湘。这些数据在今天看来,规模非常非常小。但在当时这已经是“大数据”了,懂得分析数据大数据,从缴获中手枪和冲锋枪的比例准确判断出敌方的指挥部在胡家窝棚,这也算是大数据分析的魅力。

  我们知道摩尔定律揭示了处理器分析能力与时间的关系,也就是说,每隔18个月左右处理器的分析能力翻一番。对于一个静止的数据集,哪怕今天我们的处理器无法处理,存储器不好存储。随着技术的进步,未来可能变成非常容易处理,就像我们现在看着当年分析战报一样,这些战报数据的处理今天已经变得非常非常容易了,在今天已经不算“大数据”了。

  大数据技术,要求我们更多地想出“巧妙”的分析办法,提成更“优秀”的处理模型,而不能只依赖存储能力、处理水平、网络带宽等硬件设备的性能改进。所以大数据技术,对分析对象要求是频繁更新的数据集。

  传统的关系型数据库,无论从理论上,还是在应用上都非常成熟了牛宝体育。关系型数据库一般保存格式固定、类型单一的数据,几十年的数据库理论、数据挖掘、数据仓库的研究,已经有相当多的研究成果。

  大数据要求我们的分析对象是异构、异质的数据集,可能包括文本、音频、视频等多种形式,也可能是结构化、半结构化的或无结构的。

  如果数据没有价值,我们就没有分析的必要。因此,大数据要求我们处理的数据集是有巨大商业价值或社会价值的。阿里巴巴愿意花巨大代价提高推荐系统的准确性牛宝体育,就是在于其推荐系统的准确率的提高,能大大提高平台的交易量,从而具有非常巨大的商业价值。我们在全国部署“天眼”系统,提高大数据技术在天眼系统的分量,就是因为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障人民群众安全、信用取证等方面都有巨大的社会价值。

  在Value这个层面,我们除了要求价值巨大外,我们一般会增加一点要求,那就是价值密度极低。我们常说,大数据是一个“金矿”,金矿就包含两个方面的含义:一方面,黄金很值钱,金矿很有价值;另一方面,金矿不是金库,几万顿的矿砂,也许只有几十公斤黄金,也就是说金库的价值密度是非常低的。大数据的价值方面的含义,也要求价值密度非常低。如果数据集中每一条数据都是非常有价值的,那也就无所谓“挖掘”了,没有挖掘,大数据的意义也荡然无存了。

  IDC公司的大数据只有4V的特征,我们一般偏向于增加另一个维度的要求:数据处理复杂。例如,统计中国人口的平均年龄,这个数据量是非常庞大的,有接近14亿条记录;这个数据也是动态更新的,每年都有几千万人出生,几千万死亡;这个数据集也可以是多样的牛宝体育,湖南的数据可以放在mysql中,湖北的数据可以在oracle中,北京的数据可能在Txt文件中,上海的数据可能在Word文档中;这个数据集和这个分析都是有价值的,但是平均到每一条数据,价值又非常有限。也就是说,这个问题是符合4V特征的,但是这个问题怎么看都“太简单”了,年龄加起来求平均即可,不能成为真正意义上的“大数据问题”。

  大数据要求数据处理复杂,不能脑袋一拍就可以想出办法,不能套用现有的牛宝体育、成熟的数据库工具简单得到答案。(文/董成竹)

  职品汇的愿景是“让天下没有欺骗”。通过完善职场各方的数据,建立我国9.2亿从业者的职场信用体系,彻底解决职场诚信问题。牛宝体育牛宝体育牛宝体育牛宝体育

搜索