牛宝体育新闻
牛宝体育科普 说说大数据是什么及其特点与应用
小编在KFC买早餐,偶然听见一句话,男孩对朋友说,“你每在手机上下一次订单,就给肯德基的大数据做了一次贡献。”
想来有趣,在网上购物、订外卖、手机支付已成为很多人日常生活的一部分,可穿戴设备、智能家居设备等风头正旺的现在,我们每天的吃饭、睡觉、工作,甚至娱乐产生的“数据”都会通过某种手段被保留和集中起来。根据IBM调研的说法,人类每天生成的数据涵盖我们发送的文本、上传的照片、各类传感器数据、设备与设备之间的通信的所有信息等,相当于从地球到月球的距离。
将这样量级的数据称为“大数据”可一点也不为过。最早提出“大数据”时代到来的全球知名咨询公司麦肯锡称:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”今天我们就来说说大数据。
在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中,大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进行分析处理的分析方法;而研究机构Gartner给出了这样的定义:“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产;根据的定义,大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。
我们这里主要采用第三种定义,即所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到获取、管理、处理、并整理成为帮助企业经营决策的目的资讯。
湖畔大学曾鸣老师曾列举的的大数据与传统的数据最大的差别是:在线、实时与全貌。
①在线:首先大数据必须是永远是在线的,而且在线的还得是热备份的,不是冷备份的,不是放在磁带里的,是随时能调用的。不在线的数据不是大数据,因为你根本没时间把它导出来使用。只有在线的数据才能马上被计算、被使用。
②实时:大数据必须实时反应。我们上淘宝输入一个商品,后台必须在10亿件商品当中,瞬间进行呈现。如果要等一个小时才呈现,我相信没有人再上淘宝。十亿件商品、几百万个卖家、一亿的消费者,瞬间完成匹配呈现,这才叫大数据。
③全貌:大数据还有一个最大的特征,它不再是样本思维,它是一个全体思维。以前一提到数据,人们第一个反应是样本、抽样,但是大数据不再抽样,不再调用部分,我们要的是所有可能的数据,它是一个全貌。其实叫全数据比大数据更准确。
“大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日,却因为近年来互联网和信息行业的发展而引起人们关注。据统计,企业内部的经营交易信息、互联网中的商品物流信息、人与人交互信息、位置信息等数据,每2~3年时间就会成倍增长。
而信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础。这些数据蕴含着巨大的商业价值大数据,但是企业所关注的通常只占在总数据量的2%~4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去制定关键商业决策的最佳契机。
大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。但是,现在这些数据都是阿里最宝贵的财富。
大数据也可以对业绩产生直接影响。它的效率和准确性,远远超过传统的用户调研。除了电商,包括能源、影视、证券、金融、农业、工业、交通运输、公共事业等,都是大数据的用武之地。
除了帮助了解用户之外,大数据还能帮助了解自己。企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。总而言之,“知己知彼,百战百胜”。大数据,就是为决策服务的。
2.Variety(多样化):数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据;
3.Velocity(时效性):处理速度快,1秒定律,从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化;
4.Value(价值密度):大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。只要合理利用数据并对其进行正确、准确的分析,将会带来很高的价值回报
数据采集有线上和线下两种方式,线上一般通过爬虫,通过抓取或者通过已有应用系统的采集。
在这个阶段,我们可以做一个大数据采集平台,依托自动爬虫(使用Python或者Node.js制作爬虫软件),ETL工具、或者自定义的抽取转换引擎,从文件中、数据库中、网页中专项爬取数据。如果这一步通过自动化系统来做的话,可以很方便的管理所有的原始数据,并且从数据的开始对数据进行标签采集,可以规范开发人员的工作,同时目标数据源可以更方便的管理。
数据采集的难点在于多数据源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。还有本地文件、excel统计文档、甚至是doc文件。如何将它们规整、有方案地整理进我们的大数据流程中也是必不可缺的一环。
数据的汇聚是大数据流程最关键的一步,你可以在这里加上数据标准化,你也可以在这里做数据清洗,数据合并,还可以在这一步将数据存档,将确认可用的数据经过可监控的流程进行整理归类,这里产出的所有数据就是整个公司的数据资产,到了一定的量就是一笔固定资产。
数据汇聚的难点在于如何标准化数据,例如表名标准化,表的标签分类,表的用途,数据的量,是否有数据增量?数据是否可用?
这些需要在业务上下很大的功夫,必要时还要引入智能化处理,例如根据内容训练结果自动打标签,自动分配推荐表名、表字段名等,还有如何从原始数据中导入数据等。
经过数据汇聚的数据资产如何提供给具体的使用方使用?在这一步,主要就是考虑数据如何应用,如何将两、三个数据表转换成一张能够提供服务的数据。然后定期更新增量。
经过前面的那几步,在这一步难点并不太多了,如何转换数据与如何清洗数据、标准数据无二,将两个字段的值转换成一个字段,或者根据多个可用表统计出一张图表数据等等。
数据的应用方式很多,有对外的、有对内的,如果拥有了前期的大量数据资产,是通过restful API提供给用户?还是提供流式引擎 KAFKA 给应用消费? 或者直接组成专题数据,供自己的应用查询?这里对数据资产的要求比较高,所以前期的工作做好了大数据,这里的自由度很高。
大数据、数据分析、数据挖掘的区别是,大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断:
指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。这一过程也是质量管理体系的支持过程。在实用中,数据分析可帮助人们作出判断,以便采取适当行动。
又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。
数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。
大数据是范围比较广的数据分析和数据挖掘。按照数据分析的流程来说,数据挖掘工作较数据分析工作靠前些,二者又有重合的地方,数据挖掘侧重数据的清洗和梳理。数据分析处于数据处理的最末端,是最后阶段。数据分析和数据挖掘的分界、概念比较模糊,模糊的意思是二者很难区分。大数据概念更为广泛,是把创新的思维、信息技术、统计学等等技术的综合体牛宝体育,每个人限于学术背景、技术背景,概述的都不一样。
数据在行业中的应用的越来越广泛,我们先看看大数据在当下有怎样的杰出表现:
1.大数据帮助政府实现市场经济调控、公共卫生安全防范、灾难预警、社会舆论监督;大数据帮助城市预防犯罪,实现智慧交通,提升紧急应急能力;电力企业会通过大数据实时做数据的监测和预测,让我们更好、更方便做这种电力的调度;
2.医疗中更是有着比较广泛的应用,现在的基因工程以及疾病的预测分析和每个病人的手术方案等等,可能都会用到大数据。 大数据帮助医疗机构建立患者的疾病风险跟踪机制,帮助医药企业提升药品的临床使用效果,帮助艾滋病研究机构为患者提供定制的药物;
3.大数据帮助电商公司向用户推荐商品和服务,帮助旅游网站为旅游者提供心仪的旅游路线,帮助二手市场的买卖双方找到最合适的交易目标,帮助用户找到最合适的商品购买时期、商家和最优惠价格;
4.大数据帮助企业提升营销的针对性,降低物流和库存的成本,减少投资的风险,以及帮助企业提升广告投放精准度;大数据帮助社交网站提供更准确的好友推荐,为用户提供更精准的企业招聘信息,向用户推荐可能喜欢的游戏以及适合购买的商品;
5.大数据帮助娱乐行业预测歌手,歌曲,电影,电视剧的受欢迎程度,并为投资者分析评估拍一部电影需要投入多少钱才最合适,否则就有可能收不回成本;另外电影其实都是需要渲染的,之前每渲染一分钟可能就需要上千台机器、可能需要一两个月,现在通过云计算、大数据的方式,可能渲染一个一分钟的电影镜头就缩短成了一秒或者两秒。
6.大数据帮助航空公司节省运营成本,帮助电信企业实现售后服务质量提升,帮助保险企业识别欺诈骗保行为,帮助快递公司监测分析运输车辆的故障险情以提前预警维修,帮助电力公司有效识别预警即将发生故障的设备;
其实,除了以上大数据的应用外,未来大数据的身影应该无处不在,就算无法准确预测大数据终会将人类社会带往到哪种最终形态,但我相信只要发展脚步在继续,因大数据而产生的变革浪潮将很快淹没地球的每一个角落。
比如,Amazon的最终期望是:“最成功的书籍推荐应该只有一本书,就是用户要买的下一本书。”Google也希望当用户在搜索时,最好的体验是搜索结果只包含用户所需要的内容,而这并不需要用户给予Google太多的提示。
而当物联网发展到达一定规模时,借助条形码、二维码、RFID等能够唯一标识产品,传感器、可穿戴设备、智能感知、视频采集、增强现实等技术可实现实时的信息采集和分析,这些数据能够支撑智慧城市,智慧交通,智慧能源,智慧医疗,智慧环保的理念需要,这些都所谓的智慧将是大数据的采集数据来源和服务范围。
未来的大数据除了将更好的解决社会问题,商业营销问题,科学技术问题,还有一个可预见的趋势是以人为本的大数据方针。人才是地球的主宰,大部分的数据都与人类有关,要通过大数据解决人的问题。