牛宝体育新闻

牛宝体育普及一下什么是大数据技术?

2023-07-28
浏览次数:
返回列表

  牛宝体育牛宝体育牛宝体育“大数据 ”这个概念火了很久,但又很不容易说得清楚(不然呢?怎么会是个位数的回答),这时候买本书来看看可能会更香。

  先说结论——大数据技术,其实就是一套完整的“数据+业务+需求”的解决方案。

  1. 业务分析;2.数据分析;3.数据挖掘;4.机器学习;5.人工智能。

  其实,除了像搜索引擎这样依靠数据技术而诞生的产品外,大部分互联网产品在生存期,即一个产品从0到1的阶段,并不是特别需要大数据技术的。而在产品的发展期,也就是从“1”到“无穷”的阶段,“大数据技术”对产品的作用才会逐渐体现。

  主要原因是初期产品的功能和服务较少,也没有“积累的用户数据”用于模型研发。所以,我们常听说“构建大数据的壁垒”,这里面,“数据技术”是小壁垒,“大数据”本身才是大壁垒。

  “大数据 ”从字面上看,就是很“大”的“数据”。先别急着打我。有多大呢?

  早N多年前,百度首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。

  在大数据的世界里,事情的原理很简单——这位姑娘搜寻商品的关键词,以及她在社交网站所显露的行为轨迹,使超市的营销系统捕捉到了她怀孕的信息。

  脑补一下上面这个事件中的“女儿”,她在网络营销系统中的用户画像标准可能包括:用户ID、性别 牛宝体育、性格描述、资产状况、信用状况、喜欢的颜色、钟爱的品牌、大姨妈的日期、上周购物清单等等,有了这些信息,系统就可以针对这个用户,进行精准的广告营销和个性化购物推荐。

  亚马逊在一次新碟上市时,根据潜在客户的人口信息、购物历史、上网记录等,给同一张碟片报出了不同的价格。这场“杀熟事件”的结局就是:亚马逊的 CEO 贝索斯不得不亲自出来道歉,解释只是在进行价格测试。

  大数据来源于海量用户的一次次的行为数据,是一个数据集合;但大数据的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。

  在电影《美国队长2》里,系统能把一个人从出生开始的所有行为特征,如消费行为,生活行为等,作为标签存入数据库中,最后推测出未来这个人是否会对组织产生威胁大数据,然后使用定位系统,把这些预测到有威胁的人杀死。

  而在《点球成金》里,球队用数据建模的方式,挖掘潜在的明星队员(但其实这个案例并非典型的大数据案例,因为用到的是早已存在的数据思维和方法)。

  麦肯锡全球研究所曾给出过大数据一个相当规矩的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。

  上面这四个特征,也就是人们常说的大数据的4V特征(volume,variety,value,velocity),即大量,多样性,价值,及时性。

  1.数据体量巨大(这是大数据最明显的特征),有人认为,大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T);这里按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB(进率2^10)。

  不过,数据的体量有时可能并没那么重要。比如13亿人口的名字,只占硬盘几百M空间的数据,但已经是这个领域里非常大的数据。

  2.数据类型繁多(也就是多维度的表现形式)。比如,网络日志、视频、图片、地理位置信息等等。

  3.价值密度低,商业价值高。以视频为例,一小时的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。因此,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值(所谓“浪里淘金”吧),是最需要解决的问题。

  4.处理速度快且及时。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。

  事实上,关于这个“4V”,业界还是有不少争议的。比如阿里技术委员会的王坚博士,就直接把4V“扔”进了垃圾堆。王坚在《在线》这本书里说过:“我分享时说‘大数据’这个名字叫错了,它没有反映出数据最本质的东西。”

  他认为,今天数据的意义并不在于有多“大”,真正有意思的是数据变得“在线”了,这恰恰是互联网的特点。所有东西都能“在线”这件事(数据随时能调用和计算),远比“大”更能反映本质。

  对于一个从事大数据行业人来说,一切数据都是有意义的。因为通过数据采集、数据存储、数据管理、数据分析与挖掘、数据展现等,我们可以发现很多有用的或有意思的规律和结论。

  比如,北京公交一卡通每天产生4千万条刷卡记录,分析这些刷卡记录,可以清晰了解北京市民的出行规律,来有效改善城市交通。

  但这4千万条刷卡数据 ,不是想用就能用的,需要通过“存储”“计算”“智能”来对数据进行加工和支撑,从而实现数据的增值。

  而在这其中,最关键的问题不在于数据技术本身,而在于是否实现两个标准:第一,这4千万条记录,是否足够多,足够有价值;第二,是否找到适合的数据技术的业务应用。

  由于大数据的采集、存储和计算的量都非常大,所以大数据需要特殊的技术,以有效地处理大量的数据。

  从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。

  可以说,大数据相当于海量数据的“数据库”,云计算相当于计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用。

  整体来看,未来的趋势是,云计算作为计算资源的底层,支撑着上层的大数据处理,而大数据的发展趋势是,实时交互式的查询效率和分析能力, “动一下鼠标就可以在秒级操作PB级别的数据”。

  除了云计算,分布式系统基础架构Hadoop的出现,为大数据带来了新的曙光。

  Hadoop是Apache软件基金会旗下的一个分布式计算平台,为用户提供了系统底层细节透明的开源分部式基础架构。它是一款用Java编写的开源软件框架,用于分布式存储,并对非常大的数据集进行分布式处理,用户可以在不了解分布式底层细节的情况下,开发分布式程序,现在Hadoop被公认为行业大数据标准开源软件。

  而HDFS为海量的数据提供了存储;Mapreduce则为海量的数据提供了并行计算,从而大大提高计算效率。它是一种编程模型,用于大规模数据集(大于1TB)的并行运算,能允许开发者在不具备开发经验的前提下也能够开发出分布式的并行程序,并让其运行在数百台机器上,在短时间完成海量数据的计算。

  在使用了一段时间的 MapReduce 以后,程序员发现 MapReduce 的程序写起来太麻烦,希望能够封装出一种更简单的方式去完成 MapReduce 程序,于是就有了 Pig 和 Hive。

  同时Spark/storm/impala等各种各样的技术也相继进入数据科学的视野。比如Spark是Apache Software Foundation中最活跃的项目,是一个开源集群计算框架,也是一个非常看重速度的大数据处理平台。

  打个比方,如果我们把上面提到的4千万条记录比喻成“米”,那么,我们可以用“HDFS”储存更多的米,更丰富的食材;如果我们有了“Spark”这些组件(包括深度学习框架Tensorflow),就相当于有了“锅碗瓢盆”,基本上就能做出一顿可口的饭菜了。

  其实,大数据火起来的时候,很多做统计出身的人心里曾经是有一万个草泥马的——因为大数据实在太火,以至于很多公司在招人的时候,关注的是这个人对计算工具的使用,而忽略了人对数据价值和行业的理解。

  但目前统计学专业人士确实面临的一个现实问题是:随着客户企业的数据量逐渐庞大,不用编程的方式很难做数据分析。所以,越来越多的统计学家也拿自己开涮:“统计学要被计算机学替代了,因为现在几乎没有非大数据量的统计应用”。

  总之,掌握编程的基础,大量的项目实践,是从事大数据技术领域的必要条件。以下是大数据技术的知识体系的一个梳理,需要的朋友,可以存一下:

  在当今这个时代,人们对「大数据」这个词并不陌生。大数据技术指的是超过传统数据库系统处理能力的数据。随着互联网上的各种大数据的产生,数据分析就显得尤为重要。

  但数据其实没有那么难理解,从中还可以得出很多有趣的小结论。比如,马云就曾经分享过这么一个结论:在中国,浙江女性的胸最小。这个结论是怎么得出的呢?就是通过阿里巴巴的大数据,发现淘宝销售的胸罩中,卖到浙江去的胸罩平均尺寸最小。有很多用其他方法难以得到的信息,通过分析数据,就变得一目了然。

  当然,大数据对于我们的意义,可不仅仅是得到一些信息而已,真正理解了大数据,还可以改变我们的思维方式。

  不知道大家小的时候听没听过这样一首儿歌,儿歌里说:「因为所以,科学道理」。这其实是在说,我们习惯性的思维方式是 「因为什么,所以什么」,是用因果性的方式思维,而这种思维,正是大数据思维所不一样的,大数据不是关注因果关系,而是关注相关性,也就是说人与人之间、人与事物、事物与事物之间的相互关系。

  十年前的一个夏天,科学家们在研究游泳溺水事故时,发现了一个有趣的现象:数据表明呢,随着冰淇淋销量的增长,淹死的人数直线上升,两者的变化几乎完全一致。这是为什么呢?大家可以思考一下。

  ——当然不是了,吃冰淇淋并不是溺水的原因。真正的原因是什么呢?是天热了,吃冰淇淋的人多了,游泳的人也多了,淹死的人自然就多了。

  通过这两个故事啊,大家是不是对数字开始有点感冒了呢?下面啊,我就和大家分享一下,用大数据思维可以教给我们的四个要点:

  传统的思维,常常习惯在相关的两件事之间建立因果关系,我们总是喜欢想:因为什么,所以什么。

  但这个世界很复杂,而且变得越来越复杂,干扰的因素很多,很多时候我们并不能准确地找到原因。而如果强行找原因,往往会适得其反。

  就像我们刚刚举的那个例子,如果按照因果关系的思维,莽撞地限制冰淇淋的销售,那么非但不会降低溺水人数,由于减少了人们避暑的方式,淹死的人反而会变多。

  沃尔玛是全世界最大的连锁超市,它的数据分析师发现,当把啤酒和婴儿纸尿裤摆放在一起时,会大幅提高两者的销量。

  为什么会这样呢?是因为带孩子的爸爸变多了吗?还是因为人们在买啤酒的时候有点愧疚,希望展现一下自己有责任心的一面?没人知道。

  但是啊这一点也不重要了。沃尔玛发现了这一相关后,迅速调整货架布局,把这两种货物摆在一起,既提高了销量,又便利了顾客。

  很多顾客赞叹:「沃尔玛居然知道我心里在想什么」——其实沃尔玛不知道。但这没关系了。

  从始至终,沃尔玛也没有去研究这一现象的原因。但这丝毫也没有妨碍沃尔玛做出正确的决策,而且反应更快了。

  首先,我解释一下样本是什么。样本是我们做观察和调研的时候抽取的一部分数据,它对于做决策具有很重要的作用。在大数据当中,正是样本规模的改变,导致了决策思维的改变。

  但是你有没有考虑过,既然相关性这么好,为什么人们还是长期保留着因果性的传统思维呢?

  因为相关性不追究事物之间的逻辑关系,所以要想得到可靠的结论,所需的数据量要比因果性更大,样本要更全面。

  在以前,技术的局限让我们不可能获得足够的数据来支持我们的判断。所以我们不得不采取一种取巧的方式,去探究和论证因果。

  但现在,随着互联网和计算机技术的发展,大数据和全样本变得可能了,我们没有理由不去利用这种便利。

  人与猴子的区别在于我们会使用工具,而新思维的人和旧思维的人区别在于:我们会使用更新、更高级的工具。

  说实话大数据一次已经火了好久了,但是在最近美国主导的Tik Tok事件更是让这个词热度达到顶点,在这里站在专业的角度上普及一下什么大数据技术。

  大数据技术可以定义为一种软件实用程序,旨在分析,处理和提取来自极其复杂的大型数据集的信息,而传统数据处理软件永远无法处理这些信息。

  目前我们生活的很多方面都需要大数据处理技术来分析大量实时数据,并提出结论和预测以减少未来的风险。

  大数据是具有内在价值的,但是直到发现该值才有用。那么我们的现在收集的数据有多真实?我们到底可以依靠多少数据?

  如今,大数据已成为资本。想想一些世界上最大的科技公司。他们提供的价值的很大一部分来自他们的数据,他们不断对其进行分析以提高效率并开发新产品。

  最近的技术突破已成倍地降低了数据存储和计算的成本,从而使存储更多数据比以往任何时候都更加容易和便宜。随着越来越大的数据量变得越来越便宜和易于访问,这下都可以帮助科技公司可以做出更准确,更精确的业务决策。

  在大数据中寻找价值不仅仅在于对其进行分析(这是其他全部好处)。这是一个完整的发现过程,需要有见识的分析师,业务用户和执行人员提出正确的问题,识别模式,做出明智的假设并预测行为。

  尽管大数据本身的概念相对较新,但是大数据集的起源可以追溯到1960年代和70年代,当时世界上的数据才刚刚开始兴起第一个数据中心和关系数据库。

  在2005年左右,人们开始意识到用户通过Facebook,YouTube和其他在线服务生成了多少数据。Hadoop(专门创建用于存储和分析大数据集的开源框架)于同年开发。在此期间,NoSQL也开始流行。

  诸如Hadoop(以及最近的Spark)之类的开源框架的开发对于大数据的增长至关重要,因为它们使大数据更易于使用且存储成本更低。从那以后的几年中,大数据量猛增。用户仍在生成大量数据,但不仅仅是人在做数据。

  随着物联网(IoT)的出现,越来越多的对象和设备连接到Internet,收集有关客户使用模式和产品性能的数据,机器学习的出现产生了更多的数据。

  尽管看似大数据的发展轨迹已经走到了尽头,但其真正的用途才刚刚开始。云计算进一步扩展了大数据的可能性。云提供了真正的弹性可扩展性,开发人员可以在其中简单地启动临时群集以测试数据的子集。这些都会为我们的日常生活提供巨大的便利。

  尽管大数据已经开发了用于数据存储的新技术,但是数据量的大小大约两年就要翻一番。国家和企业仍在努力与数据保持同步并找到有效存储数据的方法。

  但是仅仅存储数据是不够的。必须找到有使用有价值的数据,这取决于策展。干净的数据或与客户端相关的数据以及以有意义的分析方式进行组织的数据需要大量工作。数据科学家必须要花50%到80%的时间来整理和准备数据,然后才能真正使用它们,时间成本是很大的损耗。

  最后,大数据技术正在快速变化。几年前,阿里云是用于处理大数据的流行技术。然后在2014年引入Apache Spark。如今,将两个框架结合起来似乎是最好的方法。跟上大数据技术是一个持续的挑战。

  大数据汇集了来自许多不同来源和应用程序的数据。传统的数据集成机制(例如ETL(提取,转换和加载))通常无法完成任务。它需要新的策略和技术来分析TB级甚至PB级的大数据集。在集成过程中,工程师们需要引入数据,对其进行处理,并确保数据已格式化。

  大数据需要存储。我们目前的存储解决方案可以在云盘中,在本地里或是在两者中。您我们按所需的任何形式存储数据,并按需将所需的处理要求和必要的处理引擎带入这些数据集。许多人根据其数据当前所在的位置来选择存储解决方案。云正在逐渐普及,因为它支持我们当前的计算要求,并使我们能够根据需要启动资源。

  对数据进行分析并采取行动时,分析师在大数据上的投资将获得回报。通过对各种数据集进行可视化分析,获得新的清晰度。进一步探索数据以发现新发现。与他人分享心的发现。利用机器学习和人工智能构建数据模型。充分利用我们创造的数据进行分析然后推送我们喜欢的内容。比如选择自己合适的学校-

  当前,大数据几乎涉及人类活动的各个方面,从简单的事件记录到研究、设计、生产、数字服务或产品交付,再到向最终消费者展示可操作的信息。云计算和无处不在的网络连接等当前技术为数据收集大数据,存储,处理和可视化中的所有流程提供了自动化的平台。

  它是无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力。简单而言,大数据更偏重于发现、预测并印证的过程。

  大数据的本质就是利用计算机集群来处理大批量的数据,大数据的技术关注点在于如何将数据分发给不同的计算机进行存储和处理。

  从数据来源的角度看,大数据的数据来源包括内部数据和外部数据,有很大一部分数据是包括音频、视频、图像在内的非结构化数据,或是半结构化数据。

  大数据的应用几乎涉及到社会生活的方方面面,如医疗行业、金融行业、体育行业、安全执法、城市改善等等。当然,大数据所涵盖的领域不止这些,未来还会有许多新的行业和领域利用大数据的应用进行规划和发展。

  数据库/大数据平台类。如星环,做Hadoop生态系列的大数据底层平台公司。Hadoop是开源的,星环主要做的是把Hadoop不稳定的部分优化,功能细化,为企业提供Hadoop大数据引擎及数据库工具。

  云计算/云端大数据类。如阿里巴巴的明星产品-阿里云,与亚马逊AWS抗衡,做公有云、私有云、混合云。实力不差,符合阿里巴巴的气质,很有野心。

  大数据决策平台。比如帆软,商业智能和数据分析平台提供商,从报表工具到商业智能BI,在这个领域很成熟。

  大数据存储硬件类。比如浪潮,很老牌的IT公司,国资委控股,研究大数据方面的存储,在国内比较领先。

  目前,大数据的发展趋势包括:数据的资源化,与云计算的深度结合,数据管理成为核心竞争力,数据生态系统复合化程度加强,数据质量是BI(商业智能)成功的关键,数据泄露泛滥。

  不请自来,关于大数据有一些自己的观点,文中也分享了一些有关大数据的资料,供大家学习。

  大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。”业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。有关大数据的概念已经讲了很多了,在这里我就不过多赘述了,今天我们来谈一谈大数据技术架构该怎样进行。

  这是某公司使用的大数据平台架构图,大部分公司应该都差不多。从这张大数据的整体架构图上看来,大数据的核心层应该是:数据采集层、数据存储与分析层、数据共享层、数据应用层,可能叫法有所不同,本质上的角色都大同小异。所以我下面就按这张架构图上的线索,慢慢来剖析一下,大数据的核心技术都包括什么。

  数据采集的任务就是把数据从各种数据源中采集和存储到数据存储上,期间有可能会做一些简单的清洗。

  作为互联网行业,网站日志占的份额最大,网站日志存储在多台网站日志服务器上,一般是在每台网站日志服务器上部署flume agent,实时的收集网站日志并存储到HDFS上。

  业务数据库的种类也是多种多样,有Mysql、Oracle、SqlServer等,这时候,我们迫切的需要一种能从各种数据库中将数据同步到HDFS上的工具,Sqoop是一种,但是Sqoop太过繁重,而且不管数据量大小,都需要启动MapReduce来执行,而且需要Hadoop集群的每台机器都能访问业务数据库;应对此场景,淘宝开源的DataX,是一个很好的解决方案,有资源的话,可以基于DataX之上做二次开发,就能非常好的解决。

  当然,Flume通过配置与开发,也可以实时的从数据库中同步数据到HDFS。

  有可能一些合作伙伴提供的数据,需要通过Ftp/Http等定时获取,DataX也可以满足该需求。

  毋庸置疑,HDFS是大数据环境下数据仓库/数据平台最完美的数据存储解决方案。

  离线数据分析与计算,也就是对实时性要求不高的部分,在笔者看来,Hive还是首当其冲的选择,丰富的数据类型、内置函数;压缩比非常高的ORC文件存储格式;非常方便的SQL支持,使得Hive在基于结构化数据上的统计分析远远比MapReduce要高效的多,一句SQL可以完成的需求,开发MR可能需要上百行代码;

  当然,使用Hadoop框架自然而然也提供了MapReduce接口,如果真的很乐意开发Java,或者对SQL不熟,那么也可以使用MapReduce来做分析与计算;

  Spark是这两年非常火的,经过实践,它的性能的确比MapReduce要好很多,而且和Hive、Yarn结合的越来越好,因此,必须支持使用Spark和SparkSQL来做分析和计算。因为已经有Hadoop Yarn,使用Spark其实是非常容易的,不用单独部署Spark集群。

  这里的数据共享,其实指的是前面数据分析与计算后的结果存放的地方,其实就是关系型数据库和NOSQL数据库;

  前面使用Hive、MR、Spark、SparkSQL分析和计算的结果,还是在HDFS上,但大多业务和应用不可能直接从HDFS上获取数据,那么就需要一个数据共享的地方,使得各业务和产品能方便的获取数据;和数据采集层到HDFS刚好相反,这里需要一个从HDFS将数据同步至其他目标数据源的工具,同样,DataX也可以满足。

  1、业务产品(CRM、ERP等)业务产品所使用的数据,已经存在于数据共享层,直接从数据共享层访问即可;

  2、报表(FineReport、业务报表)同业务产品,报表所使用的数据,一般也是已经统计汇总好的,存放于数据共享层;

  3、即席查询即席查询的用户有很多,有可能是数据开发人员、网站和产品运营人员、数据分析人员、甚至是部门老大,他们都有即席查询数据的需求;这种即席查询通常是现有的报表和数据共享层的数据并不能满足他们的需求,需要从数据存储层直接查询。即席查询一般是通过SQL完成,最大的难度在于响应速度上,使用Hive有点慢,可以用SparkSQL,它的响应速度较Hive快很多,而且能很好的与Hive兼容。当然,你也可以使用Impala,如果不在乎平台中再多一个框架的线、OLAP

  这时候,需要做相应的开发,从HDFS或者HBase中获取数据,完成OLAP的功能;比如:根据用户在界面上选择的不定的维度和指标,通过开发接口,从HBase中获取数据来展示。

  现在业务对数据仓库实时性的需求越来越多,比如:实时的了解网站的整体流量;实时的获取一个广告的曝光和点击;在海量数据下,依靠传统数据库和传统实现方法基本完成不了,需要的是一种分布式的、高吞吐量的、延时低的、高可靠的实时计算框架;Storm在这块是比较成熟了,但我选择Spark Streaming,原因很简单,不想多引入一个框架到平台中,另外,Spark Streaming比Storm延时性高那么一点点,那对于我们的需要可以忽略。

  我们目前使用Spark Streaming实现了实时的网站流量统计、实时的广告效果统计两块功能。

搜索