牛宝体育新闻
牛宝体育带你走进大数据 写给小白的大数据指南
牛宝体育牛宝体育牛宝体育本文将介绍数大数据与数据分析之间的关系,并追溯大数据的发展历史,本文重点内容将介绍大数据有关内容。在当今数字化时代,数据扮演着无比重要的角色。由于硬件设备和软件的发展,产生了海量的数据,挑战着我们处理和理解信息的能力。在这个背景下,数据分析和大数据成为引领创新和决策的关键驱动力。
首先简单解释一下数据分析,数据分析是通过收集、处理和解释数据来获得洞察、支持决策和发现趋势的过程。那关于数据分析的解释就说这么多,对数据分析理论感兴趣的可以去看看我们前几期视频哈,我们主要讨论的还是大数据。而大数据这个概念是最近这些年才被提出,简单解释大数据是指非常庞大、复杂的数据集,特别是来自新数据源的数据集,其规模之大令传统数据处理软件束手无策,却能帮助我们解决以往非常棘手的业务难题。
大数据为数据分析提供了丰富的数据来源。传统的数据分析往往局限于结构化数据,而大数据涵盖了结构化数据、半结构化数据和非结构化数据,包括文本、图像、音频、视频等各种形式的数据。这些多样化的数据来源为数据分析带来了更全面、多维度的数据基础。
传统的数据分析工具和方法往往无法处理海量的数据。大数据技术提供了分布式存储和计算的能力,出现了各种分布式存储和处理技术,如 Hadoop 和 NoSQL 数据库 Spark 等计算框架。使得数据分析可以处理和分析大规模的数据集。通过大数据技术,数据分析师能够高效地处理大量数据,提高分析的效率和准确性。
大数据处理技术的不断发展,出现了许多实时的处理框架(Flink Spark Streaming 等)使得实时数据分析和实时决策成为可能。实时数据分析能够及时监测和分析数据流,帮助企业迅速做出反应和调整策略。这种实时性的分析能力对于实时监测、实时风控、市场响应、实时个性化推荐、实时广告等应用至关重要。大数据对于数据分析还有许多其他的帮助,我们只是说了其中几点,大数据的发展一直助力着数据分析,帮助数据分析更好的处理数据。
谈到大数据的发展历史,我们可以先看一看数据储存技术和数据处理技术发展历史。
计算机存储经过了早期的穿孔打开,磁芯存储器,磁盘存储,到现在的固态硬盘等。大家可以猜一猜,世界上第一台商用电脑,它的储存是多少,1000字,没错你没听错是字,1951年占地26.7平方米,重量7.2吨。它长这样。
苹果第一台商用电脑,Lisa 具有16位 CPU,768KB 内存。它长这样。
而现在的苹果电脑,内存 8G 起,存储 256G 起,它长这样。当然中间经过了几十年的发展才有了现在的个人电脑。
再给大家看几张图片。第一张打孔卡片,这应该算是古董文物了,最早出现在19世纪,这个大家应该都没有见过,我也是 网上查资料的时候才发现历史上还有这么一个东西。
第二张,上世纪50年代的产物,磁芯存储器,说到这个可能有些人会见过,比如我在大学的时候就还真见过,那是我大学老师在他大学时期做的一张小的卡片,也算是一种传承了,当时看到老师拿出来的时候,就感觉到人类真是不可思议,谁能想到电磁可以存储数据呢。
下面这两张图大家可能就比较熟悉了,硬盘和固态硬盘,目前我们计算机主要使用的存储介质就是这么两种。存储介质的存储量也从最开的字、KB、MB,变成现在的 GB、TB。当然中间经历了几十年漫长的时间
埃德加·弗兰克·科德( Edgar F. Codd )提出了关系模型的概念,关系数据库管理系统( RDBMS )的概念和技术开始出现。这些数据库采用了结构化数据模型,使用表格和行列的形式存储和管理数据。关系数据库的兴起为数据的组织、管理和查询提供了标准化的方法,并为后续的数据处理技术奠定了基础。但是此时的处理数据量还是比较小的。2.2.2 1990年代:数据仓库和商业智能
在20世纪90年代,数据仓库和商业智能(BI)的概念和技术开始崛起。数据仓库的出现解决了数据分散和数据质量的问题,为数据分析提供了更可靠和一致的数据源。商业智能工具的发展使得用户能够从数据仓库中获取洞察力和决策支持。2.2.3 2004年:Google 的 MapReduce 和 Google File System
2004年,Google 发表了两篇重要的论文,介绍了 MapReduce 和 Google File System(GFS)的概念和原理。MapReduce 是一种用于大规模数据处理的分布式计算模型。GFS 是一种用于存储和管理大规模数据的分布式文件系统。与后面发布的 BigTbale 并成为谷歌三架马车(也叫大数据领域的三架马车)。后来的很多分布式文件系统和和计算都借鉴了这两篇论文,像我们熟知的 Hadoop 等框架牛宝体育。2.2.4 2008年:Hadoop 的诞生
2008年,Apache Hadoop 项目从社区毕业,该项目是基于 Google 的 MapReduce 和 GFS 论文提出的概念开发的一个开源软件框架。Hadoop 提供了一个分布式存储和处理大数据的平台,其中包括 Hadoop 分布式文件系统( HDFS )和 MapReduce 计算模型。Hadoop 的出现彻底改变了大数据处理的方式和成本效益。可以说 Hadoop 的出现,伴随着的是大数据蓬勃发展。今天讨论大数据,Hadoop 生态圈是必不可少的。
在2010年代,大数据技术开始在各个领域得到广泛应用。企业、政府和学术界都意识到大数据的价值,并开始利用大数据进行业务分析、决策支持、市场营销、风险管理、医疗研究等方面。同时,随着大数据技术的发展和成熟,出现了更多的大数据处理工具和技术,如 Spark、Hive 等,丰富了大数据处理和分析的能力。2.2.6 当前和未来:数据湖和实时处理
数据湖成为存储和管理大数据的一种新兴模式大数据大数据。数据湖( 例如 Hudi iceberg 等)是一种存储所有原始和结构化数据的存储系统,为数据分析提供更多的灵活性和可扩展性。此外,由于对数据时效性的要求,实时数据处理和流式处理技术的发展也非常迅猛,例如 Apache Flink 等流处理框架,使得我们能够更快,更高效的处理数据。
大数据的发展历史经历了从传统的数据处理到关系数据库、数据仓库、Google 的技术创新以及 Hadoop 等开源框架的崛起。一方面大数据的不断发展为数据分析提供了更丰富、更全面的数据基础。传统数据分析面临着数据量有限和样本不足的挑战,而大数据的涌现打破了这些限制。另一方面,数据分析为大数据赋予了意义和价值。大数据本身可能庞大且杂乱无章,但通过数据分析,我们可以利用大数据发现其中的模式、关联和趋势,能够帮助我们从大数据中提取有用的信息,并用于决策、优化业务流程和发现新的商业机会。