牛宝体育新闻
大数据听着很牛实际上也牛宝体育很牛吗?
我有2GB那么多的整数,一把全装进内存……恩恩,如果机器不那么破,勉强也完事吧。
吓尿了吧!?写外排序?你写啊!Its ONLY the beginning!很多人可是连内存里的快排都写不出的哦~
OK,显然我们已经意识到1台机器装不下了。咋办?多找几台机器呗大数据。多找几台机器意味着啥啊?分布式计算懂不懂,连分布式都不懂说个毛大数据啊!!!
2)这10台机器之间如何通讯?没错,我不止坑了你去写外排序,我还得坑你去玩网络编程。
3)假设每一台机器上的数据都已经完全排好,如何多快好省地把各自排序好的结果merge在一起?
5)别以为10台机器不需要维护,万一在排序的时候其中一台机器挂了,怎么办?具体包括但不限于:他在挂之前有响应其他机器发给他的request吗?他在挂之前自身的任务完成了多少了?假设这台机器在挂的时候正在跟隔壁的机器互相传输数据肿么办?
6)谁去监听这10台机器的健康?或者是其他机器怎么知道某台机器挂了?如果是连接超时,怎么知道是网络阻塞还是目标机线)如果某台机器真的挂了无法恢复,又或者由于隔壁的黄大牛要打魔兽了劫走了一台(集群升级,集群中的节点被临时撤走的事常有哦),如何把那台机器上那20GB的数据分给其余的9台?
1)这么大的数据,这么大的集群,同一时间挂掉的机器数量可能会很多。如果这个集群用来做存储(例如百度云),怎么保证用户的数据不丢失?
2)如果这个集群用来做离线计算,怎么设计调度程序提高每台机器的资源利用率,减少集群内的网络IO和尽可能地提高每台机器的响应速度?
3)我希望集群是可扩展的,最好架构能支持我只要简单地增加机器数目就能扩充集群的计算和存储能力,这个架构要怎么设计?
只所以题主会这么说,是因为题主作为局外人,能看到的就只有这些表面的最直观的现象。一句简单的“数据分析变得智能了更快了”的背后,实际上是无数人付出的勤奋、创造力、勇敢还有艰辛!
——————————————————————————————————————————
现在大数据被媒体一帮理工文盲玩坏了。。。觉得数据量大就是大数据,或者甚至里面数字大也是大数据。。。。唉
所谓Big Data其实是有两部分组成的。一部分是海量运算存储能力,一部分是数据建模算法。
第二部分其实是一个蛮久的学科了。20年前我们叫做statistical analysis,10年前叫data mining,5年前叫machine learning,最近叫big data。其实就是用数学建模的方法对过去的数据建模,以期可以预测未来的行为。比如netflix用你的历史评分来猜你喜欢的电影,yelp用你历史喜好来预测你的口味。。。
但是在之前人们发现虽然模型看起来不错,但是第一海量的数据不好存储,第二是超大型矩阵运算要很长时间,这对于一个需要快速响应的系统显然是不行的。
最直接的方式就是提高硬盘和CPU的capacity,但是后来发现远远赶不上需求。于是大量的研究聚集到了并行计算的架构上。感谢google带来的mapreduce和hadoop,码农们有了一个标准化和广泛接受的并行存储计算框架。之前的bottleneck在近几年突然被突破了,人们发现可以实时运算数据量瞬间达到了PB级别。面对这样的海量数据人们提出了Big Data的概念。
另外一点就是互联网的急速发展,一方面大带宽促进了并行计算发展,一方面人们越来越多的在网络发布自己的信息。这使得挖掘数据越来越成为一个有商业前景的技术。
就并行计算来讲确实很牛。但原理很简单,就是把一个巨型的矩阵切片分给一个个小的机器来处理(Map),然后把计算结果汇总处理(Reduce)。这样不用提高单个核心的运算频率的条件下,通过并行运算来达到速度加倍的效果。虽然说起来很简单,但其中牵扯到的数据存储方式、计算负荷分配等技术确实到近几年才突飞猛进的发展完善。吐槽一下....看到有人说hadoop被sql虐。这很正常好嘛....能一台机器上解决的事情你分一堆机器做,网络不要时间么....
大数据应用比较广泛的一个领域就是推荐系统(Recommander System)。其中很有名的事件是在2009年,netflix举办了一个奖金一百万美金的比赛。netflix开放了一部分数据库的用户数据,要求每个参赛者根据这些数据预测这些用户未来对影视作品的打分。但是结果如何呢?
这是当时的leaderboard,第一名的得分是0.86左右。什么意思呢?就是他对用户打分的预测有平均0.86的误差。也就是说如果你给一个电影评分3.5,表示你还算满意,结果预测是2.7,表示不满意....而且最悲催的是netflix花了一百万之后的来的模型,他们决定不用了,因为太复杂,运算起来不划算。当时他们自己的误差是0.9以上。
值得注意的是这里面没有冷启动问题。什么意思呢?就是在test set里面没有出现新用户。Yelp在去年举办了类似的比赛,其中就涉及了冷启动的问题。就是要求模型在已知用户基本信息(性别,地理位置,年龄...)而没有历史评分的情况下预测他们对饭店的打分。
这个结论最直观的表现就是,我们在电商网站上经常会被推送一些莫名其妙的东西....
还有一个很火的概念是利用社交网站的sentimental data来预测市场走势。我来给大家看一个利用社交网站数据来预测每分钟股票价格的比赛....
小规模的数据分析,会有很大噪音。比如你不能因为看到1个人买了黄瓜又买了KY就说两者有什么关联,但是如果几百万个用户都显示了这样的关联,那就能说明一些问题(?)了。可是数据量一旦上了规模,传统的系统就没办法很好的处理了。
比如说你的电商网站每天有几十G的用户点击数据,你希望知道定了鲜花的用户是否也会购买避孕套,然后让决定是否给杜蕾斯做推荐。你决定分析上个季度的用户数据来作决策,不过这些数据结构松散,没有索引,你家的Oracle把磁盘转的吱吱响,转了两天终于给出结果说根据这个季度的历史浏览统计,我们发现鲜花和避孕套有很大的正相关性,因此这个关联推荐是有效的。你回头跟老板商量,他披头对你一通骂,2货,情人节是昨天!
阿里亚马逊ebay这些,成千上万种货物,每天成TB的甚至PB的数据量,要对大量不同的货品种类作分析和推荐,近实时地更新给用户看;推特和Facebook这些,根据用户发布的信息和行为模式,快速地分析整合数据给出精确广告投放是这些公司生存的根本。
等移动互联网或者物联网更普及,数据量只会更大,结构更随意,分析更困难。能从中找到有意思的信息,用传统手段就更难了。
当数据增长速度超过了计算机处理能力的增长速度,这时就产生了「大数据」问题,好比马车怎么也赶不上汽车,更别看汽车后备箱里面装了什么东西。当前流行的Hadoop等工具集、MapReduce等方法有效地形成一套可以灵活扩展的解决方案,允许用空间(集群规模)换取时间(运算时间),通过良好地管理,集群的处理能力能够跟得上数据的增长速度,由此允许人们处理更大的数据(赶上汽车),从中提取出小数据所无法获得的信息与价值(发现汽车后备箱里面藏的东西)。
然而,集群可不是那么好管理的,其中涉及到大量的技术问题,比如如何存放这些数据?我们如果关心数据安全,就要考虑如何管理和处理数据冗余,如何让集群的协同运行更加高效等等。事实上,这整套工具集仍然在不断地发展、扩充,可以看看社区的进展,新的工具层出不穷,这就在技术上为人们处理增长速度这么快的数据提供了可能性。
但是光有这种技术保证是不够的,就好像你也开了一辆车追上了那辆汽车,但不代表你就能发现那辆车后备箱里面藏的东西。「大数据」真正发挥作用的,是数据中的信息,这些信息才是有价值的,难点就在于,在有技术能力的前提下,如何能够更「科学地」提取出这么大堆数据中的信息?统计模型?数据挖掘?工具的使用,往往伴随着滥用,得出似是而非的结论,导致做出错误的决策。这些都是人们需要解决的问题,而计算机目前是不会自动去解决这些问题的。
很快局势明朗,阿里支持的快的打车,腾讯支持的滴滴打车,还有百度支持的 Uber 中国,三足鼎立,烧钱连眼睛都不眨。混战的结局是:滴滴胜出,三家归晋,但是血液里留存了 BAT 三家的“骨血”,甚至还掺和了苹果、软银、中投、中国人寿、中信证券,简直是八国联军。巨头们为什么一扔就是几十亿,投资一家打车的公司?还能因为什么。因为数据。过去的互联网巨头,所有的数据都是线上数据——和人的空间位置无关,只靠大脑就能给出的数据。滴滴给出的数据,却是人的空间行动轨迹。第一次,物理世界的大门就这样敞开给各位巨头,这太新鲜,太诱人了。时至今日,滴滴所能掌握的数据,都是全国独一无二的。说到这里,还得提到另一个隐形巨人,美团。中哥毫不掩饰对于美团的看好。我曾经写过《野兽美团》,就是在分析美团刻画物理世界的能力。美团外卖小哥的手机,每隔几秒就会向总部发回信号。通过这些数据探针,美团可以实时掌握各个饭店、便利店的精确到五米的位置,实时知道哪段路临时限行,知道各个小区的大门的开关情况,甚至知道今天12:30某大厦的一部电梯从1楼上到14楼所需等待的时间。>
美团的手背在身后,趁你不备就给你插一根新的探针。美团合并大众点评,插了一根你去饭店的轨迹探针。美团做团购,插了一根你看电影、洗脚、唱K等等娱乐轨迹的探针。美团酒店预定,插了一根你开房的轨迹探针。美团收购摩拜,插了一根你短途出行轨迹的探针。美团也曾经觊觎滴滴的打车业务和背后的数据,推出了美团打车,但是说这一役成功恐怕为时尚早。物理世界的数据虽然如此珍贵,但从目前的情况来看,滴滴和美团都没有做很大的动作来把物理世界的数据变现,这是为啥?并不是因为他们不想,而是在现有的技术条件下,对物理世界数据的变现成本太大。时机未到,让子弹飞一会儿。>
他们在等待几个技术突破,其中最重要的那个,叫做 5G。一旦 5G 技术大规模商用,物理世界的数据就会变得精确而且便宜,就像 AV 画质一下子跃升到了高清8K。到那时,互联网的洪水就会冲破物理世界的堤坝。也许你在街上每走一步,都能看到身边屏幕上显示不同的广告;手机里会给你推送五米开外的店铺的优惠信息;你口渴,星巴克就在你前方召唤,你心情不好,立刻甜品送到你手上。滴滴和美团,都有巨头持股。而 BAT 们自己的数据探针野心,也昭然若揭。很少有人记得,2018年,阿里巴巴曾经在“电商”、“金融”、“云计算”、“物流”这四大赛道旁边,郑重地建立了第五条赛道。这条赛道就叫“IoT”。IoT 的中文译名是“物联网”。很明显,这就是冲着刻画现实世界去的。其实在阿里巴巴旗下,已经孵化了一个非常厉害的面向个人的 IoT 设备——天猫精灵。2020年,天猫精灵升级为独立的事业部,由阿里云 IoT 事业部负责人库伟领导,这个意思就已经很明确了。阿里巴巴把有关 IoT 最强的弹药都组合到一起,准备干票大的。>
而且,阿里旗下还有一个“隐形大咖”菜鸟网络。估计很多人都是从前两年家门口的快递柜开始认识它的,但其实菜鸟成立很早,而且掌握着大半个中国的物流数据。菜鸟同样有 IoT 战略,但技术主要是偏向设备本身的数据探针(不是人),不是本文重点。>
同样不可忽视的还有百度。从2019年底到2020年初,百度的股价已经上涨了40%左右。百度早就不是那个在很多人心里只会玩竞价排名的百度了。他们手里有很多惊险刺激的玩意儿。我举两个例子:1)小度音箱就是那个摆在客厅和你对线年,小度的出货量已经上千万台,在阿里巴巴天猫精灵和小米小爱同学的夹缝中杀出一条血路。从本质上来看,小度是下一代搜索的入口。也就是说,随着人工智能技术进步,未来你可以用语音搜索来代替打字搜索。在“搜索”这个探针上,百度是有预判的。但这远不是百度的终极野心。你要知道,小度音箱里面安装的是“小度助手”,而小度助手是智能设备的操作系统,而特定的智能设备是霸占和PC、手机完全不同的物理空间的牛宝体育。例如,一般人现在会把小度音箱放在客厅,还有一些智能冰箱是在厨房,百度还和吉利等很多车厂合作把小度助手装进了汽车里。在特定的场域里,人会产生特定的需求。这个探针,绝对和百度搜索不同。举个例子:电视上不是经常有公益广告,说家人虽然都坐在客厅,但是各自抱着手机么。从本质上来说,并不是人们有多爱手机,而是因为没有适合客厅的内容和活动。只要有人在小度生态上开发一些家庭运动 App 或者家庭游戏应用,这个在过去十几年被抑制的需求一定会爆发。而据我所知,小度的生态有四名万开发者,这件事情正在发生。>
2)自动驾驶自动驾驶是一个比想象中更长的赛道。我其实都没有信心,百度到底能不能把这个马拉松坚持跑完。首先,自动驾驶要克服的技术困难太大,甚至现有的技术路线都不一定走得通。其次,政策风险很大,自动驾驶事故的责任认定,已经涉及到了人类的伦理讨论。但我还是相信,终有一天自动驾驶会突破技术和政策的障碍,无人驾驶汽车布满道路,这将会再造一个道路上的物理互联网。人们在自动驾驶汽车上,注意力被解放,于是这段大脑空闲可以入新的探针。当然,此乃后话。>
人工智能、自动驾驶,一个个词汇看起来很美妙,但是命运馈赠的礼物,早已在暗中标好了价格。我们身上的“探针”越来越多,越来越密,我们的隐私就会越来越少。我们的隐私越来越少,我们和母体作为一个整体的力量就越来越大。注意!注意!注意!这里所说的隐私变少,并不是人和人之间的隐私变少,而是人和机器之间的隐私变少。从目前的技术发展方向来看,每个人只是对母体单向透明,人类之间并不会分享隐私。人和人就像小狗见面一样,只是相互嗅嗅,一起玩耍,然后道别。每只狗狗只对自己的主人敞开一切。大数据让你只把自己最隐秘的一面透漏给么的感情的机器。这样,人类仍然是以前的那个人类,道德没有被颠覆。当然,窥私欲是人的天性。虽然初衷是只给机器看数据,但总会有人类试图进入机器,盗走价值巨大的他人隐私。所以在未来,数据安全就会成为一个巨大的产业。据我所知,巨头们的安全部门,目前全都把“数据安全”作为头等大事。但是不管怎么说,刚才所讨论的数据都逃脱不掉一个天然的道德困境,那就是:你大公司拿我的数据,从我身上攫取了利益。(虽然谁都知道,没有利益就不可能有商业的繁荣。)数据天生带有原罪。真的是这样吗?恐怕不完全是。有时候大多数人会心甘情愿千里送数据给大公司——如果数据可以换来健康。>
人的内脏就像是不喜欢给CEO添麻烦的部门经理。只要脏器没有抛锚,一般是不会把问题呈报给神经系统和大脑的。这也是为什么人只有通过体检才能发现很多早期疾病。从另一个角度理解,人的大脑在脏器里是没有“探针”的,也就拿不到它们的实时工作数据。人没有进化出来这个功能,科技可以帮你啊!举个例子(医学数据可能不准确,只是为了让你方便理解):判断一个人存在“心律不齐”,大概需要在15秒的时间内,连续发生2-3个特定异常的心博。然而这15秒却可能发生在一天的任何时候。医生不可能整天陪在你身边盯着你的数据。这个时候,就需要一个仪器实时收集你的心跳数据,然后通过人工智能的算法,找到符合条件的异常心博,然后把这一段生成报告给医生寻求诊断。>
腾讯在很早就成立了用人工智能帮医生看片子,寻找癌症病变的“觅影”大数据,也成立了 AI 医疗团队,专门负责用 AI 和数据帮助医生做诊疗,也和医疗器械公司合作,输出疾病判断的AI能力。>
马云更是提出了两个“H”的战略,其中一个 H 就是健康。阿里健康也是在港股独立上市的公司。百度曾经一度因为战略收缩而裁撤了医疗部门,却从未放弃对于医疗公司的投资,最近一年又加快了在医疗器械和 AI 医疗的布局。由于涉及国计民生,医疗是一个半垄断领域,互联网公司的进入举步维艰。但是不可否认,病人们对数据智能有着刚需,而拥有数据权柄的公司,又屈指可数。数据不托付给 BAT,又能托付给谁呢?和医疗相类似,保险同样可以利用足够多的数据探针,对一个人了如指掌。这样,可以做到同一个保险对不同的人收取不同保额,千人千面。例如:你的汽车告诉保险公司你的驾驶风格彪悍,保费就提高;你的起步很平顺,交通违章少,保费就降低。蚂蚁金服的相互宝,腾讯的微保,背后的杀手锏都是“数据”二字。于是,我们终于走到了这个很有趣的道德困境:隐私到底值多少钱?隐私能当饭吃吗?如果说放弃隐私可以换来整个社会的生产力,你会矫情地考虑考虑;那么如果放弃隐私可以救自己和他人的生命,你依然会拒绝吗?放弃隐私的诱惑有很多,总有一款适合你。让你沦陷的,有可能是大数据医疗,有可能是大数据保险,有可能是金钱, 有可能是性,有可能是孤独,有可能是陪伴,有可能是快乐,也有可能是恐惧。>
只要探针足够多,计算力足够强,在任何时候,母体都能告诉你什么是对,什么是错。你可以听,也可以不听,但你最好听,因为你可怜大脑的思维能力在大数据面前就是个渣渣。就像你的狗狗飞奔向巧克力的时候,你一把拉住:“不,你不能。”有人说数据善良,有人说数据邪恶。但有一点无可辩驳:人类的生命有限,但数据或许永恒。前两天,我看到了一个新闻,一位韩国的妈妈,依靠数据在虚拟现实世界里重现了她已经过世的七岁女儿。>
本来我想结束在这里,但我突然想到另一个故事,一个真实的故事,一个很多人都听过,却一直让我难忘的故事。四岁的时候,男孩的爸爸给他买了 Xbox 游戏机。他们每天都在快乐地玩游戏,时光飞逝。直到六岁的时候,爸爸突然去世了。悲伤的他整整十年都没有再碰那个游戏手柄。直到有一天,他偶然翻出了游戏机,决定打开再玩一次最爱跟爸爸玩的赛车游戏 Rally Sports Challenge。游戏开始时,他竟然看到了一台“鬼车”从他身边超过,他恍然大悟,这是游戏的一个设定——最快圈速的纪录数据会成为一个“虚像”一直跑在赛道上。那是由爸爸创造的最快纪录,每一次拐弯,每一次油门刹车,都是爸爸亲手创造的。少年一直玩,一直玩。就像爸爸又回到身边和自己比赛。直到有一天,他玩得太熟练了,终于超越了爸爸的车。在终点线前,他突然意识到什么,猛踩刹车,再不向前。他等着,等父亲的“鬼车”从他身边超过,泪流满面。>