登陆注册
5253900000004

第4章 大数据如此重要,引无数英雄竞折腰(1)

在这个一秒钟就可能江山易主的大数据时代,获得最真实可靠的数据并进行准确的分析和预测是企业占得先机的重要条件。如何在数据上展开角力成为企业生存的核心问题,只有企业对大数据的“外貌”和“内涵”有详尽的了解和把握,企业才有可能在未来的发展中分得一杯羹。

多样的非结构性数据

在电影《黑客帝国》当中,主人公尼奥在服下了蓝色药丸之后,就发现所有在他身边的一切其实都是数字化的幻想而已,他的工作、伙伴、住的高楼,看到的天空大地,甚至于他的情绪都不例外。电影的创作自然可以天马行空,真实的物理世界尽管不是如此,但不可否认的是它也在朝着数字化的方向高速前进。

像是高楼大厦,在动工之前就会形成一个涵盖了设计、施工、维护等多方面的综合建筑信息模型,它所使用的就是三维建模技术。在消费者看来,人们绝对会因为建筑信息模型的美观大方而自掏腰包购买效果图;在地产商看来,建筑信息模型所透露出来的信息便是他们需要为整个过程投入多少;在设计师看来,整个模型清清楚楚地呈现了所有设计的综合,他们能够在当中调整管线走向和通风设计等等;在工人看来,模型就是他们的施工图;在消防部门看来,即便是尚未完工的建筑也可以通过模型来评估它的消防效果,并模拟人群疏散的动态情形。总之,这建筑的方方面面实际上都已经数字化了。

日常生活中人们所接触到的文件、照片、视频,还有海量的数据,都有大量的信息蕴含其中。此类数据的特点是共同的,尽管它们的大小、内容、格式和用途并不相通。拿最为常见的WORD文档举例就会发现,最为简单的文档可能就只有几行字而已,但是一旦插进了图片、音乐等多媒体内容就可以成为一个多媒体的文件,文章的感染力就会增强。这一类数据就是非结构性数据。

结构性数据与之相对应,在结构性数据中人们对于表格中的数据可以简单解释,因为结构都是相通的。每个人每个月所领到的工资条,工资条的结构就没有变化过,变化的只是里面的工资和个税、保险。个人的工资条排列在一起就形成了工资表。结构化数据的计算机处理技术已经成熟了,会计和审计可以很有效地利用Excel工具来进行加减乘除、汇总和统计等一类的任务。要是有大量运算存在的话,商业数据库就会使用上,它们的任务就是存储和处理这些结构性数据。

可是,日常生活中无论是企业数据还是日常数据,大部分都是非结构性的。有咨询机构调查显示非结构性的数据占到了整个企业数据量的80%,还有调查显示高达95%,这个数据暂时还没有权威、准确的统计。信息产业这么多年一直在努力的方向就是让非结构性的数据能和结构性数据一样获得便利、快捷的处理。可是他们总在走弯路,一开始人们希望用处理结构性数据的方式来处理非结构性数据。只是非结构性数据个体之间的差异太大,用统一的处理模式来硬套的话,结果显然是不会太好。因此人们有很长一段时间认为非结构性数据的处理难度很大。

幸运的是谷歌公司成了大数据处理技术的先驱,它为公众提供搜索服务的同时,把大量网页、文档等数据的快速访问难题也解决了。雅虎公司也有一个研发小组,在谷歌技术的基础上成功地开发了一整套处理大数据的程序框架,这就是大众所熟知的Hadoop。目前这个领域的技术发展很是快速。

以上这些公司的技术研发,让不少人在面对非结构性数据的处理问题上重新找回了自信,因此高清图像、视频等处理技术都进入了快速发展的时期。

社交网络上人们情绪表达方式也日渐丰富,企业为人们开发了众多表达心情的标准化图示,用以表达人们的各种复杂的情绪。

大数据的价值发掘

我们来说说银行、地铁中那些敏感部门或是地点的视频监控,凡摄像头的运转均为24小时,它势必会产生大量的视频数据。通常情况下的视频数据是枯燥乏味的,人们不会关心。但是一旦拍到了图谋不轨的行为,那么对于公安人员来说这视频就非常有价值了。可是事先人们不会知道哪一个部分有用,因此所有的视频材料都要保存下来,即便是存了一年的数据哪怕只有一帧对破案有用也是有价值的视频。不过对于研究人类行为的社会学家来说,这些视频都是非常珍贵的第一手材料,因为从中能发现人类的行为模式特点。

人们如今要获得医疗数据并非难事,手腕上的一块和电子表颇为类似的仪器就可以随时随地测量脉搏、体温和血压等等数据,再不断地将其传回医疗中心。数据除了能帮助人们检测自己的健康情况外,医疗保险公司也很是青睐这技术。保险公司的精算师依照这些数据的特点来研发新的保险产品,对他们现有的产品组合也是非常有帮助的。

上述的种种事例说明了:1.数据的价值是无可限量的;2.当然这价值犹如沙滩中的黄金一般需要挖掘;3.组合数据的价值要比单一种类的数据价值高得多。

在研究各行各业的数据应用中,会发现即使手中有一座如此大的宝藏,但挖掘工作仍是非常困难的,原因正是由于自身的数据中所蕴含的重生之道还不为人所知。互联网公司是最早意识到数据价值的公司,因此它们总在研究和分析领域领先。不过大数据的专利不再是属于大公司,它需要的是看待世界、产业的观念和视角。大公司通过它来合纵连横,扩张跨界,小公司也可以细水长流。关键问题在于如何看待大数据。

究竟多快才是快呢?

显然是小于1秒,就在分秒之间的客户体验。

传统数据应用和大数据应用之间的重要区别就在于此。十几年间,无论是电信还是金融行业都在经历着一场核心应用系统从分散到总部统一的过程。集中大量数据之后,所产生的第一个问题就是各类报表形成的时间延长了。业界在很长时间内都在质疑能否从海量增加的数据中快速地提取信息。

在这个领域,谷歌公司的贡献是有开创性的。谷歌的搜索引擎就仿佛在向信息业界宣布,全世界我那工业的搜索可以在1秒内完成,并得到所要得到的结果。大数据应用领域谷歌成了一个标杆。要是有超过1秒钟的数据应用的话,用户就会有不良的体验。下面举个营销方面的例子。

人们在购买越是昂贵的东西时就越是犹豫,会反复去掂量自己的购买能力。购买价格便宜的东西就越容易呈现出冲动购买的特征。根据消费者的购买特点,京东商城将其分为了四种类型,其中37%是冲动购买者。对于这类购物者来说,能够在冲动的一瞬间为其送上最为精准的商品信息,是商品销售中的关键因素。幸运的是,关于这一点,社交平台的出现,为调查人们的偏好和兴趣提供了一个极好的平台,也让大数据时代这种精准的营销成了可能。

股票市场的交易主要是高频交易,要比他人快0.02秒才能有惊人的收益。为了能比他人快20毫秒,有人特地建了一条横跨西海岸到东海岸的光纤,还有人索性就留在了纽交所所在的街区。由毫秒时间差所造成的商业机会,此后会因为大数据的普及而出现在众多行业当中。

很多以应急反应为主的新兴产业很注重时效性。他们如果了解到某工厂有了事故,就会在第一时间做出判断,评估影响范围,到达现场并展开处置。

互联网投资创业现在的热点领域是O2O。经过商家门口的消费者如果能即时收到商家的促销信息,无疑是最为美好的服务。此时的促销消息若是消费者正好需要的商品或是服务,人人都能从中获益。消费者节省了时间,商家商品得到销售,服务商也获得了佣金。如果所提供的促销信息非准确时间获得的,那就会演变成为最为恼人的垃圾信息。谁都不愿意在任何时间任何地方收到垃圾信息,而这两种信息的差别常常只是几秒钟的差异而已。

数据的活性越高就有越大的价值。曾经有一家公司提供了数据样本希望有人能帮他们来评估一下潜在的商业价值。数据量很大,更新频率也很高。这样的数据并非不常见,很多支付公司所收集到的交费记录常常都是如此。

数据的活性实际上就是数据的更新频率,更新频率越高的数据就有越大的活性,反之亦然。通常来说,数据集中的活性越大,就有越丰富的信息在其中。因此在大数据领域要有所成就的话,就要想办法去提高数据的活性。

对于公司的投资价值的判定,人们常常会听到这样的观点,公司是否拥有成规模和有活性的数据。之所以多样化和快速等特征不被提及,就因为人们更容易记住这一点。

大数据的结构化、非结构化、半结构化及多结构化

阅读大数据有关文章时,很多类似数据如何被结构化、非结构化、半结构化、多结构化的概念讨论会出现。通常大数据都是非结构性的,而传统数据是结构性的。只不过二者之间的差异并非绝对清晰。

应该说,大多数传统数据都是结构性的。这说明传统数据具有明确的、预先规范好的细节的格式等特点。任何一个时候出现的新数据都是以这样的模式呈现的。对股票交易来说,交易信息的第一部分格式就是月份/日期/年份等时间信息,然后就是12位的账户数字,接下来是3-5位字母所表示的股票代码。信息的格式事先就已经定好了,再由规范好的格式和顺序给出,这样的话处理起来就比较简单。

人们在面对非结构性的数据时,常常是没有控制权的,能做的就是接收它们。像是文本数据、视频数据、音频数据等等都是这样。图像是独立像素用特定的方式组合起来的,只不过组合的方式是千变万化的。完全非结构性的数据就是如此。事实上大多数的大数据应该算是半结构化的。

半结构性的数据还是具备可理解的逻辑流程和格式,只是这些格式并非对用户都表现出了友好的姿态。半结构性的数据从某种程度上也可以被称作是多结构性的数据。此类数据,大量无价值的数据包裹着有价值的数据。相同情况下,理解和分析半结构性的数据难度要大很多。因此要用一套复杂的规则来理解半结构性的数据,只有在读了每一条信息之后才能动态地决定处理方法。

半结构性数据中最典型的就是网络日志。人们看到网络日志时,会觉得很丑陋,事实上它们中的每一条信息都有特定的价值。

非结构性的大数据源并不常见,反倒是大量的半结构性数据和多结构性数据比较常见。它们拥有可理解的逻辑流程,从中能提取出能用于分析的信息。只不过要驾驭半结构化的数据,必须有时间的保障,这才是处理它们的最佳方式。

网络日志的信息是有逻辑的,尽管很多时候很难看出来。日志中字段和分隔符都是不同的,仿佛是结构性的数据一般,包含了大量的价值。只不过它们彼此间非以固定的方式相联系。不同网站上的网络日志点击所用的时间长短不一。另外,半结构性的数据要理解其内在的逻辑并非不可能的,只不过要花上一段时间才行。

分析专家似乎更怕非结构性数据,半结构性的数据对他们来说,要征服是需要付出努力的,而他们也能够做得到。分析专家首先要把半结构性的数据组织成结构性的,然后再在他们的分析流程中运用。而对于非结构性的数据来说,困难就会大很多。即便是已经征服了半结构性的数据,他们要面对非结构性的数据时还是会感觉是个巨大的挑战。

大数据是扩展性的下一代传统数据

关于大数据的各种言论作为为众人所关注的热点层出不穷,核心还是大数据要如何从根本上变革分析和使用大数据的方法。仔细思考一下,会发现事实并非如此。

关于庞大的大数据和它们的可扩展性已经不是个新鲜的话题。第一次使用新数据源的时候,通常会认定大数据是庞大的且很难使用的。事实上大数据不过是突破了当前极限,更大规模的数据罢了。分析专家对于传统数据源的掌握即便是有瓶颈的,但这也不影响其驾驭大数据源。毕竟分析专家从一开始就非常努力地在探索新数据源,并且将持续下去。

在电信公司中分析电话详单的第一人是谁?当然是分析专家。深入研究零售点销售数据并为此找到价值的第一人又是谁?当然也是分析专家。最初,分析几千个到几万个,甚至几十万个商品的数据被视为是一个巨大的难题。可是现在这一切已经迎刃而解。

最早开始做数据源分析的分析专家处理的数据便是在当时被认定为无法处理的数据。首先他们要做的是找到分析和利用的方法,并且是在当时的条件下。不少人对可行性产生质疑,还有人认为这些数据并非具有价值。

分析专家们正努力在做的事情和他们做事情的理由不会因为大数据而发生改变,即便从一开始很多分析专家会自称为数据科学家,可是他们的目标还是一致的。待解决的很多问题都涉及了大数据,这跟从前差别不大。最后分析专家和数据科学家们还是会去探索一直以来探索的事情的,并从中发现一些有价值的趋势和模式。必须强调的一点是,尽管大数据听起来很陌生,可是它所带来的挑战却无须畏惧。

不论从什么方面来说,大数据所产生的问题一定是从前出现过的。在数据分析领域,永恒的主题就是驾驭新的、可扩展性极限的大数据源。大数据不过是下一代的这种数据罢了。处理此类情况,分析师已经很是熟悉了。只要是有驾驭过其他数据经验的企业,大数据也同样可以驾驭。

分析专家的工作策略有一部分会因为大数据而改变。他们常常将新的工具、方法、技术和传统分析工具相结合,目的是为了有效地处理大数据流。要从中提取最有效的信息,复杂的过滤算法是十分必要的。当然也要更新建模和预测程序,大量的数据要输入添加到现有的输入当中去。

从根本上来说,分析的目标和流程并不因工作策略的改变而改变。大数据催生的是创新性的分析方法,分析专家也必须在继续扩展性的瓶颈下革新。可是必须承认的是,分析专家在处理大数据和以往数据时的方式差异不大。

是什么构成了大数据价值链?

依照所提供价值的来源(数据本身、技能和思维)不同,大数据公司可以分为三类。

同类推荐
  • 小型局域网组建与维护

    小型局域网组建与维护

    本书以组建和维护小型局域网为主线,面向实际工程应用,按照项目化课程模式的要求组织编排。全书共分8个项目,主要包括认识计算机网络一概述、绘制小型网络拓扑图、连接网络一传输介质、连接网络一联网设备、认识计算机网络一网络协议、连接网络一网络寻址、组建小型交换网络——配置交换机、连接互联网——配置宽带路由器。每个项目都有明确的工作目标、工作任务、实现过程和知识点分析,力求集教、学、做于一体,从而更好地激发学生的学习兴趣,培养学生的动手能力。
  • 中国3D打印的未来

    中国3D打印的未来

    自2012年以来,有关3D打印的报道屡见报端,这一新型制造技术引起了全世界的广泛关注。《中国3D打印的未来》作者、中国3D打印技术产业联盟秘书长罗军认为,中国从20世纪90年代初开始涉足3D打印技术,并取得了巨大进展,但与国外同行相比仍存在一定差距。特别是中国3D打印企业普遍存在“小而散”、各自为政的现象,如何发挥整合优势、抱团发展是目前亟需解决的问题。如果能够加强同行合作,抱团发展,形成合力,相信3D打印会成为唯一一项中国有可能赶超世界先进水平的技术。
  • 悟道:一位IT高管20年的职场心经

    悟道:一位IT高管20年的职场心经

    本书是一位有20多年职场经验的IT企业高管撰写的一系列有关职场悟道的短文集成,讲述的是在企业里如何修炼自己,如何摆平自己的心态,怎样做到“世事洞明”和“人情练达”,如何“搞定老板”,怎样做到工作和生活平衡等诸多话题,涉及到跳槽、转行、升迁、环境、沟通、老板、下属、老外等等。每一篇都以作者的亲身经历或者身边的故事说明道理,语言简洁流畅,妙趣横生,更有不少经典片段和发人深省的职场警句,读起来就像是一个睿智幽默的老朋友坐在你面前娓娓道来。
  • 条形码技术与应用

    条形码技术与应用

    条形码是一种可供电子仪器自动识别的标准符号,是由一组黑白相间、粗细不同的条、空符号按一定编码规则排列组成的标记,用以表示一定的信息,确认某个物体或规定它的移动,能正确快速地为产、供、销各环节在采集、处理和交换信息时提供标识。
热门推荐
  • 鉴诫录

    鉴诫录

    本书为公版书,为不受著作权法限制的作家、艺术家及其它人士发布的作品,供广大读者阅读交流。
  • 逆天神魔之凡人修仙

    逆天神魔之凡人修仙

    成神,化魔,仅在一念之间!我若成神,必屠尽天下之魔;我若入魔,神又能耐我何!踏着无尽天骄之尸骨,成就无上之荣耀!吾为神魔,神亦可屠,魔亦可弑!
  • 盼倪青丝白发

    盼倪青丝白发

    她用一头青丝换与君相遇三生。她用一头白发换与君一世陌路。……此生,她想保护的只有一个人想爱的也只有一个人罢了!……我生他生我死他死你与他此生终牵制着我
  • 梨花未落向晚亭

    梨花未落向晚亭

    若梨的第一个男人是他爹,爱她护她,却守不住她第二个男人是她哥,此生最大的心愿是让她成为窈窕淑女,最大的爱好是逼她减肥第三个男人是她竹马,等她护她守她,她却伤他至深第四个男人是她初恋,利用她,疼她,无视她这是以若梨的视角看的,其实事情是这样的:于她爹:你能不能不闯祸了?就算你未来丈夫是世子,我们也要低调于她哥:说好的一天只吃正餐,合着你一天的正常是六餐?于她竹马:你飞,你倒是飞得出我的手掌心再说话,你疯我陪你,你玩我陪你,你要嫁人,我陪你,嗯嗯,就这么愉快滴决定了于她初恋:你真不是什么省油的灯,我还是不点了
  • 废材四小姐不好惹邪王免费送

    废材四小姐不好惹邪王免费送

    古代杀手穿越到古代零天赋的四小姐家,金手指全开什么四大神兽,跪求来契约,什么神器,抬手就送,没灵力?不好意思,灵力球给爆了.啥?太子后悔了,来求婚?不好意思,有个妖孽美男,正对她一见钟情呢!"夫君我重、要吗?"某女邪恶一笑."再重也得要啊!"某君扑来.可谓自作孽不可活,某女三天下不了床.
  • 凶灵宝藏

    凶灵宝藏

    凶灵行孽,是谁的狂妄;秉剑除魔,是谁的衷肠;破灵寻宝,是谁的贪念;拭泪阖目,是谁的心伤。是谁的刀剑绽放寒意,是谁的法力挥洒飞扬,是谁的咆哮祭奠忠正,是谁的眼泪播撒情殇。是人是魔,是正是恶,都来这混沌的俗世中喧闹一场!感谢阅文书评团提供书评支持。
  • 末日丧尸求生之路

    末日丧尸求生之路

    末日来临,丧尸危机,幸存者为了踏上求生之路,不惜抛弃年老的父母,在末世中,可怕的究竟是丧尸还是道德沦丧的人性,没有狗血的桥段,没有无敌的异能,看一个普普通通的高中生如何在末日求生之路中成长。
  • 世界最强的男人

    世界最强的男人

    当年无限风光...如今只能在修车场里给人打下手...但他心未死...一直想找到一个机会..这次回到那个充满尊严的舞台.....
  • 我们都曾亏欠爱情

    我们都曾亏欠爱情

    一个爱她爱得那么深的青梅竹马,一个只能仰望她、远远喜欢她的贫穷少年,那个拿着她家钥匙,打开房门的神秘人……那一夜之后她的生活发生了改变。很多很多年后,她才明白,很多事情是没有假如也没有答案的。当年那么在意的事情,现在却感觉可爱得想笑。当年那么回避憎恨的事件,掀开时光的面纱后心底却隐隐作痛。一切的原因只在于内心的种子最终开出的花朵。跌跌撞撞的成长,又美又疼才是本质。即使个人的生命终将归于虚无,生的意义还是由每个人自己决定的。 即使人类无法从上帝那里获得仁爱与公正,人类还是要为自己去选择合理的目标。
  • 星际幻想之呼哧星球

    星际幻想之呼哧星球

    呼哧星球——五百年前它没有名字,它的主宰是遍布土地百分之九十的绿色植物。五百年前,这里被一群丧尸占领,他们迅速在这里安家落户,并取名为《呼哧》。直至现在,这里已经成了一座属于丧尸的城池。五百年的时间,呼哧星球从毫无生息的植物王国进化成了其乐融融的动植物合居地。而带领着他们的就是隐夜,人们亲切的称她为祖王。