登陆注册
10750300000004

第4章 数据的收集管理和使用(1)

收集数据不是最要紧的

大数据时代,不管你用与不用,数据就零零碎碎地散在那里。但是,要想使用大数据,首先要做的是收集大量数据,但收集数据并非仅是把收集过来的数据放到硬盘里面那么简单,更重要的是对数据进行分类、存放及管理。不然就如同一个储藏很多物品的储藏室——放东西进去的时候很轻松,但是要知道哪些东西有用,或者拿出有用的东西的时候就不那么简单了,甚至可能再也找不到。对于数据的认知,完全取决于我们是否拥有认知自己所拥有数据的能力,是否能够筛选出到底什么是核心数据,到底什么数据会被我们频繁地使用。这就要我们学会如何去收集数据。

无论我们承认与否,在大数据时代,我们周围到处都充斥着零零碎碎的数据。为此,我们很容易在海量的数据之中迷失。

我们盲目地进行大数据投资,收集越来越多的数据。但是,令人沮丧的是,这些数据却是“死”数据。那么,什么是死数据呢?

“死”数据就是单纯存储在教据库中,无法进行分析和使用,并且不能够产生价值的数据。

“死”数据不是真死,可以将其激活。那么,如何激活这些“死”数据,让整个大数据“活”起来,并成为实践中的牵引力呢?答案就是:收集是第一步,收集后通过甄别,选出有用的数据,将它用起来。

数据的价值在于使用,不是存储。就像储藏室里的物品,假如你不会将其中有用的东西拣拾出来使用,你储藏的东西再多也是没有价值的。所以,我们在储藏物品的时候,一是要储藏有使用价值的物品,二是要将其拿出来使用。于是,如何收集物品就成了一门学问。数据的收集和物品的收集有异曲同工之妙。

人们发现,大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入自循环中,并应用于各个行业。什么是数据的自循环呢?

举个最简单的例子来说,现在的很多网站都有推荐功能,很多推荐出来的东西,不论是音乐、视频,还是商品,都可以让用户来选择“喜欢”或者“不喜欢”,这样一来,企业就可以通过用户的选择基于计算机后台的算法为用户重新推荐,这就变成了一个循环——从基于已有的数据进行“分析—推荐—反馈—再推荐”的过程。当然,自循环还远不止这样一种形式。多样的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。在数据的自循环中,有两个核心的关键点:一个是“活”做数据收集,另一个是“活”看数据指标。

比如,多年来,很多企业因无法建立数据收集的循环,致使其运营数据更多地建立在直觉的判断和分析基础之上。当面对周围海量的消费者数据时,充满了危机的大数据更难为企业的运作提供清晰的思路。对数据无从下手成为企业面临大数据时代的核心短板。这时,如果没有找出相关的关键解决方法,企业就会在由海量数据构成的新兴市场中错失发展的良机。

“活”做数据收集

所谓“活”做数据收集,就是指用户不要局限于只收集自己用户产生的数据,还要把“别人”的数据收集过来进行综合分析。

前面提到过,数据收集,一方面是“自己用”——用其他外面的数据来增加自己手上数据的精准度,为我所用;而另一方面是“给别人用”——把我的数据贡献给很需要我的数据的人,从而提高他的数据的精准度。

在很多年前,亚马逊就主动去收集用户的IP地址,然后从IP地址破译出用户所处位置的附近多少公里内是否有书店。工作人员从收集到的数据中了解到,一个人是否选择在网上买书,很重要的原因是他的附近有没有书店。亚马逊主动收集数据,即通过收集一个外部数据,来帮助自身判断线下是否存在潜在的竞争对手。

京东也是这样。他们收集客户浏览商品的数据,然后将相关产品推荐给客户。一个企业在做数据收集的时候,并不总是能够直接收集到所需要的关键数据,这时候就需要变通一下了。

柯友强在一个外贸B2B平台工作,柯友强能很快找出新品种的趋势,但很多人不知道他是如何做到的,柯友强也没有对任何人说过自己的招数,有的人甚至以为在柯友强背后有高手相助。

多年以后,柯友强才向他的同事倒出自己的秘密。他发现新的品项,是通过追踪美国垂直行业电商的广告关键词变化来实现的。

由于中国的生产商跟美国消费者的距离很远,如何才能收集到美国消费者的数据?一般来说,是不可能的。有一批厂家是从中国海关购买数据,但是海关的数据是滞后的,无法让企业及时获取行业的发展趋势。不过,奥妙就在美国采购关键词的那些经理手上,而这个数据是可以从国外网站搜索到的,于是答案就这样到了柯友强的手上。

在欧美,这些搜索引擎营销(SEM)专家会为公司设计购买关键词的方案,而柯友强就主要关注这些人的数据,看他们换了什么关键词,以了解欧美的商品发展趋势。这样,柯友强就可以很快知道欧美现在流行什么样的东西,而这就是利用外部数据来帮助自己做决策的方法。

柯友强说,以日用化妆品为例,先是观察在欧美做得最好的几家化妆品类网站买入了什么关键词、变换了什么关键词、有什么关键词是常态的,以及有什么关键词是在季节更迭的时候才买入的。

在观察到这些关键词之后,柯友强放到谷歌中去观察关键词的增长趋势,去eBay看看这一款化妆品有没有交易及价格的变化。在知道eBay有交易之后,柯友强再放到国内电商平台中搜索这个产品。如果没有出现相应的搜索结果,就意味着这可能是一个良机。

所以说,做大数据收集,有时候需要更多的灵活变通。亚马逊的案例的确经典,不知道京东是不是借鉴了他们的做法,因为他们都找到了消费者购买决策链条中的一个关键点;而B2B寻找关键词的重点在于如何观察第三者数据。每个人都知道在收集消费者数据时最好是观察直接用户。但如果没有这个数据,你需要观察什么数据?答案就是,去观察行业内对这个数据最敏感的那些人,你也能获得成功的密码。

生活中其实也有这样的例子,李嘉诚说,如果你想知道香港的某家酒楼生意好不好,你问问门口卖报纸的人就知道了——香港人喜欢去喝茶的时候买一份报纸。其实,这个规律不是李嘉诚观察到的,而是香港税务局发现的。香港税务局如果担心酒楼对营业额虚报的话,就可以通过直接去查卖报纸的商家卖了多少份报纸来判断,这是一个非常有趣却很实际的灵活收集用户数据的案例。

“活”做数据收集,就是要跳出既定思维的框架,从相关联的行业和业务中去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。而“活”做数据收集的一大好处,就是能够规避现有数据框架的弊端,更好地反映用户的实际需求和市场的实际情况。

“活”看数据指标

“活”看数据指标就是指企业不要局限于已有的数据框架,而应该结合用户需求的不同场景来灵活应用收集到的“活”数据。我们不仅要灵活地收集数据,而且还要注意到,数据收集只是第一步,如果不让数据“活”起来,仅仅是把收集的数据简单堆砌在一起,是没有意义的。

举个例子说,我们在京东购买商品的时候,或在某个网站注册时,他们会要求用户填写自己的性别。假如一个人填写的性别是男性,但分析这个人的购买行为时发现,很多时候他的账户在告诉网站,这些商品的目标客户并不是他自己,因为这个人也会为他的妻子和父母买东西。

当收集到的这些数据不能为企业所用时,企业就永远不知道关于这个人的这个数据原来是不准确的。这些数据好像是准确地描述了这个人的性别,但是却不能很准确地描述这个人的搜索和购物行为,因为他可能会为他的老婆买一包卫生巾或一套化妆品。

在梳理阿里巴巴的数据时,阿里巴巴会有18个性别标签。听上去这很不可思议。你肯定会想,阿里巴巴是不是疯了,为什么凭空造出了这么多的性别?

事实上,每一个性别表现都并非看上去那么简单,因为它的分类是基于用户在不同场景中不同表现而做出的。这就揭示了一个问题,我们每个人都不会只呈现出简单的一面,比如在安静时和在人前时,我们就会表现出不一样的自我。不同的性别标签其实就是应用了这一原理:同样的人在搜索商品时可能会表现出不一样的行为特点,而这些不一样的行为就是我所说的场景,结合场景应用数据就是“活”用数据。其实,有多少个性别标签并不重要,重要的是如何让用户在不同的场景中获得更好的服务,而这都是基于这些“活”数据。

亚马逊一直在自己的商业活动中应用这个理论。一直以来,亚马逊就是使用动态数据模型:用“历史的你”去推测“现在的你”。所以,它相信今天登录网站的你有什么需要与兴趣,比起历史的“你”来说更重要。

“活”用数据,就是你是否能看出这个数据本身的局限是什么。一方面,是数据为用户体验改善了什么;另一方面,企业在使用数据时,对活数据的运用解决了什么问题,或者创造了什么机会。要牢牢记住,活用数据很重要。

“活”的数据是“活”用数据的精髓所在。企业能够基于场景和相关的“活”数据将数据应用发挥出最大的价值,那么新的商业模式的开创也就会在不远的将来成为可能。

数据的存放和管理

为什么要收集数据?当谈到如何更好地解决这些问题时,我们想到了运用数据可能是有效的,所以我们开始收集数据、管理数据和使用数据。

就拿电子商务的数据收集为例,比如母婴类目,很多电商通过填写宝宝的年龄或者购买的特定品类等来推算出宝宝最新的一个年龄阶段;在汽车类目上,电商会通过客户购买的机油、滤清器等型号来推算出客户是否有汽车以及车型;甚至是衣服也可以用来作为数据收集使用的场景,比如从一个用户购买衣服的历史尺码来观察用户是否有身材上的变化。

所以,就数据的收集而言,最重要的不是看我们收集了什么数据,而是要思考这些数据如何使用以及收集这些数据到底能够起到什么样的作用。用一句话来说,就是收集数据不是目的,收集起来的数据如何产生价值才是最终的目标。不过,如何收集在未来具有价值的数据的确是一个难题,当中就需要一些经验的判断了。

数据存储下来之后,数量和广度都很大,就需要对之进行完善的管理。数据管理的内容包括很多方面,比如,数据的来源、如何让数据不丢失、如何保护数据的安全、如何让数据准确和稳定以及如何更好地运用数据,这些都是数据运营中的“管”。但是,“管”并没有一个标准可循。大数据管理到底要怎么做?目前还没有准确答案。

其实,对于数据的管理,整个大数据行业和其他行业一样都经历过很多起起落落。就数据而言,在2004年左右,美国的一些数据管理经验在国内造成了很大的轰动,很多公司纷纷建立BI团队。但是到了2009年左右,各公司又开始不完全认同BI数据部门。但也正是在那个时候,国内顶尖互联网公司的数据化运营开始启动。

有些公司的数据管理非常依赖数据产品,希望用数据产品来解决获取及使用数据的问题。他们认为“不管怎么样,我们先收集数据,将来肯定有用”。其实这是不妥的,因为没有一家数据运营商可以让你无止境地收集数据,然后再使用,这根本是不现实的。

而这就是“不做决定的代价”。因为,在这个世界上,有一些决定是我们一定要做的。从运营数据的角度来说,如果我们只收集数据而不做分析和应用的话,代价就是很沉重的存储成本。

无须多言,这种存储成本的代价是巨大的。即便是一家富有的公司,即便是它的机器比较多,也只能短时间地延续这种损失。因为不管你有多少机器,这些数据都在呈指数式增长,当提到怎么备份时,问题就出来了。

你肯定会问,在这种情况下如何备份?此时,你就要决定,什么东西需要先备份,什么东西可以先放在“冷库”里。“冷库”的意思是一些成本比较低的服务器,但是放在“冷库”中的数据不能随时使用,需要调出来才可以使用。

针对这种情况,有人说,我们仅把3年前的数据都放进去吧,够吗?答案就是:还是太多了。有人说,那我们可以把一年半以前的数据都放进去吧?不行,因为用数据观察业务发展趋势的分析师一般都要看3年的数据,所以这种做法也不现实。

在面对“决定放什么数据进‘冷库’”,和“决定什么数据在紧急情况下一定要保护”的问题时,你就会发现以前我们所讲的观点——数据先收集起来,将来再使用,完全是一个伪命题。

之前从来没有人对这个伪命题表示过异议,无论银行,还是金融机构,甚至以前的互联网公司。而当大数据出来后,这个观点就成为了一个借口、一个伪命题。这是一个很难下的决定,但这就是你必须要做的决定。如果,你在以后发现你需要的数据,的确没有得到提前保存的话,那就只能错失这一发展机会了。事实上,这是企业的博弈。

或许有人会问,一家企业并不需要从事所有的商业,为什么所有的数据都要收集呢?事实就是这样,这是数据人在管理上的不负责任,平心而论,这个责任也非常难承担。

同类推荐
  • 实用经济法

    实用经济法

    本书将经济法管理领域中涉及的法律知识,设计成项目形式,具体有:指出经济法律关系的构成要素;设计投资备选方案;制定有限责任公司章程等内容。
  • 迷航

    迷航

    本书是全球航空运输业公认的一部管理“圣经”。全世界多家航空院校将其作为必修教材,还有很多院校将其列为课外参考读物,其在业界的影响可见一斑。本书从经济学的角度对航空公司的运营、规划、市场营销进行了深入的剖析,是航空运输专业学生,以及所有与航空运输行业相关的人员的一本难得的参考书。
  • 啤酒江湖:中国啤酒行业的前世今生

    啤酒江湖:中国啤酒行业的前世今生

    本书从一个在啤酒行业工作过长达11年的资深专业人士的角度,对作为中国快速消费品行业中非常具有代表性的啤酒产品的市场发展历史、行业特点,消费者洞察和行为变化,进行了详细深刻却不乏幽默睿智地描写,揭示了目前中国啤酒市场发展的规律,总结了行业中主要品牌公司成败的原因,同时对该行业的未来进行了科学大胆的预测与展望。可以说是中国啤酒行业的一部30年演变历史的高度提炼与总结,对该行业甚至快速消费品行业的利益相关者(消费者、销售渠道成员、公司员工及投资者等)有非常重要的启发作用,在一定程度上也揭示了改革开放阶段中国的市场经营生态与消费者的演变历史,以史为鉴,可以窥探未来,从而可以给人以启迪与思考。
  • 中国入世:体制改革与政策调整

    中国入世:体制改革与政策调整

    本书提出了中国经济结构问题实质上是一个体制问题,并分析了中国入世后,企业所面临的新环境,以及应对全球竞争的策略。
  • 非均衡的中国经济

    非均衡的中国经济

    本书是厉以宁先生的学术代表作,提出了影响深远的“中国经济非均衡理论”,为中国的经济改革提供了理论指南。本书围绕中国经济的非均衡性特征,从政府、企业、市场三者的关系分析了资源配置、产业结构、制度创新和经济波动等问题,深刻揭示了中国经济观和微观运行机制的特点,并探讨了以企业改革为中心,通过改革调整走出困境,实现顺利发展的途径。本书被评为“影响新中国经济建设的10本经济学著作”之一,列入“中国文库?新中国60周年特辑”,并荣获第四届国家图书奖
热门推荐
  • 玄域无双

    玄域无双

    远古时代,有一段缺失的古史,那之后,日与月被分裂在了两片天空,亿万星辰,则不知去向……静如处子动若疯兔的少年,就这么踏进了这个纷繁的大世界,他肯定会变得很强大,但不会是最强的那一个,只不过因为讲的是他的故事,所以他是主角儿。命运的洪流奔腾激荡,于天地浩大之中争斗斡旋,没有多么强势的崛起,因为本就是逆天的存在。
  • 至尊神狱

    至尊神狱

    一个原本高高在上的神狱宗主却中了人家的圈套,残魂觉醒重生到一个不能修炼的废物身上,再世为人,红云决定此生只为报仇。不能正常修炼武功,那么就借鉴魔道心法,学习魔攻版的武功。气海被毁,不能修炼,那就么就用妖修法决来弥补!且看身怀神狱五宗:地狱宗,妖神宗,魔神宗,鬼神宗,邪神宗五宗绝顶法决的红云是如何玩转异世。
  • tfboys之女友追回记

    tfboys之女友追回记

    她们是三个闺蜜,他们是三个兄弟。她(他)们找到了命中注定的人。她们几经波折才有情人终成眷属。
  • 术武

    术武

    “前方的路途很是艰险,你是否还要走下去?”“哼!哪有如何?”陆泽抬起头轻蔑的笑了笑,轻抖右肩,抗在肩上的大剑已被紧握在手上,用力的朝前甩了下,“我手中的剑斩下去,它不就顺畅了。”“吼”一声野兽咆哮的声音从陆泽的的嘴中吼出。术武学徒,十人斩(在这个境界大致于自身可以跟在此境界下的十人进行交战),百人斩,千人斩,万人斩,术武之神,每一界分3个层次如术武小学徒,术武中学徒,术武大学徒,术指的是冰术,火术,土术,黑暗术,木术,血统术,小术(指只有少数人学习的偏门之术,属于弱势术)武指的是武技格斗技巧。
  • 留春

    留春

    这不是一个发生在繁华都市里的青春故事。这里的孩子常年生活在父母在外打工的日子里,他们的天赋在这个条件匮乏的偏远小镇无从挖掘,努力读书是他们唯一的出路。梁若瑜就出生在这样一个北方的小镇里。不管生活在什么样的地方,每个孩子到了情窦初开的年纪都会偷偷喜欢上一个人,他们的故事一样值得你流泪和微笑。梁若瑜的父母常年在外打工,奶奶在家重男轻女。她从小性格敏感,一直想得到别人的注意和关爱,看似大大咧咧骨子里却是一个极其自卑的女生。最好的两个朋友姜晓晓和梁枝都上了县里最好的高中,唯独自己中考落榜,复读时认识了漂亮女生席嘉月以及她的弟弟何嘉木等人。原本没有什么交集的人却因为她而纠缠在一起。
  • 甜妻有毒:总裁老公宠上瘾

    甜妻有毒:总裁老公宠上瘾

    【绝宠文】盛传,夜少的甜妻有毒,风情热辣,是个惹火的尤物。某男人双眼一眯,冷笑,“封了他的嘴,挖了他的眼。”又传,夜少的甜妻男人如麻,约会都要排队。某男人坐不住了,一堆零食摆上桌,循循善诱,“乖,说,是哪个男人?”某女人白了他一眼,只顾吃的欢腾。某男人终于生气了,指天誓日,“池星辰,谁他么再理你谁就是孙子!”三分钟后,浴室门口,某男人哀嚎,“奶奶开门吧……”男女身心干净,双处1v1力荐俏橙完结书:《宠妃上位记:皇上,约么》超甜宠文,坑品保证,求支持。
  • 民工情圣

    民工情圣

    他命运多舛,屡受打击却奋斗不息。他深深地爱恋着一个女子,却得到了众多的女人芳心。他梦想着有一天能够走进最好的高等学府,却不得不辍学走向民工之路。究竟他的命运之船是操控在自己的手里,还是随波逐流?多年以后,他总结道:“所谓成功,就是拥有了把握自己人生航向的力量和智慧!”
  • 怦然婚动,总裁老公很腹黑!

    怦然婚动,总裁老公很腹黑!

    “你还要霸着陆太太这个名分多久?”婆婆携着趾高气昂的小三,来到她面前。“我怀了他的孩子,现在,你这个下不出蛋的母鸡,该退位了吧!”“抱歉,不是我不离婚,是他不想,你可以试着和他谈谈,要不要我借你电话?”
  • 万象天魂

    万象天魂

    一个不修元气的少年,体内被打入冰火两种元气后,开启了逆天的修行之路!稀有的元魂:什么自然系,灵能系,兽系幻兽种,统统猎过来成就无上万象天魂!
  • 豪门星宠:金主总裁扑上瘾

    豪门星宠:金主总裁扑上瘾

    重生成为娱乐圈小新人,前世的影视新星也逃不了潜规则。有个金主貌似也是不错的事情,毕竟财大气粗关键时候还是个万能挡箭牌。原以为在娱乐圈从此可以混的风生水起,谁知金主也是个腹黑货。“头条君,为什么你不理我?”一直没有上头条的小新人抱怨道。”我们结婚吧!“小新人卒,咳咳……这头条她可承受不起。