【决战大数据】读书笔记

最后提到的『闭环论』,正是我一直在追求的,不过高人这么一点拨,感觉豁然开朗。我多么希望两年前能看到这本书,这样我就可以在大把空闲时间的校园里,把 Patriots 提前做出来了。


更新历史

  • 2017.04.25: 完成初稿

大数据时代,用数据找机会,用数据还原真实。从『看』到『用』,从『用』到『养』数据,只有实效的数据才是正道。

数据十诫

  1. 好的问题,答案就在里面
  2. 在实践中提炼数据
  3. 让数据变成科技,惠及更多人
  4. 让数据跟着『人』走
  5. 木有数据质量,神马数据都是浮云
  6. 以『假定数据是可获取的』去思考问题
  7. 大数据安全,不是监管
  8. 利用数据拿到更有用的数据
  9. 建立数据的数据,才有进步
  10. 让人做人擅长做的事,让机器做机器擅长做的事

大数据从来不是免费的午餐。大数据的来源是多种渠道的,偏倚、随机的误差总是存在。

断层才是大数据所面临的最严重的问题。现在,收集数据的人并不清楚未来使用数据的人要做什么,这是目前大数据的一大关键命门。

不只是收集数据的人不知道将来的人怎么使用数据,就连创建模型的人也不知道自己所采用的数据在未来是否稳定,而使用模型的人也不知道整个数据的来路或加工过程。

答案不重要,思考的角度才重要。一套巧妙的数据化思考方式,三分靠想法,七分靠实践,切勿空谈。

大数据的本质就是还原用户的真实需求

识别,让似是而非的行为数据串联起来。企业有多大的能力去识别一个『碎片化了的个人』,将是一个巨大的考验和机会。

从企业价值来看,数据收集实现的是企业资源的合理分配;从客户价值来看,数据收集实现的是顾客体验的提升。

场景与还原并行 —— 前端还原消费者场景,后端还原业务需求。

数据的本质就是还原,这是收集元数据的关键方法。

作为一名数据分析师如果你不把自己的分析与当下结合,是没办法进步的。

『答案不是结果,方法才是』

『活』的数据才是大数据

大数据的真正价值是将数据用于形成主动收集数据的良性循环中,以带动更多的数据进入这个自循环中,并应用于各个行业。

多样的自循环方式打开了大数据之门,而进入这个循环的关键就是,从解决问题出发。

『活』做数据收集,就是要跳出既定思维的框架,从相关联的行业和也物种去收集能够为现在所用的数据,找到能够更好地佐证企业现有业务决策和发展的数据。

去观察行业内对这个数据最敏感的那些人。

把数据激活,从静态数据变成动态数据,必须要用场景来验证,仅仅是把我们收集的数据简单堆砌在一起,是没有意义的。

好的分析师相当于市场解码器

无线数据

无线时代到来之后,一切都发生了变化。原本可以收集用户完整行为数据的网站变得不再可靠,而数据还原用户行为的方式也发生了改变。

保证 PC 和无线两份数据的完整,通过用户体系将两份数据关联起来,就可以在分析的时候用彼此的融合来还原用户的行为。

无线应当是作为一种横向的基础模型穿插于各个垂直的主题模型之中的,如果将无线作为一个独立的模型,在进行用户行为还原和用户分析的时候则会变得很困难。

大数据相信全量数据,而非样本;是分析得出,而不是抽样获得。

数据分类与数据价值,什么才是你的核心数据

从数据角度来说,估值就是通过不同的维度去思考数据的价值。只有基于对数据的分类和对数据价值的不同认识,才能去对数据做筛选。

数据作为一种资产,不同的数据含金量必然不同,自然就会产生不同的价值。而且,就同一组数据而言,在不同的环境下甚至会呈现出不同的价值。

一个好的数据从业者则必须要对各个数据的价值和稳定性洞若观火。

  1. 按照是否可以再生的标准来看,可以分为不可再生数据和可再生数据。对不可再生的数据而言,已有的数据要严格保护,想要但是还没有的数据就要及早收集。对于可再生数据而言,要及早做好业务的预判和数据处理的规划,这样数据在需要的时候就能够快速地获得应用,我们把这一数据叫做数据中间层
  2. 按照数据所处的存储层次来看,可以分为基础层、中间层和应用层。基础层必须统一,因为这是最基本的数据,而且基本数据是原始数据。除了备份的需求外没有必要在各个场合保留多份数据。只要保证这个数据有良好的元数据管理方式,就能极大地降低成本。
  3. 按照数据业务归属来看,可以分为各个数据主体。
  4. 按照是否为隐私来区分,可以分为隐私数据和非隐私数据。拥有大数据的企业高管必须要关注数据安全。

能够辨别关系、身份的数据是最重要的。这些数据应该是有多少存多少,永远不要放弃。在大数据时代,越能够还原用户真实身份和真实行为的数据,就越能够让企业在大数据竞争中保持战略优势。

  • 数据价值 1:识别与串联价值
  • 数据价值 2:描述价值
    • 对于企业来说,描述价值与业务目标的实现并不呈正比关系,应该收集和业务紧密相关的数据
    • 用来描述数据最好的一种方式就是分析数据的框架,即基于对数据的理解,对数据进行分类和有逻辑的展示
  • 数据价值 3:时间价值
  • 数据价值 4:预测价值
  • 数据价值 5:产出数据的价值
    • 很多数据本身并没有特别的含义,但是在几个数据组合在一起的或者对部分数据进行整合之后就产生了新的价值

精细的数据分类,严格的数据生产加工过程,将让我们在使用数据时受益匪浅。

从用数据到养数据

在收集数据时,我们必须知道这些数据未来可以用来做什么,如果今天都想象不出来的话,日后就更不可能了。

数据应用因小而美。『小』不是指数据量,而是指应用的目标很具体。

如何用框架来做决策

想要解决的问题越复杂,框架也就越复杂。但是,决策最重要的前提是要从小角度切入,从『小』做起。这里有一个四步走的方法:

  1. 首先确定有什么问题,从解决问题的角度出发去收集数据
  2. 把收集到的数据整理好,放入一个『数据框架』内。让决策者用框架更清楚地看到数据与决策之间的关系
  3. 看框架与做决策的关系
  4. 根据决策行动,然后检查行动是否达到目的(如果没有,则需要优化整个流程)

养数据,重要的数据战略

『养』数据,就是主动收集数据,是基于深入业务理解的更高层次的商业决策。

如果你要做一名数据分析师,脑海里就要长期装着这样一个想法『这个数据是怎么来的?』你要打破局限,不要把自己封闭在狭隘的思想中。在未来商业中,谁被逼到『或』式选择境地,往往谁吃亏(比如促销的最后一天 = 『买或不买』)

在面对『或』式选择的时候,我们更容易被惯性牵绊。很多时候,你需要远离『或』的概念,才不会被困住而浑然不觉。

数据的盲点,负面数据的力量

在数据中,盲点可以分为两类:一类是物理盲点,另一类是逻辑盲点。

面对数据的盲点,正能量思考告诉你怎么做可以到达成功的终点,负能量思考则告诉你怎么做才不会失败。

是否看到数据盲点价值的核心就是,有没有看到应该看到的数据,有没有错失不应该错失的数据。

我们观察数据的时候容易只将焦点放在正面数据上,而忽略掉负面数据。

错误的经验会让你不断地犯错误。

阿里巴巴的大数据实践

从数据化运营到运营数据是不断运行的循环。在这样的循环中,会容纳许多新的、不同维度的数据,这些数据经过在整个循环中的适应过程,然后再运用到数据化运营中,并且改变原有的运营方式,这个过程就是我认为的大数据落地的方法。

数据化运营的的前提是假定数据是稳定的,并且以此来改变企业的运营。而运营数据,则是假定数据都是可以获取的,而且是不稳定的。

数据化运营需要和商业咬合得非常紧密,所以数据也是混合在商业里,以假定稳定的方法去做业务上的对比和细分及趋势预估的。假定数据是稳定的,也意味着我们习惯于不去寻找一些新数据。

『用数据拿数据』的方法可以将数据化运营和运营数据打通。将数据化运营和运营数据打通,有可能会创造出一些意想不到的创新。我们在大数据环境里运营数据时,有可能走不通的原因是,现在的数据已经庞大到需要管理才能到创新的数据化运营。这个循环能否成型,往往需要很长时间的努力。

目的和目标区别在于:『目的』是要到达的终点;而『目标』则是衡量到达终点的价值标准。

他很重视客服,最擅长的做法是通过客服来观测数据,通过最前端来决定后端,这就是探索。我很赞赏他说的『发现交易量急速上涨的时候,就要停掉广告』。这句话体现了他作为一名科学家的思维逻辑 —— 当交易量急速上涨时,对订单的处理能力就会下降,所以减少广告可以很好地控制局势。

对于创业公司来说,管理者不需要把眼光放得过于长远。如果从短期目标出发,在不断的观察之中发现问题,并且解决问题,很可能会更容易获得成功,而事实上很多人的成功就是这样造就的。

混、通、晒,阿里巴巴数据化运营的内三板斧

只有具备商业敏感的数据分析师,才会懂得使用什么数据来驱动公司实现经营目标。数据部的人要和业务部的人经常『混』在一起。

如果数据分析师缺乏商业意识,那么公司就成了『盲人』——分析师不知道该使用怎样的逻辑去分析数据,而公司的决策层也得不到任何有价值的参考意见。作为数据分析师,如果不和业务部混在一起,又怎么会知道业务部在做什么。商业敏感是要靠『混』出来的,它并不会凭空出现在你面前。

『通』是『混、通、晒』里最关键的连接点。知道带着业务问题来看数据或者带着数据问题来看业务,这就是做到了『通』。

值得注意的是,『通』有两个场景。比如说,现在有一个商业场景和一堆数据,这两者产生关系时,就是商业模式和数据彼此的『通』,我们可以称它为『数据中间层』,简单来说,它就是能够敏感地反映出商业变化的数据群(Smart Data Set)

另外一种更深入的『通』,就是存在于公司组织中的数据。把数据打通,一是商业理解和数据之间的『通』,另一种就是部门数据和部门数据的交叉。

想做到数据的积累和沉淀,想要打通数据,建立合理的系统是不二之选。首先,做好数据安全工作,以保证公司内部不同职位的员工可以查看不同的数据;然后,统一不同部门的数据标准,使公司内部数据有统一的接口,避免混乱;最后,关联不同部门的数据,创造机会让数据的运营可以扩散至数据部门之外。

数据能不能做到在获取、使用、分享、协同、连接、组合之上让自己变得超级简单和便捷,这是数据化运营里面非常重要的一点,这也正是『晒』的内容。

『晒』是在『混』和『通』的基础上产生出来的最终的数据表现,是基于人、商业和数据结合后的一种看数据和用数据的方法论。通常是通过数据来回答这几个问题:

  • 业务好还是不好
  • 数据如何改变可以让业务更好
  • 如何利用数据帮助业务发现机会,甚至产生出新的商业价值

具体应用用数据解决什么问题,要根据业务的场景来决定。

所谓的框架就是,对一个业务进行指标化的分解,并通过有限多个指标来客观描述业务的状况。

在电子商务领域,评价业务水平通常有两套指标,一套是常用的计算成交额的方法,即流量 x 转化率 x 客单价 = 成交额,它能够评价一个类目、一个商品的健康度。另外一套指标在商品大促的时候使用居多,即预热期加入购物车的商品数 x 商品单价 x 经验转化率 x 经验成交额占比 = 大促成交额(因为经验转化率和经验成交额占比通常是两个固定的数据)

业务需要进行比较才能判断好坏,而比较的前提就是要不断地去寻找比较对象。

我们到底要解决的是什么问题,我应该用什么逻辑来解决,在抛开一切杂念获得验证的思路之后,再来看细节问题决策就会显得非常简单了。其实,用逻辑来思考的问题或者发现的问题,就是一个本质问题。

存、管、用,阿里巴巴运营数据的外三板斧

存,数据收集的开始。收集数据不是目的,让收集起来的数据如何产生价值才是最终的目的。

管,保护好存储数据。学会用数据产品来解决获取及使用数据的问题。数据管理,是大数据行业的脏活苦活累活,是最悲催和最难解决的事情。

用,从收集数据到管理数据。数据的分裂和重组,都能做到颠覆性创新。

第一步 建立用户的标签

  1. 通过业务规则结合数据分析来建立标签
  2. 通过模型来建立标签
  3. 通过模型的组合来生成新的标签

第二步 标签的应用

最核心的就是数据中间层和前台业务层的对接,并且能够让运营人员非常方便地进行商品的设置。

  1. 中间层和业务层的对接
  2. 中间层的易用性

解决本质问题

不断地用逻辑方法将问题进行分解,直到不能分解为止,然后从根本处去解决这个问题。

总的来说,当我们遇到一个问题之后,一定要问自己这到底是现象还是本质,如果是现象就一定要找到本质。被表面迷惑是很多人都会犯的错误,而所谓的成功,就是少犯错误,就是早一点从本质出发去思考问题。

大数据,未来商业的利器

假定数据是脏的。到底是因为数据源脏了,还是因为数据提炼过程做得不好。

学会慢慢淡化数据。数据是有优先级的,在数据中有些是特别核心的,有些即使缺失了也没有多大问题。所以,我们要学会真正坐下来盘点那些对公司最有价值、对用户最有价值的数据。

数据的标签化管理。数据的属性标签是人类经验判断的数据,是数据后的数据。

标签的属性管理,在运营数据中非常重要。属性管理的层级化十分有必要,但是在使用数据前,必须要了解数据的场景、数据是如何放进去的和数据的场景是什么。在这一切未知之前,就说数据如何好用的话,是不可能的。所以,现在企业运营数据的趋势是,我们应该找出一些属性进行归类,然后再慢慢地考虑如何提炼,这对于未来非常重要。

重要的是数据和数据之间的关系,而不是数据本身。

我们千万不要把所有的能力都用来处理实时化的问题,因为我们依然会有大量的数据需要在恰当的时机(Right Time)处理,有的数据是重要的,但不紧急。

数据处理不一定要实时,在其他数据没有到位的情况下,数据实时化的价值也不大。

人和机器的结合,或者人和数据的结合将是未来的一种进步模式,人类将通过数据变得更加智能。

经验使人变笨的原因在于你之前的经验本身就存在误差,即数据源本身就存在问题,而这种误差一般人看不出来。

永远不要假定这个世界是真空的,所以需要多多观察频繁出现的新数据。当有新数据出现时,以往的经验就需要重新做评估了。

开启属于你个人的大数据管理

成功路上,有 4 种东西是可以积累的,分别是财富、人际关系、知识以及思维方式。思维方式与你所做的选择和决策密切相关,冥冥之中决定了『运』的走向。

要对数据做一个积累,要对我所在行业中呈现出的信息进行积累。这是一个有限时间和无限大数据进行博弈的时代。如果没有积累数据的意识,没有培养自己数据化思考的意识,改变命运真的就成为一种投机行为。

做好个人大数据管理

早上可以用来做数据收集。要完成这个大数据积累的闭环,要求放进去的数据,一定要能够非常快速、实时地调用出来,这就需要一个非常好的分类/标签管理体系。(用两三个关键词在 10 秒内调出我积累的有效数据)

在我的微博关注里,按照两个维度来分类我关注的人:一是他们懂什么东西,即有什么特长;二是根据重要性,进行 5-20 分钟,或者 45 分钟关注度的划分。(如果时间不够,就只看最重要的人)

从收集数据的角度来看:首先,我在选择有效的数据源;其次,我有重要性的选择,所以我能很好地控制我的时间。每天我做完这些数据收集的时间大约是一个小时,时间久了,我现在对每个数据源甚至提供数据的记者的能力都了若指掌。

标签的生命周期。

  • 越有效的标签就越能让我快速地调取数据
    • 标签的用途多样,比如做知识分类的、识别来源的、情境和人物描述的以及表明时序的,等等
  • 要注意知识范畴的培养
    • 行业标签、技术标签、分类方法
  • 场景的标签我把它分为公司与人物,再加上时间(时间是很重要的过滤条件)

时间线和来源是锁定想要数据的重要线索。

在大数据的世界中,没有人要求你懂得细节,没有人要求你成为一名数据分析方面的专家,但是要求在你需要拿到一个专家的数据时,能哦古快读地调用出来。做到这样的话,我们就已经突破了人类短时记忆的短板。

眼睛与大脑是相互影响的,而你看到的将影响你的思考,反过来你的思考方式又影响着你看到的东西。

  • 首先,你所选定的题目,一定要是你感兴趣的,或者跟你的职业相关的。
  • 其次,个人大数据管理和做大数据一样,一定要从小处着眼
  • 再者,就是尽量让数据的收集变得简单
  • 最后,你一定要把这个『运营数据-数据化运营-运营数据』的循环打通成闭环,也要利用今天社会化的优势,学会借助别人的力量。

收集、决策、行动、管理,开启你个人的大数据管理,改变自身的知识积累和思维方式,成为一个能够掌握自己未来的人。

像李小龙的格斗一样去思考

忘掉必杀技。当人人都有绝招的时候,绝招就不是绝招了。

在迂回中寻找落地点。

衡量每一个变化。在目标确定的基础上,能够对一些变化做出有效的判断。

衡量变动时有两个大的前提,一个前提是要保证数据是能够被有效记录下来的,另一个前提是数据是能够被有效解读的。

持续的反馈。思考中的稳定就来自于变化环境下的不断反馈。

寻找爆发点。主干,就是一件事物最原始、最核心的规律。

做公益,第一重要的其实不是钱。是专业、爱和用心

捧个钱场?