0%

【书摘】Tableau 白皮书

因为最近在做数据相关工作,顺带把 Tableau 公开的数据相关白皮书看了一遍,感觉还是学到不少东西的,这里分享给大家。


更新历史

  • 2017.05.03: 完成初稿

商业智能

只有了解数据,才能正确决策,在竞争中保持领先

  1. 速度
  2. 可视化数据探索
  3. 连接到任何数据
  4. 实时协作
  5. 全面管控
  6. 可扩展性
  7. 移动

2017 年

  1. 现代商业智能成为新常态
    • 借助可信和可拓展的平台,各组织可以让分析师以外的人员也能够探索受规管的数据,并利用自己的发现开展协作
  2. 协作式分析从边缘进入核心
    • 信息单向流动的年代即将结束,人们将通过共享实时交互式工作簿和数据源来为业务决策提供支持
  3. 一切数据趋于平等
    • 大数据和简单 Excel 电子表格之间的区别将不再重要
    • 重要的是人们能够快速轻松访问数据,并结合其他类型的数据对其进行探索,从而回答业务问题
  4. 自助分析扩展至数据准备
    • 数据解析、JSON 和 HTML 导入以及数据整理之类的普通数据准备无需再分配给专家完成
  5. 得益于嵌入式商业智能,分析已经无处不在
    • 效果最好的分析是自然存在于工作流中的分析
  6. IT 部门成为数据英雄
    • IT 从制作者变为功能提供者
    • 掌控着以自助式服务为目标的大规模转变过程
  7. 人们开始以更加自然的方式处理数据
  8. 向云端的过度加速进行
  9. 高级分析变得更加易于访问
  10. 数据素养成为未来的一项基础技能

2015 年

  1. 治理方式转变。封闭所有企业数据的简单做法不再奏效
  2. 社交智能是竞争优势
  3. 分析在组织的各个角落涌现
  4. 社区与众不同
  5. 一切皆集成
  6. 云分析不再只适合云数据
  7. 与数据对话取代静态仪表板
  8. 数据与新闻珠联璧合
  9. 移动成熟
  10. 智能分析开始兴起

云技术趋势

2017 年

  1. IT 转变其技能组合
    • 对云端专业知识的需求将会愈加迫切
    • 侧重于云端安全性、托管数据库以及『基础架构即服务』
    • 采用能够实现持续性项目开发和交付的灵活方法
  2. 组织积极迎接混合世界
  3. IT 积极与业务用户合作
  4. 软件治理同时改善了 IT 和业务部门的境遇
  5. 托管应用程序可以简化内部业务运营
  6. 长期的客户成功和采用是重中之重
  7. 云服务供应商可以降低地区性数据法规的复杂性
  8. 灵活的分析可以解决物联网『最后一英里』问题
    • 分析来自多个数据源、格式各不相同的数据
  9. 服务提供商从软件部署转向变更管理
  10. 所有标准应用程序都带有协作功能

2016 年

  1. 这是一场数据抢滩战
  2. 合作伙伴陷入云价格战中
  3. 大公司以大规模迈入云时代
  4. 云分析助力 IT
  5. 硬件巨擘创造性地保持云相关性
  6. 将数据迁移到云更贴近复制/粘贴
  7. 云数据隐私
  8. 云技术市场使软件公司陷入两难窘境
  9. 混合云策略变得简单
  10. 移动和云分析日趋相同

2015 年

  1. IT 人员支持云计算发展
  2. 云分析涵盖所有分析
  3. 虚拟私有云成为了新型『内部』云
  4. 平台价格不断坠落
  5. 上千种云服务将不断浮现和消失
  6. 身份信息进入云端。SAML 和 SSO 成为常用技术
  7. 云数据环境将数据堡垒变为数据集市

大数据趋势

2017 年

  1. 大数据速度提高、门槛降低:选项增多,加快 Hadoop 速度
    • 数据库 Exasol, MemSQL
    • 基于 Hadoop 的存储 Kudu
    • SQL-on-Hadoop 引擎 Impala, Hive, Prestro, Phoenix, Drill
    • OLAP-on-Hadoop 技术 AtScale, JethroData, Kyvos Insights
  2. 大数据不再仅仅是 Hadoop:为特定用途构建的 Hadoop 工具变得过时。仅仅为 Hadoop 构建且无法跨用例部署的平台将受到冷落
  3. 为了获取价值,组织从起步阶段就开始利用数据湖。促使业务和 IT 部门建立更牢固的合作关系。作为大数据资产的利用工具,自助式平台将会在更大程度上得到认可
  4. 日趋成熟的基础架构拒绝一成不变的架构
    • Hadoop 不再仅仅是数据科学用例的批处理平台。它已经成为临时分析的多功能引擎
  5. 大数据投资的驱动因素是种类,而不是数量和速度
    • 尝试集成更多数据源并专注于大数据的『长尾巴』。连接器正在变得更加关键
  6. Spark 和机器学习为大数据增辉
  7. 物联网、云和大数据的汇合为自助式分析创造新的机会。
    • 物联网正在生成大量结构化和非结构化数据
    • 越来越需要可以无缝连接和合并多种云端托管数据源的分析工具
  8. 自助式数据准备成为主流,最终用户开始影响大数据
  9. 大数据发展壮大:Hadoop 增强企业标准
    • Apache Sentry, Apache Atlas, Apache Ranger
  10. 元数据目录的兴起可以帮助人们找到值得分析的大数据
    • 元数据目录可以帮助用户发现和理解值得使用自助式工具进行分析的相关数据
    • 使用机器学习来实现 Hadoop 数据的自动查找

2016 年

  1. NoSQL 接管市场
  2. Apache Spark 为大数据点亮明灯
  3. Hadoop 项目成熟,企业继续其从 Hadoop 概念证明到生产的过渡
  4. 大数据发展壮大,Hadoop 加入企业标准之中
  5. 大数据飞速发展,选项增多,加快 Hadoop 速度
  6. 最终用户拥有更多的选项,来为各种形式的数据做准备
  7. 云端 MPP 数据仓库发展升温
  8. 流行技术融合,物联网、云端和大数据实现融合

2015 年

  1. 大数据云端化
  2. ETL 私人化
  3. 在 SQL 和 NoSQL 中选择
  4. Hadoop:一种新的常规数据存储配置
  5. 开始尝试在数据湖中搜索
  6. 大数据生态系统将开始改变形态
  7. 物联网将继续发展,促成新的数据解决方案

物联网

  1. 迭代和快速行动
  2. 通过交互实现更深层次的探索
  3. 通过数据融合拓宽分析范围
  4. 促进共享和协作

移动商业智能

  1. 了解使用环境
  2. 了解用户意图
    • 探索、查看、互动、协作
  3. 专为移动设备设计
    • 一次制作,随处使用

零售分析趋势

2017 年

  1. 高级分析不再是分析师的专利
  2. 全面实现移动分析
  3. 物联网开始提高数据准确性
  4. 全渠道数据集成开始风生水起
  5. 机器人技术为零售数据带来重大机遇
  6. 增强显示和虚拟现实为零售商分析带来更多见解

2016 年

  1. 高级分析不再是分析师的专利
  2. 全面实现移动分析
  3. 物联网数据改变购物方式
  4. 全渠道数据集成精彩纷呈
  5. 零售营销组合现代化
  6. 实时库存不可或缺

重要图表

  • 类别小倍数图表,快速比较多种货品一目了然,包括产品类别绩效
    • 列出许多不相关的货品,轻松进行纵向比较与横向比较
  • 周边地区客户群体图
    • 为您销售地点周边的客户群显示地形情况
    • 本地和即时市场明确的示意图
    • 了解与您所在低的物理距离如何构成或不构成您所在地的障碍
    • 确定潜在竞争对手市场
  • 货架陈列图
    • 了解产品摆放和库存的有效程度
    • 货品广受欢迎时更快地获知
    • 了解客户喜好
    • 查看哪些货品过去销量最佳与哪些货品长期占据货架
  • 损耗热图
    • 指出货品在何处消失并帮助找出潜在的安全盲点
    • 快速了解商场盗窃的多样化及频率
    • 从部门着手解决损耗问题
    • 了解某地总体失窃的历史趋势
  • 移动设备上的商场指标
    • 在楼层实地做出决策,而非在电脑前
    • 将数据反映的情况与货架上的实际情况相比较

社交

天才是展现出初衷的智力、创造力或原创力的人士,其程度通常达到能实现前所未有的洞察力

  • 提出更深入的问题
    • 超越社交媒体平台的内置分析解决方案,导出大量数据,使用拖放式数据可视化工具
  • 将社交媒体与其他数据源融合
  • 生成可供所有人探索和使用的交互式仪表盘

重要图表

  • 关注者/触及人数增长斜度图
    • 横轴:时间;纵轴:人数
    • 数据:关注者增长、提及量、总参与度、触及人数
    • 元素:标签、元素
    • 斜度图显示起始点和结束点之间的变化,用来比较变化率以及起止排名
    • 斜度图消除了干扰,只关注两个日期之间的变化率
  • 全球/地区链接点击数地图
    • 数据:社交网络链接点击数、带地理位置标签的数据、关注者所在位置
    • 元素:位置、颜色、种类
    • 地图能看到用户所在地区,以及存在的地域差别
    • 快速明确活跃和不活跃地区
    • 查看行为差异
  • 触及人数和参与度散点图
    • 横轴:触及人数;纵轴:用户参与度
    • 数据:自然触及人数/付费触及人数、点赞数、关注者数、推文数
    • 元素:类别、元素
    • 使用散点图可以很容易地看到离群点和聚合
    • 找出离群点以及哪些帖子的效果不同于其他帖子
  • 盒须图上的点击率
    • 横轴:不同渠道;纵轴:点击率
    • 数据:点击率、类别区分的参与度、触及人数
    • 元素:中位数、四分位数、颜色
    • 比较数据在不同类别的分布
    • 离群点很容易看到

从早期数据巨星学到的五条经验

  • 可视化帮助人们了解数据、
    • 图表在阐述重要统计数据的特定数量方面非常实用,它以直观方式表现主题中的各种想法,如果以数字表示时,理解起来就不会这么容易
  • 与其他人谈论您的工作
    • 加入用户组和聚会
    • 活跃于社交网络
  • 使用铅笔
    • 手绘图将注意力集中于演示和设计
  • 附有创造力
  • 让大数据激发您的灵感
    • 我们获得的数据时钟超过了我们对如何使用数据的了解
    • 适应新挑战,投资相应工具,用于处理当今的数据量

构建自助服务分析环境

针对营销,具体要求:

  • 选择重要指标
    • 核心目标
    • 营销活动和营销工作对实现这些目标有何帮助
    • 目标的内部或外部数据
    • 设计有意义的指标来衡量这些助益
    • 解释营销对目标的促进做用时,这个指标是否必须
    • 制定一种系统和持续的衡量方法
  • 从所有来源拉取数据以了解全局
  • 直观形象
  • 使其可交互以便于写作
  • 最新且实时
  • 访问简单、使用轻松

好奇心的驱动力是对理解事物及其缘由、原理和目的的需求。知其所以然更有益于理解。答案与过程结合形成透彻理解,可帮助我们取其精华去其糟粕,并发现新机遇。

在尝试理解事物和寻求答案的过程中,数据可助我们一臂之力。数据透露着事实和真理,让我们能够客观看待既往。数据就是知识,知识就是力量,只要能够利用数据的力量进行求索和决策,就能找到我们寻求的真知灼见和机遇。

为创造完善的分析环境,组织必须结合其最重要的两项资产:员工和数据。让员工能够在受 IT 部门信任、保护和管理的环境中查看数据,不但能够熟悉业务,了解情形,并有可能充分实现其见解的潜在价值。相应员工可以调查数据,就数据进行协作,并根据其分析制定适当决策。这种查看和了解数据的能力并不与职务或地位挂钩。在分析环境下,人人都可访问适当数据,并受到鼓励去探索。

这并非一日之功,而是一项需要快积跬步才得以至千里的工作。

构建新环境时,确定能够推动这种变革的领导者非常重要。行政支持者还可以帮助建立适当的组织架构来支持分析环境。无需编写脚本或代码。无需与复杂的数据透视表做斗争,也没有会阻碍探索和发现的限制性模板。

分析环境依赖于用户乐于使用的强大分析平台。这一平台应易于在组织内进行部署、管理和拓展。

采用新的分析环境意味着利用数据制定决策,但并不意味着将直觉抛诸脑后。在这种环境中,用户同等重视经验数据和直觉,不偏不倚。达到适当的平衡至关重要。

任何出色的分析活动都从直觉和假设开始,我们可以使用数据证实或反驳这种直觉和假设。

分析环境让组织能够更善用其最重要的两项资产:员工和数据。它让员工能够按业务需要的速度使用数据制定决策,并让组织能够抓住商机,获得竞争优势。

能够查看数据还可帮助人们实现自身所力不能及的目标。能够提供游戏的客户服务或推动世界积极改变,这些都是向目标看齐的工作示例。

数据策略在 LinkedIn 的实践

重点放在三个核心价值、两个可测量维度和一个用户友好的前端上面

三个关键价值

简单易懂非常重要,但简单常常是费劲心力谋划细节的结果。简单来说就是三个 A

  1. 客户角度 Account lens:从整个客户的角度看待所有商机线索 - 而不是将每个潜在客户看作是单独的个人。但是,这并不表示去个性化或反社交的看法。
  2. 分析 Analytics:汇集多种数据流上,只用一个门户即可访问所有信息。分析将变得更简单,更多时间可花在利用可用数据作出决策上面
  3. 自动化 Automation:明确的信息和可搜索的工具不仅仅是给客户使用。

我们不想让销售人员花上几个小时努力收集信息,我们希望查找信息就像上 LinkedIn, Facebook, Twitter 或 Google 那样容易。信息就在那里,触手可得,极其容易理解,也极其容易共享

两个简单维度

数十亿个数据点,简单使我们得到广泛采用,并取得成功结果。

从以客户为中心的角度分析数据,归根结底就是新平台的全部目的,而成功的关键将在于极其简单的设置。

LinkedIn 先沿着两根轴绘制其潜在客户『温度』和『奖励规模』。温度是指完成销售的可能性,而规模就是潜在交易的大小。

从客户角度中,个人被视为公司的延伸。于是 LinkedIn 考虑与每个客户相关的个人的活动来计算每个客户的『温度』。『奖励规模』基于公司整体。公司由此而得的网格中所处的位置决定了销售人员为追到这家客户而采取的步骤。

潜在客户可能属于四个象限中的一个:

  • 低温度、小规模:培养、自动化营销、找到愿意接受新观念的客户
  • 低温度、大规模:自动化营销,投入更多资源,使用现场销售
  • 高温度、小规模:关注这些客户很重要,但不需要现场跟进,内部销售策略多样灵活
  • 高温度、大规模:以贵宾礼遇相待,从支持人员到销售高管的每个人都可能参与赢得这些客户的活动中

一个前端

聚合来自多种来源的数据,以确定其线索在『规模』和『温度』维度上的分数。尽量隐藏所有底层数据结构和基础结构,得到的简单性可使销售代表关注于关键指标和可采取的步骤。

识别重要事件

基于事件的客户管理(eBAM),将客户 - 而不是地区分配给销售人员

教育

  1. 实现自主
  2. 加速每个阶段
  3. 灵活安全的配置
  4. 可视化理解

院校利用数据产生影响

  • 跟踪入学趋势
  • 创建交互式大学简介
  • 吸引潜在捐款人
  • 通报调查结果
  • 分析空间使用率
  • 对比兄弟院校进行基准评测
  • 表明财务责任
  • 改进沟通和合作

提升政府的绩效管理

  • 让工作人员使用自助服务可视化分析
  • 选择重要的计分卡指标(政府人员需要能够证明自己代表公众做出的决策)
    • 核心目标是什么?
    • 推行的计划对这些目标的达成有何直接助益?采用哪些价值标准来衡量这些助益
    • 不论来自内部或外部,目前的数据是有利于达成这些目标的合适数据,还是只是最容易获取的数据
    • 能否设计出一项有意义的指标来衡量这些助益
    • 是否真的必须在采用这项指标后,才能解释计划对达成这些目标所起到的帮助做用
    • 能否制定一种系统性、持续性的衡量方法
    • 市民最关心哪些信息的披露
    • 了解哪些信息后,市民和选民才会积极参与政府事务
  • 利用当前数据
  • 建立协作文化