数据可视化三节课(一):可视化的意义

对于复杂难懂的数据,用图表的方式能够更直观地呈现数据背后的信息。好的可视化能够帮助我们快速发现规律,找到原因;不好的可视化有可能会得出错误的结论,产生误导。想要做好数据可视化,先要明白,数据可视化是什么、能做什么。

数据可视化三节课(一):可视化的意义

“ 推测未来将要发生什么的最好方式,就是记住过去曾经发生了什么。 ”—— 乔治·萨维尔

金钱永不眠,屠夫问候各位早安。

近期因为工作需要,屠夫梳理了自己在投资和工作实践中对「数据可视化」的经验和思考。我将用三节课讲述“数据可视化”的话题,希望给你一些启发。

有句话叫“一图胜千言”,对于看似复杂难懂的数据而言,尤其如是。数据可视化,是将数据转换成图或表进行呈现,以一种更直观的方式展现数据。对于经常需要用数据、做分析、理逻辑的投资者来说,数据可视化是一项利器。

许多人看过数据可视化,但未必都明白如何做好数据可视化。好的可视化,可以帮助我们快速发现规律、找到原因、作出判断;不好的可视化,可能让人作出似是而非的结论,甚至引向大错误。

一、「数据」可以用来做什么?

在了解知识、技能或工具前,屠夫总喜欢先了解它的“作用”,或者说“它究竟能解决什么问题”。数据可视化和数据紧密相关,更具体地说是和“数据分析”紧密相关。所以,对于任何一个想要了解可视化的人来说,弄懂“数据”和“分析”解决了什么问题应当排在首位。关于“数据究竟解决什么问题”,屠夫归结为“FIVE”4个字母:

  • Forecast 预测
  • Insight 洞察
  • Validation 验证
  • Evaluation 评估

一年前写的《数据的F.I.V.E.用法》里的“I”是“Inspiration 启发”,如今觉得还是改为“Insight 洞察”更贴切预测,是数据应用的最高级形态。

从数据获得启发,以数据验证想法,用数据评估现状,都服务于对未来的预测,最好能够“运筹帷幄之中,决胜千里之外”。作为最高级形态,预测又是困难的。理想模型在落地时往往需要层层假设,这些假设里任何一个参数的偏差,都有可能“失之毫厘谬以千里”。

正如《关于预测,你应该明白的3个道理》所说,预测的尺度越小越精确,却越不容易准确。所以,在预测的精确性和准确性之间,最终取得的妥协往往是“模糊的正确”。

洞察,是假设和灵感的来源。许多规律在得到严谨的数据验证之前,都是先从历史数据中获得洞察。我们可以从标普500和沪深300的部分历史数据中得到“宽基指数长期上涨”的想法,这就是数据的“洞察”作用,而且往往是通过数据可视化实现的。至于这个想法到底对不对,要用数据加以验证才知道。

验证,是数据驱动决策的试金石。一些似是而非的假设和灵感可能将人带入歧途,而用数据进行验证,将大大减少这类情况发生。

验证的方式有许多:

在投资里,对量化策略进行“回测”,是典型的验证;数据分析时,构造蒙特卡洛模拟进行试验,也是验证;互联网行业,采用A/B测试检验策略有效性,同样是验证。

验证的天花板是 “absence of evidence” ——“没有证据证明您有癌症”和“有证据证明您没有癌症”,不是一码事。感兴趣的同学可以看看《决策与判断的误区》中的详细解释。评估,是使用数据的基本立足点。数据的“评估”式用法,实际上是通过数据构造出一个框架,然后将现状与框架对比。

可以对同一对象,横跨不同的时间段,纵向对比;也可以对多个对象,选取同样的时间段,横向对比。

屠夫曾以“地图”和“六分仪”作比喻:

预测就好比使用地图,而评估则是使用六分仪。

先以六分仪测量出经纬度,确定“当前在哪儿”,使用地图时才会心中有数;先用数据进行评估,判别清楚当前的状况,你的预测才不会成为无源之水。

数据可以用来做什么?屠夫的看法是:【数据能用于预测】预测是数据应用的圣杯,是启发、验证和评估的最终目标【数据能带来洞察】在历史数据的启发下,我们可以形成新的灵感或假设【数据能验证假设】经过验证的假设才有机会成为结论,反之只是一种猜想【数据能评估现状】有数据支撑的现状评估,让预测和验证成为有根之木。

二、「分析」能解决哪些问题?

有了数据,还需要分析才能解决问题。

“分析”究竟能解决哪些问题?屠夫归结为4类:是什么、为什么、怎么办和好不好。

回答“是什么”的问题,属于描述统计。我们日常见到的趋势折线图、频率分布直方图,都是通过对数据特征进行描述,一般称之为描述统计。立足于历史和现状,侧重在现象和特性的展示。“是什么”其实并不算真正意义上的分析,许多数据看板和BI都能实现,其威力大小取决于使用数据的人。然而这并不妨碍描述统计在分析领域的地位 —— 它是许多规律、假设和猜想的源头。除此之外,如果回答的是“未来是什么”,这种描述又带上了预测色彩了。

回答“为什么”的问题,属于归因分析。“归因分析”一般指互联网渠道运营对不同渠道产生的价值贡献进行归因。屠夫借这个词推而广之,将“寻求原因和解释”一类的“为什么”问题,都算作归因分析。人类是一种对“解释”有着极度狂热的动物。当我们通过描述性统计发现了一些现象时,自然而然会想要知道现象背后的根源,以便复现、加强或者削弱这类现象。

回答“怎么办”的问题,属于策略分析。互联网行业有不少数据分析岗位,但是 ——只解答“是什么”,充其量就是人肉取数工具;只解答“为什么”,不过是产出专题分析报告;只解答“好不好”,只能完成效果复盘和回测。

上述3者听起来都不够给力,是因为你的分析,没有转化成可操作的策略,分析结果距离落地太远了。

上面是互联网领域的例子,对于投资领域来说更好理解:制定投资策略,通过分析确定约束规则,决定在什么条件该做什么事,就是策略分析。

回答“好不好”的问题,属于效果检验。投资领域提到的“历史回测”,和职场工作里常常需要进行“效果复盘”,都是在回答“好不好”的问题。仔细想想就会发现,“好不好”其实和上面提到的“验证”关联非常紧密。事实上,数据分析里有一部分工作就是用数据来验证效果,和预期作对比确定“好不好”。

分析能解决哪些问题?屠夫的看法是:【回答“是什么”】描述统计,可以展示现象和特性,立足历史和现状,是规律和猜想的源头。【回答“为什么”】归因分析,可以深挖现象背后的原因,通过回溯根源,最终利用这些现象。【回答“怎么办”】策略分析,是为了将分析转化成可操作、可落地的、实实在在的策略。【回答“好不好”】效果检验,是为了验证落地操作后的结果是否符合预期。

三、「可视化」的意义是什么?

说到这里,我们不妨把「数据」和「分析」的作用,做一个连线。回答“是什么”问题时,需要借助数据产生「洞察」,在一定框架对比之下进行「评估」,还可以对未来的情况进行「预测」:

数据可视化三节课(一):可视化的意义

回答“为什么”问题时,需要借助数据的「洞察」找规律,挖掘现象背后的原因,有条件的话最好有一定的「验证」:

数据可视化三节课(一):可视化的意义

回答“怎么办”问题时,需要从「洞察」和「评估」出发,考虑可操作、可执行的应对策略,甚至会利用数据进行一定程度的「预测」:

数据可视化三节课(一):可视化的意义

回答“好不好”问题时,以「验证」效果是否符合预期为目的,结合「洞察」来使用数据:

数据可视化三节课(一):可视化的意义

发现了吗,洞察是被用的最多的,4大类分析问题都离不开「数据洞察」:

数据可视化三节课(一):可视化的意义

事实上,缺乏可视化的情况下几乎不可能发挥出数据的「洞察」作用。洞察是最需要可视化辅助分析的数据用法,这个“辅助”体现在两方面:

  1. 辅助分析过程的推理
  2. 辅助分析结果的表达

当我们希望深入分析、挖掘有用结论时,可视化可以帮助我们发现规律、理清思路。比如下面这张来自《经济学人》的网络图,把近20年美国国会的投票记录进行可视化。如果两名参议员对一项法案投出相同一票,就会以线相连。从图中不难看出,美国国会的党派分歧越来越严重。

数据可视化三节课(一):可视化的意义

来源:经济学人

当我们表达自己的分析结果时,可视化提供了更简单、直接、易懂的方式。比如下图对150万次公共跑步、散步和骑自行车活动路线进行可视化,亮度越亮表示路线越受欢迎。这份可视化结果的背后是枯燥难懂的数据,但是以这种形式表达,可以让使用者一眼就发现热门路线:

数据可视化三节课(一):可视化的意义

来源:语雀 · 墨者学院 · 墨者修齐

所以,对于“可视化的意义是什么”,屠夫的回答是:第一,在数据的4种用法里,「洞察」可以覆盖“分析”的4大类问题第二,在分析过程中,「洞察」非常需要可视化的辅助,这个辅助体现在:

  • 可视化可以辅助分析过程的推理
  • 可视化可以辅助分析结果的表达

以上就是第一节课的内容,下周将为大家带来第二节课 —— “可视化的使用”,敬请期待!

本文由 新媒体之家 作者: 基业长红 发表,其版权均为原作者所有,文章内容系作者个人观点,不代表 新媒体之家 对观点赞同或支持,未经许可,请勿转载,题图来自Unsplash,基于CC0协议。
1

发表评论