第一个浮现的可能是最开始的欧几里得、毕达哥拉斯;再想想会有牛顿、高斯、欧拉、柯西;怜惜少年英才的会想到阿贝尔、伽罗瓦;对统计学感兴趣的会想起贝叶斯、凯特勒;对近现代数学有了解的则可能会提到康托尔、黎曼、格罗滕迪克等等。
但以上巨擘无法代表群星光芒的全部(虽然高斯确实占了很大一部分),在文明的发展史中,无数有名或无名的、前赴后继的数学家的光辉历程无疑推动了主流研究的前进。
然而,有一个领域的历史足够冷门,那就是统计图表的历史。
有一个被大多数人认可的规律,就是在教学大纲中出现得越早的东西在学科中就越基础和重要。而统计图表在大部分人的记忆中是在小学数学课就开始接触的,没有人会忘记用直尺铅笔在试卷上小心翼翼地画出条形图,再打上斜线阴影的感觉。
统计图表的发明是如此自然且符合人类直觉,以至于几乎让人想不起来去思考它是如何发源、又是如何润物无声地嵌入生活和科学研究中的。它们是「最熟悉的陌生人」,这可能就是数据可视化这门学科的神秘与魅力之处。
NicoleOresme(尼科尔·奥雷姆)生年不详,卒于1382年,法王查理五世顾问。他同时也是斜杠青年,经济、数学、物理、天文、哲学、音乐、神学、心理学无一不通。虽然知名度不高,但他是中古晚期的代表性哲学家之一,也是近代科学主要奠基者之一。
在物理学领域,他提出了一个在当时十分有开创性的观点,就是当自由落体在加速时,其重量并没有增加,而是下落的「冲力」增加。为此他又提出了一个现在经常被作为思维实验或者教学案例的假设,就是一拳打爆地球——啊不是,挖穿地球,从地球表面的A点挖穿地心,挖掘到地球另一侧表面的B点,然后将一个重物落入这隧道。则它会从A点经过地心移动到B点,就好像单摆从一边摇摆到另外一边。但是,从地心到B点的路途中,它是呈升起状态,而重量只能造成物体掉落,因此证明了「冲力」与重量是两个概念[1]。
Oresme另一个代表性工作是用几何方法证明了平均速度定理。那么他是如何发明条形图的雏形呢?
其实源于Oresme在物理领域的一次尝试,他尝试用一种包含「经纬度」体系的平面图形来形象化一些物理概念,其实已经非常接近我们现在所说的直角坐标。
那么为什么说是「原型」呢?一种原因可能是Oresme没有对条形图的图元和视觉编码[2]方式做明确的定义。
在数据可视化理论中,所有的统计图表都有视觉编码的过程。具体来讲是将数据通过某种设计好的方式映射到具体的图元的视觉通道上。图元和视觉通道的概念可以这样定义:
下图为常见的图元种类(横轴)和常见的视觉通道(纵轴)示意图[3]:
Oresme画的图更像是对一个坐标系中的闭合曲线进行分割,而现代的条形图,图元被规定为一个个明确的矩形,在两个轴张成的空间内映射对应的数据项的值。矩形高度和表示数值的数据严格绑定和映射,同时矩形的x坐标也和表示类别的数据进行绑定和映射,每个图元都有一个严格而清晰的视觉编码过程。
MichaelvanLangren(米希尔·范·朗格伦,1598—1675)是一位荷兰的天文学家和制图师,他的主要贡献是对经度测量的尝试。比较浪漫和超前的是,他不止测量地球,还尝试测量过月球。他率先找到了一个比较聪明的办法:通过观察整个月相周期中,月球上山峰和环形山的出现和消失,就可提高经度测定的准确度。这一想法促使他在1645年绘制了一幅质量很好的月面图[4]。同时,他也是第一个尝试给月球地貌命名的人:
而在地球经度测量的研究上,VanLangren通过分析已知的测量值,催生了第一张统计图表的产生。1644年,VanLangren提供了统计数据的第一个视觉表示:
事实上,虽然VanLangren完全可以在表格中提供此信息,但使用图表更能真正直观地显示经度估计中的广泛差异。
和前面两位相比,JosephPriestley(约瑟夫·普利斯特利)的名字就更如雷贯耳了。普里斯特利(1733—1804)是一位英国化学巨擘、自然哲学家和自由主义政治理论家。我们熟悉他主要是凭借他发现了氧气(O2)的存在,以及一氧化碳(CO)、一氧化氮(NO)、一氧化二氮(N2O)、氨(NH3)、二氧化硫(SO2)和过氧化氮(N2O4)等9种气体,另外他还在其他科学领域进行过研究。他是美国开国元勋本杰明·富兰克林的密友,并与本杰明·富兰克林密切合作从事电学实验[5]。
版本一
版本二[6]
另外,这张图表的纵轴是Priestley按照人物的重要性排列的。而他又在笔记写到,「政治家的名字被放置在较低的页边空白处,在那里他们更容易被看到,因为他们是读者最熟悉的名字。」[7]
除了《传记图表》,1769年,Priestley还出版了一份信息量同样很大的图表,ANewChartofHistory(《新历史图表》),附带随笔解释,作为其《历史与一般政策讲座》的补充。和献给朋友本杰明·富兰克林的《传记图表》一样,Priestley相信这些图表将使学生:[8]
Traceoutdistinctlythedependenceofeventstodistributethemintosuchperiodsanddivisionsasshalllaythewholeclaimofpasttransactionsinajustandorderlymanner.
版本二
这张图表表明了Priestley的一个信念,即整个世界的历史都是重要的,而不仅仅是西方历史乃至自己民族的历史。这个理念代表了18世纪相对较新的思想发展,起源于伏尔泰和威廉·罗伯逊。在这张图里,Priestley旨在展示帝国的历史和权力的传递。他写道:
Thecapitaluse[oftheChartswasas]amostexcellentmechanicalhelptotheknowledgeofhistory,impressingtheimaginationindeliblywithajustimageoftherise,progress,extent,duration,andcontemporarystateofalltheconsiderableempiresthathaveeverexistedintheworld.
至于图表中包含的丰富信息量,对这一系列图表做过专门研究的学者ArthurSheps曾评价道[9]:
Thehorizontallineconveysanideaofthedurationoffame,influence,poweranddomination.Averticalreadingconveysanimpressionofthecontemporaneityofideas,eventsandpeople.Thenumberordensityofentries...tellsusaboutthevitalityofanyage.
WilliamPlayfair(威廉·普莱费尔,1759—1823),是苏格兰工程师和政治经济学家,也是一位经历特殊的神人。他曾参加过著名的攻占巴士底狱的行动,并在与法国的战争期间代表英国担任秘密间谍。作为一名间谍,Playfair报告了法国大革命的消息,提议采取各种秘密行动来推翻法国政府,并于1793年组织了一次秘密制造假币的行动,以瓦解法国货币[10]。
当然,Playfair也是一个斜杠青年,比如他依次做过磨坊匠、工程师、绘图员、会计师、发明家、银匠、商人、投资经纪人、经济学家、统计学家、小册子作者、翻译、公关人员、土地投机者、罪犯、银行家、热心的保皇党、编辑、勒索者和记者。
这张条形图中展示了1781年苏格兰对17个国家的进出口数据,其中每个国家的进口和出口分别用两种颜色的矩形图元来表示。其中灰色阴影表示进口,黑色着色表示出口。
Playfair的《统计祈祷书》于1801年在伦敦出版,其中包含了通常被认为是第一张饼图的内容。这张饼图乍一看其貌不扬,长这样:
它展示了1789年之前土耳其帝国位于亚洲、欧洲和非洲的面积占比。饼图中间标明了当时土耳其帝国的面积:790000平方英里。
而如果把这个饼图放在整张图表中,从整体看是这样的:
每张饼图代表一个国家,饼图两侧各伸出来两个柱状图元,分别代表这个国家的人口和财政收入。也就是说这是一张复合图表,巧思竟能如此。
然而,这项发明最初并没有得到广泛应用,后来才被南丁格尔发扬光大以后才遍地开花。比如下图是一张1888年巴黎地图和饼图混用的例子。[13]
JohnHerscherl(约翰·赫歇尔爵士,1792—1871)是一位英国博学家,同时也是数学家、天文学家、化学家、发明家、实验摄影师,他是蓝图(blueprint)的发明人,在天文学和摄影技术领域也有很多建树。他的作品《初步论述》(1831年出版)提倡以归纳的方法进行科学实验和理论建设,是对科学哲学的重要贡献。[14]
【激发创造】汤姆猫正在使用Herscherl发明的蓝图来设计超厉害的捕鼠器
而他的父亲WilliamHerschel同样是个狠人,是天王星和红外光线的发现者。
该散点图的现代重制版
不难理解的是,散点图的发明离不开平面直角坐标系。虽然笛卡尔在17世纪就首次构建笛卡尔坐标系,并成为了散点图以及其他很多图表的构建基础,但是直到JohnHerscherl,才有第一个在坐标系上绘制单个数据点的图表被公布出来。
南丁格尔在克里米亚战争期间担任护士经理和培训师时就声名鹊起,并在君士坦丁堡组织了对受伤士兵的护理。她通过改善卫生和生活水平大大降低了死亡率,并给护理学带来了良好的声誉。
她凭借自己的功绩和人格魅力成为了维多利亚文化的象征。特别是有「提灯女神」(TheLadywiththeLamp)的美誉,因为有首诗和照片描述了她在晚上提一盏油灯巡视受伤士兵的情景。在70年代的10英镑背面,就描绘了这个充满了希望和救赎感的名场面:
Nightingale从小就表现出对数学的天赋,并在父亲的指导下在这门学科上表现出色。后来,Nightingale成为了信息和统计图形视觉呈现的先驱。她使用了饼图等工具,上文介绍最初是由Playfair在1801年发明的。虽然现在使用饼图被认为是理所当然的,但在当时这是一种相对新颖的数据呈现方法。
19世纪50年代,英国、法国、土耳其和俄国爆发了克里米亚战争。Nightingale主动申请,自愿担任战地护士。当时的医院卫生条件极差,甚至连干净的水源与厕所都没有,伤士死亡率高达42%,直到1855年卫生委员会来到医院改善整体的卫生环境后,死亡率才戏剧性地降至2.5%。当时的Nightingale注意到这件事,认为政府应该改善战地医院的条件来拯救更多年轻的生命。
由于担心自己资料统计的成果会不受人重视,她发明出一种新的色彩缤纷的图表形式,也就是南丁格尔玫瑰图,让数据能够更加让人印象深刻。
下图就是Nightingale当时报告这件事时所用的图表,以表达军医院季节性的死亡率:
DiagramofthecausesofmortalityinthearmyintheEastbyFlorenceNightingale
从整体上来看,这张图是用来说明和比较战地医院伤患因各种原因死亡的人数,每块扇形代表着各个月份中的死亡人数,面积越大代表死亡人数越多。其中:
她设计的可视化报告打动了当时的高层,包括军方人士和维多利亚女王本人,于是医事改良的提案才得到支持,因该图的外形酷似一朵绽放的玫瑰,因此「南丁格尔玫瑰图」也就由此而来。
GeorgvonMayr(冯·迈尔,1841—1925)是德国行政和官僚统计的最重要代表。他反对在解决统计问题时普遍使用概率微积分和数学。
而雷达图的历史非常模糊,关于谁首先发明和使用它们存在混淆。现在最流行的观点是vonMayr是第一个创建和使用雷达图来表示数据的人,他在1877年使用了这个图表:
在这项发明之后,雷达图才开始在科学家中流行起来,并成为一种流行的数据表示方式。
是谁发明了词云?新的工种出现了——是一位心理学家。词云的前身首次出现在心理学家StanleyMilgram(斯坦利·米尔格拉姆,1933—1984)和他的合作者DeniseJodelet(丹尼斯·乔德莱特)的工作中。
StanleyMilgram
Milgram被广泛认为是社会心理学史上最重要的人物之一,另外一个使他知名的原因,就是备具争议的「米尔格拉姆实验」。[17]
这个实验的概念最先开始于1963年Milgram在《变态心理学杂志》里所发表的BehavioralStudyofObedience一文。实验的目的是为了测试受测者,在面对权威者下达违背良心的命令时,人性所能发挥的拒绝力量到底有多少。这一试验被视为有关服从试验的典型性试验,并在社会心理学界产生了强烈反响。[18]
经统计,有218名参与者提到了4132个元素。50个被提及最多的地标每个都有至少9%的参与者命名它们。Milgram和Jodelet在纸上排列地标名称,并大致根据巴黎的实际位置来放置。受RandMcNally(兰德·麦克纳利)地图集的启发,Milgram和Jodelet选择了更大的字体来打印更经常提到的地标,从而将字号和频率数据绑定起来。初版词云效果如下图:
Milgram和Jodelet指出,巴黎市民心目中的第一印象,正如他们在市场营销中所说的那样,地标其实非常接近于「旅游景点」,就像城市的明信片一样。
此外,在Milgram的映射中,词云中的「词」也可以是由多个词汇组成的名称或术语。
然而,树图的主要特点是递归结构,允许它扩展到任意级别的分层数据。这个想法是由马里兰大学人机交互实验室的BenShneiderman教授在90年代早期提出的。然后,Shneiderman和他的合作者通过引入各种交互式技术来过滤和调整树图来深化这一想法。
矩形树图在计算机UI中应用十分广泛,特别是重视交互功能(如下钻)的图表,在计算机上更是如鱼得水。矩形树图在软件界面中经常用来可视化树形文件结构。[20]
而旭日图是一种相对较新的可视化树结构的方法,通常被定位为矩形树图的替代品。
旭日图的首次出现可以追溯到1921年,这时候还是作为嵌套饼图出现。如下图是当年《机械工程》杂志上刊载的图表,显示了1910年至1919年美国联邦政府的平均年净支出:
现代的旭日图从上世纪90年代开始被提出并迎来研究高峰。旭日图在计算机上同样比较常用,是较为美观的表达树结构的方法[21]: