大数据可视化是什么
数据可视化要根据数据的特性,可视化要根据数据的特性,如时间信息和空间信息等,找到合适的可视化方式,例如图表(Chart)、图(Diagram)和地图(Map)等,将数据直观地展现出来,以帮助人们理解数据,同时找出包含在海量数据中的规律或者信息。数据可视化是大数据生命周期管理的最后一步,也是最重要的一步。
数据可视化起源于图形学、计算机图形学、人工智能、科学可视化以及用户界面等领域的相互促进和发展,是当前计算机科学的一个重要研究方向,它利用计算机对抽象信息进行直观的表示,以利于快速检索信息和增强认知能力。
数据可视化系统并不是为了展示用户的已知的数据之间的规律,而是为了帮助用户通过认知数据,有新的发现,发现这些数据所反映的实质。
![]()
大数据可视化的基本概念
1) 数据空间:由n维属性、m个元素共同组成的
数据集构成的多维信息空间。
2) 数据开发:利用一定的工具及算法对数据进行定量推演及计算。
3) 数据分析:对多维数据进行切片、块、旋转等动作剖析数据,从而可以多角度多侧面的观察数据。
4) 数据可视化:将大型数据集中的数据通过图形图像方式表示,并利用数据分析和开发工具发现其中未知信息。
大数据可视化的实施
大数据可视化的实施是一系列数据的转换过程,如下图所示:
![]()
我们有原始数据,通过对原始数据进行标准化、结构化的处理,把它们整理成数据表。将这些数值转换成视觉结构(包括形状、位置、尺寸、值、方向、色彩、纹理等),通过视觉的方式把它表现出来。例如将高中低的风险转换成红黄蓝等色彩,数值转换成大小。将视觉结构进行组合,把它转换成图形传递给用户,用户通过人机交互的方式进行反向转换,去更好地了解数据背后有什么问题和规律。
从技术上来说,大数据可视化的实施步骤主要有四项:需求分析,建设数据仓库/数据集市模型,数据抽取、清洗、转换、加载(ETL),建立可视化分析场景。
1) 需求分析
需求分析是大数据可视化项目开展的前提,要描述项目背景与目的、业务目标、业务范围、业务需求和功能需求等内容,明确实施单位对可视化的期望和需求。包括需要分析的主题、各主题可能查看的角度、需要发泄企业各方面的规律、用户的需求等内容。
2) 建设数据仓库/数据集市的模型
数据仓库/数据集市的模型是在需求分析的基础上建立起来的。数据仓库/数据集市建模除了数据库的ER建模和关系建模,还包括专门针对数据仓库的维度建模技术。维度建模的关键在于明确下面四个问题:
- 哪些维度对主题分析有用?
- 如何使用现有数据生成维表?
- 用什么指标来"度量"主题?
- 如何使用现有数据生成事实表?
3) 数据抽取、清洗、转换、加载(ETL)
数据抽取是指将数据仓库/集市需要的数据从各个业务系统中抽离出来,因为每个业务系统的数据质量不同,所以要对每个数据源建立不同的抽取程序,每个数据抽取流程都需要使用接口将元数据传送到清洗和转换阶段。
数据清洗的目的是保证抽取的原数据的质量符合数据仓库/集市的要求并保持数据的一致性。
数据转换是整个ETL过程的核心部分,主要是对原数据进行计算和放大。数据加载是按照数据仓库/集市模型中各个实体之间的关系将数据加载到目标表中。
4) 建立可视化场景
建立可视化场景是对数据仓库/集市中的数据进行分析处理的成果,用户能够借此从多个角度查看企业/单位的运营状况,按照不同的主题和方式探查企业/单位业务内容的核心数据,从而作出更精准的预测和判断。
大数据可视化的挑战
大数据可视化面临的挑战主要指可视化分析过程中数据的呈现方式,包括可视化技术和信息可视化显示。大数据可视化的方法迎接了四个“V”的挑战,同时这也是4个机遇。
- 体量(Volume):使用数据量很大的数据集开发,并从大数据中获得意义。
- 多源(Variety):开发过程中需要尽可能多的数据源。
- 高速(Velocity):企业不用再分批处理数据,而是可以实时处理全部数据。
- 质量(Value):不仅为用户创建有吸引力的信息图和热点图,还能通过大数据获取意见,创造商业价值。
中诚信征信自主开发研制的万象智联,是基于知识图谱的复杂关系网络挖掘平台,以“节点-关系-属性”的形式分析复杂数据背后的业务关联,不仅可以作为关联风险识别工具,还能为风控建模提供多样化的衍生变量,应用于反欺诈、目标客群识别等。万象智联在关系图方面关系的展示十分重要,尤其是重要节点经过多次关联世界语言分布图的子图展示,中诚信征信将视觉可视化运用到此产品,以帮助用户更直观的理解关系图。
大数据可视化的发展趋势
大数据时代,大规模、高纬度、非结构化数据层出不穷,要将这样的数据以可视化形式完美的展示出来, 传统的显示技术已很难满足这样的需求。而高分高清大屏幕拼接可视化技术正是为解决这一问题而发展起来的, 它具有超大画面、纯真彩色、高亮度、高分辨率等显示优势, 结合数据实时渲染技术、GIS空间数据可视化技术,实现数据实时图形可视化、场景化以及实时交互,让使用者更加方便地进行数据的理解和空间知识的呈现,可应用于指挥监控、视景仿真及三维交互等众多领域。
大数据可视化的案例
1)为什么会有“巴士群”现象
这里有一个关于复杂数据集的很好的例子,它看起来感觉像一个游戏。在这个例子里,Setosa网站为我们呈现了“巴士群”现象是如何发生的,即,当一辆巴士被延迟,就会导致多辆巴士在同一时间到站。
只用数字讲述这个故事是非常困难的,所以取而代之的是,他们把它变成一个互动游戏。当巴士沿着路线旋转时,我们可以点击并按住一个按钮来使巴士延迟。然后,我们所要做的就是观察一个短暂的延迟如何使巴士在一段时间以后聚集起来。
![]()
2)世界上的语言
这个由DensityDesign设计的互动是个令人印象深刻的成果,它将世界上众多(或者说,我们大多数人)的语言用非语言的方法表现出来。一共有2678种。
这件作品可以让你浏览使用共同语言的家庭,看看哪些语言是最常用的,并查看语言在世界各地的使用范围。这是一种了不起的视觉叙事方法:将一个有深度的主题用一种易于理解的方式解读。
![]()
3)按年龄段分布的美国人口百分比
这是如何以令人信服的方式呈现一种单一的数据的好榜样。Pew Research创造了这个GIF动画,显示随着时间推移的人口统计数量的变化。这是一个好方法,它将一个内容较多的故事压缩成了一个小的package。

此外,这种类型的微内容很容易在社交网络上分享或在博客中嵌入,扩大了内容的传播范围。如果你想自己用Photoshop做GIF,这里有一个详细的教程。
4)NFL(国家橄榄球联盟)的完整历史
体育世界有着丰富的数据,但这些数据并不总是能有效地呈现(或者准确的说,对于这个问题)。然而,FiveThirtyEight网站做的特别好。在下面这个交互式可视化评级中,他们计算所谓“等级分” – 根据比赛结果对球队实力进行简单的衡量 – 在国家橄榄球联盟史上的每一场比赛。总共有超过30,000个评级。观众可以通过比较各个队伍的等级来了解每个队伍在数十年间的比赛表现。
![]()
5)Google Flights 上的美国感恩节
下面是将一段时间内在空中移动的物体进行可视化的好方法。这是由Google Trends驱动的项目,它跟踪感恩节前出发、到达和穿越美国的航班。可视化始于当天很早的时间,随着时间的推移,像播放电影一样显示在全国各地飞行中的航班。不需要显示时间外的任何数字,观众即可以看到当天哪段时间是国际航班、国内航班以及往返于全国各地不同枢纽的航班的热门时间。
![]()
6)是什么真正造成了全球变暖?
听说过一种建议,“不要只简单地展示数据,讲个故事吧”?这正是彭博商业正在做的可视化 ——用互动讲述故事的来龙去脉。
此图的关键点是要反驳用自世界语言分布图然原因解释全球变暖的理论。首先你会看到从1880年至今观测到的温度上升。当你向下滚动,这个可视化图会让你清楚的了解相较于已被观测到的因素,造成全球变暖的不同因素到底有多少,使故事内容更加丰富。作者希望观众能够得到非常清晰的结论。
![]()
7)在叙利亚,谁和谁在战斗
许多不同的团体之间的关系可能很难理解 – 尤其是当有11个这样的团体存在的时候,这些团体之间有的结盟,有的敌对,反之亦然。这让人难以理解。但是,Slate网站通过表格的形式和熟悉的视觉效果和色彩,将这些数据简化为一种简单的、易于理解和互动的形式。
![]()
观众可以点击任一张脸来查看双方关系的简要描述。
![]()
8)最有价值的运动队
这是通过叠加数据来讲述深层故事的一个例子。这个交互由Column Five设计,受福布斯“2014年最具价值的运动队50强”名单得到的启发。但是它不仅将列表可视化,用户还可以通过它看到每支队伍参赛的时间以及夺得总冠军的数量。这为各队的历史和成功提供了更全面的看法。
![]()
9)美国风图
下面是是个类似感恩节航班的可视化图,除了图中显示的时刻,它还能实时显示美国本土的风速和风向。它是直观设计的一个很好的案例:风速用线条移动的快慢来表示,方向通过线条移动的路径来表示。它会即时显示美国风向的总体趋势,无需任何数字,除非你在地图上点击鼠标。另外,使用时设定最多两个变量会使它更容易操作。
![]()
静态数据可视化实例
10)政治新闻受众渠道分布图
据Pew研究中心称,通常,当设计师在信息内容很多又不能删节的时候,他们通常会把信息放到数据表中,以使其更紧凑。但是,他们使用分布图来代替。为什么呢?因为分布图可以让观众在频谱上看到每个媒体的渠道。在分布图上,每个媒体的渠道之间的距离尤为显著。如果这些点仅仅是在表中列出,观众无法看到每个渠道之间的比较。
![]()
11)著名创意人士的日常惯例
这个数据的可视化图是用奇特的想法描绘一个简单的概念。这个表格利用Mason Currey的《日常惯例》一书中的信息展示了那些著名的创意人士的日程安排,解读其时间和活动安排。这不仅是一个操作数据的例子(因为你可以通过单独的活动来浏览日程安排),也是一个品牌宣传的佳作。
![]()
12)今年发生了哪些新闻?
最好的数据可视化方式,就是用直观和美丽的方式传达信息。Echelon Insights致力于这一方式,即将2014年Twitter上最受关注的新闻进行可视化。1亿8450万条推文是什么样子?如图所示的艺术品。
![]()
13)问题的深度
当你想强调规模的时候,静态数据可视化是表达你的观点的极佳方式。下面这张来自《华盛顿邮报》的信息图长得令人难以置信…这是故意的。他们在图中展示了一架飞机可以探测到的深海信号是多么的深,通过比较飞机的探测深度与高层建筑、已知哺乳动物的最大深度、泰坦尼克号沉船的深度等。这是简单的视觉效果和颜色梯度的极佳使用方式。最后,将数据添加到新闻报道(文中为失踪的马航)是提供背景的好方式。
![]()
14)Funding the Final Frontier
上述图表相对简单,以下是创造设计精致的、传递大量数据的图标方法。秘诀何在?用简单的和干净的格式,便于读者理解数据。这个由GOOD Magazine 和 Column Five制作的图表,解读了NASA的五年预算,显示资金将怎么花、花在哪里。此外,它有主题设计-一个全方位的胜利。
15)Kontakladen慈善年度报告
不是所有的数据可视化都需要用动画的形式来表达。当现实世界的数据通过现实生活中的例子进行可视化,结果会令人惊叹。设计师Marion Luttenberger把包含在Kontakladen慈善年报中的数据以一种独特的方法表现出来。该组织为奥地利的吸毒者提供支持,所以Luttenberger的使命就是通过真实的视觉来宣传。例如,这辆购物车形象的表现了受助者每一天可以负担得起多少生活必需品。
![]()
16)Austria Solar 年度报告
虽然有许多方法使数据视觉化,但是使用信息主题去真实创建数据可视化(注意了)意义重大。这份来自Austria Solar 的年度报告通过页面上的太阳光感墨水用真正的太阳能赋予公司数据以生命。一句话:他们是天才。
原文这个配图挂了。