陈为说《数据可视化》

可视分析系统，能够帮助我们思考，基于人们各自背景知识储备，找到新的兴趣点，提出新的分析目标。比如使用数据可视化分析可以清楚的展现论文发表各作者之间的关系，可以快速的找到自己感兴趣的作者开启后续更加深入的分析任务，这个过程是任何自动化算法都难以实现的，因为机器无法揣度每一个用户的想法，所以在数据可视化分析过程中人的参与必不可少。

“玩转数据——就是有能力去理解它、处理它、展示它，与别人交流它。这将是今后巨大的重要的能力。”

可视化强大的信息展现和传播的能力，构成了大数据分析流程中不可或缺的一部分！

1.2 可视化的前世今生

学新通

可视化萌芽于16世纪，当时人们为了展示收集到的数据，开始使用图标和地图等方式的展示数据。

17世纪开始产生了基于真实测量数据的可视化方法。

18世纪进入了统计图形学的繁荣时期。这一时期出现了折线图、饼图等可视化图表。在19世纪时，可视化的作用开始体现在政府规划和运营中。

学新通

20世纪中期，《图形符号学》奠定了信息可视化的基础。20世纪70年代后，可视化的处理范围从简单的统计数据扩展为更复杂的网络、层次、文本等非结构化与高维数据。与此同时，高性能计算、并行计算将数据密集型推上了历史舞台。

20世纪八十年代科学可视化应运而生（交叉学科）。21世纪后可视化分析学逐渐成为一门新兴的学科。它通过综合可视化、图形学、数据挖掘等方法，辅助用户从大尺度、复杂、甚至不完整的数据中快速挖掘有用的信息，支持用户决策。

学新通

1.3 可视化深入理解及掌握

上一小节介绍了20世纪后出现了信息可视化、科学可视化和可视分析学三个重要分支，本小节主要介绍这三个分支以及几个重要的工具。

学新通

1.3.1 信息可视化

研究的是非结构化、非几何的抽象、高维数据。

学新通

1.3.2 科学可视化

科学可视化面向科学与工程领域，处理的数据是带有空间信息和几何信息的三维测量数据、计算模拟数据、医学影像数据。目的是呈现实测或仿真的科学数据中的特征、模式和演化规律。

学新通

标量场数据来源：Ⅰ 扫描或测量数据 Ⅱ 计算机或机器仿真
向量场是向量的推广，向量可以视为1阶张量，以上分类不能代表科学可视化处理的全部对象。

1.3.3 可视分析学

是以交互式界面为基础的分析推理科学。它结合了可视化、人机交互与数据挖掘，主要目的是解决需要人参与理解和决策的多种实际问题。学新通

1.3.4 可视化工具

Ⅰ tableau

Ⅱ D3.js

Ⅲ Vega，比D2.js更轻、更易用

Ⅳ Processing

2 感知与认知

2.1 视觉感知与认知

认知是指人们获得知识或应用知识的过程，或信息加工的过程。感知系统基于相对判断而非绝对判断。

2.2 格式塔理论（Gestalt）

格式塔理论的八个原则：

①接近原则：当视觉元素在空间距离上相距较近时，人们通常倾向于将它们归为一组。
②相似原则：人们在观察事物的时候会自然地根据事物地相似性进行感知分组。通常依据对形状、颜色、光照或其他的性质的感知进行分组。
③连续原则：人们在观察事物的时候会自然地沿着物体的边界，将不连续的物体视为连续的整体。
④闭合原则：在某些视觉映像中，其中的物体可能是不完整的或者不闭合的，只要物体的形状足以表征物体本身，人们会很容易地感知整个物体而忽视未闭合的特征。
学新通

⑤共势原则：一组物体具有沿着相似的光滑路径运动趋势或具有相似的排列模式时，将被识别为同一类物体。
⑥好图原则：人眼通常会消除复杂性和不熟悉性来理解被识别的物体。
⑦对称原则：人的意识倾向于将物体识别为沿某点或某轴对称的形状。
⑧经验原则：某些情形下视觉感知与过去的经验有关。如果两个物体看上去距离相近，或者时间间隔小，那么他们通常会被识别为同一类。

2.3 视觉通道

可视化编码：将数据信息映射为可视化元素的技术。组成：标记和视觉通道
标记通常是一些图形元素，视觉通道用于控制标记的展现特征，包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。

如何选择合适的视觉通道呢？

两个方面考虑：
①表现力：要求视觉通道准确编码数据包含的所有信息。也就是说，视觉通道在对数据进行编码的时候，需要尽量忠于原始数据。
判断标准：精确性、可辨认性、可分离性、视觉突出
②有效性：表现力更高的视觉通道编码更重要的数据信息。

流程：识别数据类型——确定想要传递的信息——选用合适的标记与视觉通道——迭代

3 数据

3.1 数据基础

①大数据的4个特征：数量大、更新快、多样性、准确性
②数据的属性：可大致分为类别属性和序数属性。若属性能够提供对象之间的比较信息，这时就称这种属性为序数属性。如果一个序数属性中的数据在算数运算下就具有意义，那么这种更细分的类型称为数值属性。

数学中的统计方法是我们了解数据总体情况的有力工具也是分析数据的基础。【均值、中位数、方差】，除此之外我们会使用相异性矩阵来刻画数据对象之间的关系，从而去除冗余数据。类别属性采用失配比来计算相异性，两个数的失配比就是它们中值不相等的属性个数占总属性个数的比例。
可以用失配比计算类别属性的距离，而用欧拉距离计算数值属性的距离。

学新通

3.2 数据分析与探索

本节讲述数据科学的历史以及面临的问题……

1997年大数据术语出现在论文中，该论文恰好发表在可视化领域顶级会议IEEE VIS。
10年后一位图灵获得者在海上失踪时给人类留下了一个宝贵财富：

学新通

后来为了避免数据garbage in, garbage out，我们要确保数据的质量：准确性、完整性、一致性、时效性、可信性和可解释性。数据清洗主要是为了提升数据的一致性。数据可视化也是数据清洗的一个重要的例子。

3.3 可视化

本节学习可视化与数据挖掘等数据分析的方法。

学新通

3.3.1 可视化方法

数据轨迹是一种单变量数据呈现方法，通过将自变量与因变量在图中用点呈现出来。数据轨迹可以直观地展现数据分布、走势以及离群异常点。

①原始数据可视化

柱状图、饼图、直方图、等高线图、走势图（不绘制坐标轴）、散点图、热力图

学新通

②统计结果可视化

盒须图：

学新通

③多协同视图

将多个视图结合起来，每个视图展现数据某个方面的属性，并允许用户进行交互分析。

学新通

3.4 数据挖掘

数据挖掘是从大型数据库、网络上或其他大型存储库中，自动地发现和提取模式、特征或知识。

学新通

数据挖掘分为描述型任务和预测型任务，描述型任务包括：概念描述、关联分析、聚类、异常分析。预测型任务分为：分类和演化分析。

学新通

4 数据可视化基础

4.1 可视化基本流程初探

数据获取——数据处理——任务分析——数据可视化——可视化分析
当然流程不是固定的，根据实际可以调整。

4.2 数据可视化的框架

本节偏理论~
可视化以数据流向为主线，包括数据采集、数据处理和变换、可视化映射和用户感知。

学新通

可视化交互是指可视化过程中，用户控制修改数据采集、数据处理和变换、可视化映射各模块而产生新的可视化结果，并反馈给用户。

学新通

可视化分析是指结合可视化和数据挖掘的分析模式，以视觉感知为基本通道，通过可视化和交互界面，将人的知识或经验融入到数据分析和推理决策过程中，以迭代求精的方式将数据复杂度降低到人类和计算机可以处理的范围，获取有效知识。

4.3 数据处理与变换

4.3.1 数据归一化

将数据按比例缩放，使之落入一个小的特定范围，其中最典型的是数据统一映射到 [0,1] 区间上。
主要有线性变换和反正切变换两种方法。还有一种类似的方法称为数据标准化：把值全都映射到标准正态分布上数据的处理和变换。

学新通

4.3.2 数据平滑化

曲线拟合：将数据转化成平滑连续的曲线，将注意力从”微小的细节“中转移到”更高层面的趋势观察和判断。类型包括：模拟一次方程曲线、模拟指数函数曲线、模拟多项式曲线以及自定义方程曲线。基本思想“劫富济贫”

学新通

4.3.3 数据采样

获取或处理全部数据集代价太高，时间开销无法接受。选出具备原始数据特征的数据。

4.3.4 分箱

将一些连续值分组装进一些“小箱子”的方法。

学新通

选择合适的区间大小能帮助我们更好的把握数据的趋势~

4.3.5 数据降维

当数据具有多个维度时进行数据降维，把数据从多维的空间投影到二维或者三维的空间，对降维后的数据运用简单的可视化手段。常见数据降维方法有：

学新通

4.3.6 数据聚类

4.4 可视化编码

采用标记和视觉通道来进行可视化编码。

学新通

视觉通道可以分为：定量型视觉通道、定性型视觉通道

4.5 可视化图表

参考3.1

4.6 可视化设计三部曲

“可展示数据筛选——可视化编码映射——视图与交互设计”

学新通

视觉交互常用方法：滚动和缩放、颜色映射、数据映射、细节层次控制

4.7 可视化设计进阶

4.7.1 可视化设计中需要考虑的因素

①应标注和说明，且标注和说明要合理

②合理配色，eg：Color brewer软件

6 空间数据可视化

6.1 空间场数据可视化概述

场数据是对连续的空间进行度量，常见度量包括温度、速度、密度等。
空间场数据和位置空间有关系。空间数据场通常根据空间的维度与属性值的特征共同命名。
空间场数据可视化有以下研究方向：
学新通

6.2 标量场数据可视化（上）

一维标量场数据——沿空间某一路径采集的数据。
二维标量场数据——医学诊断的X-光片，实测的地球表面温度、遥感观测的卫星影像。包括：平面型、曲面型。复杂的曲面可在三维空间可视化，简单的曲面可以映射到二维空间

等值线提取：医学影像中的组织边界、大气数值数据中低压区的边缘。常用方法：移动四边形法

6.3 标量场数据可视化（下）

三维场数据——记录三维空间中的物理属性及其演化规律，获取的方式为测量、计算机模拟。常见有：医学断层扫描、气象的观测结果或者模拟数据、地震科学模拟数据等。

体数据分类：将数据中的标量值转换为颜色通过调节和应用传输函数实现。
传输函数：定义如何将数据映射为光学属性。

依据三维体数据，将所有体细节同时展现在二维图片上的技术，称之为体绘制技术。利用体绘制技术，可以在一幅图像中显示多种物质的综合分布情况，并且可以通过不透明度的控制，反应等值面的情况。举例而言，你面前有一间房子，房子中有家具、家电，站在房子外面只能看到外部形状，无法观察到房子的布局或者房子中的物体；假设房子和房子中的物体都是半透明的，这样你就可以同时查看到所有的细节。这就是体绘制所要达到的效果。

6.4 矢量场和张量场数据可视化

①矢量场的标量场的区别是：空间中任意位置都对应一个矢量而非标量
②矢量场数据：也可以看作流场数据，即每个点的矢量的方向都代表流体在这个位置的流向，矢量的大小代表流速。
标记法：用方向的标记编码不同位置上的矢量的方向和大小。局限性有：可显示空间的尺寸会限制标记的数量，限制了可视化的精度。离散排布的标记也缺乏对场数据连续性直观的表达。
积分曲线法：静态场生成的积分曲线称为流线，动态场中产生的积分曲线称为迹线。从同一个点不断发射新的粒子形成脉线。很适合用动态的方式展现数据。

学新通

③张量：常用于表示物理性质的各向异性。如：固体力学和土木工程中，张量用来表示应力、惯性、渗透性和扩散。医学图像领域，张量场是弥散张量成像的理论基础。

学新通

7 地理信息可视化

7.1 灵活多变的地图

比如我们出去旅游，到了饭点该吃饭了，我们如何能快速的找到一家想吃的店就餐呢？通常我们可能会选择高德地图或者美团，而这些软件就涵盖了将地理信息可视化。

地理空间数据描述的是对象在空间中的位置和属性。地图绘制有以下几个方法：
①等角度投影，被广泛应用于航海和航空，但是面积变形明显

学新通

②等面积投影

学新通

③等距离投影（方位角投影），多用于导航地图

学新通

该如何展示对象的属性信息呢？

学新通

7.2 地图上的点与线

①点：由经纬度坐标和对象的名称、类别组成。地理数据可视化最基础的类型。
②线：连接两个或更多地点的线段或者路径

7.3 区域数据可视化

区域数据的属性往往是一些统计值，典型的可视化方法有：

①等值线图，不仅需要绘制等值线，也需要标注数值大小
②分级统计图，包括统计值的区域数据，用颜色代表数值。这种图不能很好的展示面积占比小但是数据特别重要的数据，造成视觉误导。
③比较统计图，根据选票数量和人口进行相应的面积缩放，可能会造成面积大且人口少的比面积小但是人口多的显示面积更小。

学新通

我们可以采用连线和集合等方法展现区域属性之间的多元关系。区域之间的关系也可以采用视觉编码的方式。

7.4 地理可视化应用

学新通

城市数据的可视化的挑战：数据量大、多源异构、需满足多样的分析任务、需表达让用户更容易发现数据特征的数据。

学新通

多个数据源数据融合的推理系统，包括出租车轨迹数据、手机轨迹信息数据、微博数据等多个数据源的数据。由于数据维度不一、属性各异，所以系统针对每一种数据源都设计了高效的数据存储和计算方法，并建立了各个数据对象在时空上的关联。

学新通

8 时变数据可视化

8.1 时间属性的可视化

时变数据：随着时间变化的、带有时间属性的数据。分为：时间序列数据、顺序型数据。特点是量大、维数多、变量多、类型丰富以及分布范围广泛。

8.1.1 时变数据可视化设计的三个维度

学新通

8.1.2 多变量时变型数据可视化

可视化需要兼顾数据本身的属性和数据集的顺序性，结合数据分析的方法来展现和挖掘集中的规律。

第一步，数据抽象，包括数据降维、特征选取和数据简化。
第二步，数据聚类，核心在于定义恰当的距离或相似性度量。
第三步，特征分析，包括特征提取、语义分析等操作。

两种可视化形式：①基于线表示 ②基于图结构

交互：表现重要的区域。方法：概览加上下文、层次细节。
时变型数据可视化常用的一种交互手段是从时变型数据中查询特定的时间序列，以便交互地发现特征和趋势。

8.1.3 流数据可视化

流数据的输入数据并不存储在可随机访问的磁盘或内存中，而是以一个或多个“连续数据流”的形式到达。

流数据处理没有固定的模型。

学新通

用户交互包括三个部分：对输出内容的可视检索、对可视布局的基本交互、自定义的数据定制。

学新通

9 树结构

9.1 树结构简介

树结构主要用来表达个体之间的层次关系。

学新通

9.2 树结构可视化

9.2.1 结点链接法

用点表示树的结点，用边链接来表示结点之间的关系。其核心问题是如何在屏幕上放置结点以及如何绘制结点之间的链接关系。

学新通

正交布局：节点按照水平或垂直对齐、布局与坐标轴一致，但是会导致不合理的长宽比。
Ⅰ 缩进法：主要指在二维平面上用缩进的方式放置子结点，同一层次的结点缩进量相同，比如文件目录结构。易于实现、可用于纯文本或HTML，但是浏览大量数据时需要滚动，可能失去上下文信息。

为了避免空间浪费，提出了径向布局。
径向布局：更好的利用空间、根节点位于圆心，结点到圆心的距离对应于它的深度、越外层的同心圆越大。

9.2.2 空间嵌套填充法

可以充分的利用空间，解决了结点链接法空间浪费和结点重叠的问题。
特点包括：用矩阵表示结点、假定叶结点具有与大小相关的属性、父结点的大小是子结点大小的总和。但是存在结构不够直观以及难以辨识深层次节点的缺点。

学新通

9.2.3 混合方法

学新通

树结构美观性的需求：避免交叉的边、结点和边尽量均匀分布、边的长度一致、整体结构保持对称。

10 图结构

10.1 图简介

图用来表述实体间关系的一种结构。图分为无向图、加权图、有向图、完全图、连通图等。图可以让人们更加直观清晰地理解其背后数据所表达地含义和规律。

10.2 图可视化

图有两种可视化方法：节点链接和邻接矩阵

节点链接布局方法：力引导布局方法、多维尺度布局方法

也存在其他节点链接布局方法：

邻接矩阵布局：

学新通

二者对比：

学新通

为了各取所长我们有一种混合方法：

10.3 图的视觉优化

随着网络规模变大，传统方法的可视化会形成视觉混杂度，并阻碍人们对真实数据的认知。
图优化的方法：图简化、边绑定和其他方法

图简化：在尽量不减少图信息的前提下，用最精简的图结构去表现数据背后的特征规律。图简化主要分为基于点、基于边和其他方法。

学新通

减少了图的复杂程度但是带来了信息的丢失

边绑定：在保持信息量不变的前提下，将图上相互靠近的边捆绑成一束，达到化繁为简的效果。

10.4 动态图简介

现实中需要研究很多动态的图，数据是动态变化的。动态图的目标是尽量保持每一帧的连续性和一致性。主要的动态图可视化方法为：动画法、时间轴以及其他方法

动画法：让两个时刻的图之间可以平滑过渡，不出现突兀的切换，以便更好地观察两帧之间地差异，理解它们的变化过程。

时间轴：把动态图中的每一帧都直接展示出来，并按照时间先后顺序拜访，更注重时间特性上的分析。

学新通

10.5 图可视化工具与应用

图可视化工具主要帮助开发者构建可视化分析系统。

学新通

还有其他工具~

11 文本数据

11.1 文本数据可视化简介

词云是一个自动化的文本可视化工具，它可以自动提取高频词、呈现高频词、字体大小体现单词出现次数。

文本可视化的重要意义：在于帮助用户快速地完成大量文本阅读和理解，并从中获取重要的信息。
文本可视化的基本任务：

文本可视化流程：

学新通

11.2 文本内容可视化

11.2.1 基于关键词的内容可视化

常见方法有：标签云/文本云/词云。先检索关键字并以模式排列，再用颜色和大小进行编码。

上下文一致的词云技术：语义相关或者相近的词总会出现在相近位置。

11.2.2 基于特征的内容可视化

文本特征：句子的平均长度和词汇量

文本特征透镜：用于可视化一个文档集合中文本特征在不同粒度下的分布情况。
ConceptVector技术：利用单词在向量表达上的相似性来构建词典，或者说概念，以此来帮助用户检索和分析相关的文档。

11.2.3 时序文档的内容可视化

时序词云：对文档集合进行时间划分、对文档按时间段进行可视化、结合交互技术

11.3 文本关系可视化

文本的关系主要有：论文之间的引用、网页之间的超链接、相似性、层次性。常用的方法有图布局和投影布局。

可视化分为两类：句子层面的文本关系可视化和文档层面的文本关系可视化。

单词树从句法层面呈现文本词汇的前缀关系，单词树利用树形结构来可视化文本中的句子。

学新通

短语网络：用节点链接图来展示无结构文本中语义单元彼此间的关系。

学新通

句子树：

学新通

文档层面文本关系可视化：

学新通

当视图越来越复杂时，单一的视图无法满足数据分析的任务，因此有一种多协同视图解决这个问题。提供一个文本可视化网站：http://textvis.lnu.se/

12 高维数据

学新通

12.1 数据及其维度

一维数据可以使用饼图、直方图或者折线图等方式展现。
二维数据可以使用散点图显示。
三维数据也可以使用散点图展示，但是屏幕是二维的，三维散点图的点与点之间会遮挡，从不同三维视角观察数据点会得到不同的分布。

维度大于等于2的数据称为高维数据。高维数据可视化的挑战可以通过增加视觉通道的数量来实现，但是视觉通道的数量是有限的，人眼最多能分辨五六个视觉通道。也可以使用多视图协同，但是视图太多也不利于数据分析。

12.2 高维数据变换

可以采用用低维表示高维，即数据降维，但是会导致信息丢失。数据降维主要采用的方法有：使用线性或者非线性变换将高维数据投影到较低维子空间，优点是消除冗余、减少被处理数据的数量以及数据呈现方便。因而被广泛的应用于数据可视化、数据挖掘以及模式识别领域。

学新通

主成分分析方法当面对多维向量时，需要找到若干个新的投影维度，使每个维度的数据方差最大，每对维度之间的协方差最小，优点是可以去除冗余信息，每维度之间线性无关。

12.3 高维数据可视化呈现

二维散点图的数量和维度的平方成一定比例。

平行坐标轴是展示高维数据的有效方法。

平行坐标轴可以反映出属性间的相关关系。平行坐标轴比散点图有更好的空间利用率，但是对非相邻属性之间关系的表现相对较弱。

学新通

基于图标的方法也得到了广泛的应用，主要存在用图标表达多元数据对象、不同图标元素表示不同属性的特点，典型代表有星形图和切尔诺夫脸谱图。

数据点数量很多时，不适合使用基于图标的方法。该方法的关键点是要选择易于被感知的视觉元素、映射必须直观易懂。

像素图：可以充分利用屏幕空间、每个像素点都表示数据点、利用密集以及不同颜色像素表示数据

学新通

13 交互

13.1 可视化交互简述

主要交互方法有：选择、探索、重配、编码、抽象/具体、过滤和链接

学新通

13.2 可视化交互空间与模型

可视化的交互空间主要有用户和可视化程序交互时所处的空间或者视窗，主要空间有：屏幕空间、数据值空间、数据结构空间、可视化参数空间、可视化结构空间、数据/物体空间、虚拟和现实空间。

可视化交互模型：概括细节模型、聚焦上下文模型、对偶界面模型、多种混合交互方式、混合多种交互设备。

在对大数据进行可视化的时候我们往往会遇到数据太多一下子（指时间短暂或动作迅速）（指时间短暂或动作迅速）显示不全的问题。
对偶界面模型可以让用户在不同的界面中基于数据的不同性质采取不同交互。
混合交互设备兼顾好的观感体验和便携性。

13.3 可视化交互设备

13.4 可视化的价值和评估

可视化是帮助用户从数据中获取新的知识，价值影响因素有用户已有的专业知识和技能、用户需要的知识。用户是可视化价值的体现者。

可视化评估：帮助用户认识到可视化的作用，在专业领域或其他使用场景中接受使用可视化。

学新通

评估方法：
①定量评估：用户实验
②定性评估：观察、采访、其他评估方法

14 可视化工具

14.1 可视化工具简介

学新通

14.1.1 交互式工具

易用性强，完全面向用户

当我们遇到表格型的数据时就可以使用Power BI充分了解数据。

Gephi初衷是用简单的点和线描绘丰富的数据世界

学新通

14.1.2 配置式工具

易用性一般，用较少的代码量完成较为完整的可视化工作

学新通

堆叠2视图

多个视图排列

定义多个视图位置

重复生成多视图

其他配置式可视化工具

学新通

14.1.3 编程式可视化工具

易用性弱，用户使用较为底层的代码库，自由组织可视化元素，并添加复杂的交互功能。

①Processing

processing论坛：https://discourse.processing.org/

②D3

学新通

总之，可视化工具的适用场景是帮助缺少编程基础的用户完成对简单数据的简单直接的任务需求。

学新通

15 可视化应用实例

15.1 可视化与形象思维

可视化的本质是一种通过生成与人的视认知相一致的图形符号，利用人的视觉感知能力提升人的认知的方法。

学新通

图表表达可以提供搜索与认知的便利，句型表达在搜索时需要记住更多的信息。

学新通

15.2 大数据可视化的作用

学新通

可视分析核心观点：人类与机器协同工作。

15.3 大数据可视化的应用案例

更新结束，✌！

这篇好文章是转载于：学新通技术网