下面我介绍一下我们研究院在数据可视化方面的工作。
近十年来,数据可视化作为一门新兴学科,在信息表达能力上得到了广泛认可,完成了从零到一的转变。但由于制作门槛相对较高,可视化内容的制作只能由少数专业人员完成,限制了数据可视化的发展。要实现从一到万的转变,必须普及数据可视化。
视觉内容生产过程虽然复杂,但理解门槛相对较低。研究表明,90%以上的信息是以视觉元素的形式进入人脑的,所以普通人不经过专业训练,天生就具备从图形图像中发现信息、发现规律的能力。此外,相比枯燥乏味的文字,人们更多地被精美的平面设计所吸引,对视觉内容的理解和阅读有更强的兴趣。这些都使得可视化技术拥有庞大的潜在用户群体,也预示着可视化内容作为一种大众消费内容的巨大潜力。
据统计,自2010年以来,互联网上的可视化内容数量增长了100多倍,2019年超过80%的博文至少有一张可视化图表。可见,可视化的普及不仅仅是我们的视野,也是一个正在慢慢发生的趋势。
说到数据可视化,你可能首先想到饼图、直方图等传统图表。不可否认,这些现在是并且将永远是数据可视化的重要手段。但随着新数据类型的出现和计算机技术的加持,新的数据可视化技术不断涌现(如图1所示)。但可视化的本质并没有改变:抽象的数据或信息以直观的视觉元素展现出来,帮助人们快速理解内容、发现规律、交流信息。一个好的可视化内容,可以高度概括纷繁复杂的数据,同时也让隐藏的规律变得清晰明了。当这个大数据已经成为基本的生产资料,
进入20世纪,可视化日益彰显出其不可替代的价值。
对于数据分析人员来说,可视化技术可以帮助他们理解每天持续产生的海量新数据。虽然机器学习方法可以从浩瀚的原始数据中提取关键信息,但这些信息只有在人们理解并做出最终决策时才能真正体现其价值,而可视化可以帮助人们完成这最后一步。首先,它可以让枯燥繁杂的数据变得清晰友好,帮助人们快速全面地掌握关键信息;其次,可视化系统往往支持实时处理和交互分析,可以帮助决策者跟踪变化并理解变化背后的原因。统计数据显示,在可视化技术的帮助下,人们有28%的概率能够更及时地做出判断和决策。
另一方面,普通人对可视化的需求是巨大的。在这个大数据时代,每个人都可以很容易地在互联网上找到各种信息。但快节奏的生活也导致人们不愿意花太多时间去了解各种信息。研究表明,人们平均只花37秒在一篇在线文章上。那么如何才能在37秒内将想要表达的信息流畅准确地传达给读者呢?答案是可视化。可视化作为一种高效的信息载体,正好满足了人们对这种快餐式信息的需求。
虽然可视化具有上面提到的许多优点,但不必说所有可视化内容都能提供这样的好处。如果我们简单地把数据堆在画布上,这种所谓的可视化很可能适得其反,让人们更难阅读。所以我们上面所有的描述都有一个前提,就是“好的可视化”,也就是我们需要在设计和数据之间找到一个平衡点。
首先,好的可视化要能高效表达它想要传达的信息,既不能复杂到失去焦点,也不能简单到失去信息;其次,一个好的可视化要符合人们的习惯,能够自我解释。换句话说,人们可以在没有指令帮助的情况下毫无障碍地阅读;再一次,一个好的
形象化要美观,美观的设计能大大增强对读者的吸引力。如果把可视化比作数据对设计的一次翻译,那么我们可以认为,这些都是可视化对“信、达、雅”的要求。
对于普通人来说,制作一个符合上述要求的视觉化内容肯定不是一件容易的事情。从获取信息到制作可视化内容,主要面临三大挑战:一是信息获取的障碍,如何操作复杂的数据分析软件从数据中提取重要信息?其次是设计上的挑战。什么样的设计才能优美高效地表达我们想要传达的信息?最后是生产方面的挑战。如何通过各种工具制作最终的可视化内容?要让大家随时随地便捷地使用可视化内容,实现公共可视化,必须克服这三大障碍。
大众可视化的关键是让大家无障碍地做好可视化。但是,人们使用信息可视化的场景差异很大,不同场景下人们遇到的障碍也不同。在此,我们选取了两个常见场景进行一些初步探索。
文本转换
设想一个场景,某人正在准备一篇文章或演示文稿幻灯片放映。在这个过程中,他觉得有一点需要强调。此时,添加信息图是一个不错的选择。现在,他需要上网为infographic的设计寻找一些灵感,然后使用合适的工具来做这个设计。这个过程需要大量的时间和精力,许多可视化的潜在用户可能会放弃这个选项。
对于这个场景,我们设定了一个目标,即生产过程完全自动化。这个可视化的生产过程就像一条全自动的流水线,输出的产品是可视化的内容,输入的原材料我们选择对用户要求最低的自然语言。
当然,由于一般类别的信息多种多样,在本研究中,我们选择了信息图形中最常见的关于比例的类别信息。例如,用户的输入
融入“5个中国人中有3个生活在农村”这句话(每5个中国人中就有3个生活在农村),那么我们就会自动设计出合适的信息图(如图2所示)。
从用户输入到信息图输出,这显然不是一项简单的任务,其中涉及诸多技术难点。为此,我们设计了一个复杂的过程。首先通过自然语言分析从文本中提取关键信息,如什么是整体、什么是部分、什么是比例等;然后,我们在网络上收集了大量的设计案例,并在这些案例的基础上总结设计了一套自动设计算法,将信息转化为图形、布局、颜色等,最终综合出许多可能的信息图;最后,我们对信息图进行多个维度的评价打分,输出系统推荐的最佳结果。
详情请参阅论文Text-to-viz:从命题相关的自然语言语句自动生成信息图(IEEE VIS 2019)。
论文链接:
数据热点
如今,我们经常在网上看到各种类似“关于互联网的十大事实”的数据海报。这些海报以多种视觉元素简明地描绘各类信息,以达到教育宣传的目的。但这张海报的制作也是一项极其复杂的工程。并不是每个人都能像数据分析师一样,使用各种复杂的工具来分析数据线,提炼故事,然后清晰简洁地呈现出来。所以我们也尝试将这个过程自动化。