文本搜索功能对于网页端可视化的作用(The Effects of Adding Search Functionality to Interactive Visualizations on the Web)

基于文本的搜索被广泛应用于各类信息检索的场景中。但受限于数据类型、交互场景等,各式网页端可视化作品却鲜少提供基于文本的搜索功能。这篇发表于CHI 2018的文章[1]通过对照实验,研究了文本搜索功能在网页端可视化中、对于用户探索与分析数据所带来的具体影响。

搜索(Search)作为一项分析任务,可按照目标或位置是否已知分为四类[2](如图1):即查找(Lookup)、定位(Locate)、浏览(Browse)与探索(Explore)。可视化作为展现数据的视觉媒介,能够很好地支持浏览与探索任务。而文本搜索通常帮助用户进行数据定位,在用户知道数据的名称或标号、却不了解其具体位置时,提供快速的检索能力。

图1. 四类不同的搜索任务[2]

图1. 四类不同的搜索任务[2]

已有的许多工作[3]通过可视化方法增强文本搜索能力,帮助用户展现、并分析搜索结果。相比之下,本文更关注的、是作为辅助功能的文本搜索。作者希望通过具体实验,分析文本搜索对于可视分析行为与策略的影响,进而回答“可视化是否应该提供文本搜索功能”这一命题。

 

  • 实验设计

  1. 实验素材

作者们收集了三个网页端可视化作品、并辅以五个不同的数据集作为实验的基本素材:

图2. 作为实验素材的网页端可视化

图2. 作为实验素材的网页端可视化

1). Board of Directors [4]:来自华尔街日报网站,展现了世界500强企业的董事会人员构成(如图2(a))。其中每个圆点代表一个企业,用户可按照董事会的平均年龄、任期、薪水、性别构成等不同的指标对圆点进行分组,视图左侧辅有文字对特定的指标分布进行概述。

2). 255 Charts [5]:来自纽约时报网站,反映了美国金融危机对255个不同行业的影响(如图2(b))。其中每条折线表示一个行业多年来岗位数量的变化,用户点击折线能够查看更为详细的数据图表。

3). 三个不同数据集的气泡图(Bubble Chart):这些数据集分别为美国高校数据(College)、匿名化高校数据(AnonCollege)、以及地外行星数据(Exoplantes)。其中,College与AnonCollege实质是同一份数据,只是后者的高校名称均为伪造名称。图中每个圆点通过颜色、大小、离中心的距离来映射数据的不同属性(如图2(c))。

这些可视化作品本身均未提供文本搜索功能。作者在其中加入文本搜索后,再随机将带有/没有文本搜索的可视化分配给每个用户进行实验。

  1. 实验流程

图3. 实验流程包含四步:训练,自由探索,自我汇报与信息登记

图3. 实验流程包含四步:训练,自由探索,自我汇报与信息登记

实验的具体流程包含四步:训练、自由探索、自我汇报与信息登记。在训练阶段,用户对可视化进行熟悉和了解。紧接着,用户被要求对其分配到的可视化进行自由探索。探索结束后,用户需要汇报他们在探索中的发现(Insight)、以及所使用的策略(Strategy)。最后,用户对其基本信息进行登记。除了用户的自我汇报外,实验也记录了探索时间、数据访问情况等信息。

  1. 被试构成

作者从亚马逊的 Mechanical Turk网站上招募了830名被试进行实验,实验结束后每名被试可获得2美刀作为报酬。

 

  • 实验结果

作者们从几个不同方面,分别对5个可视化、是否带文本搜索功能的不同情境进行了横向对比。

  1. 数据检索频率

图4. 文本搜索鼓励用户进行数据检索

图4. 文本搜索鼓励用户进行数据检索

由图4可见,当可视化中提供文本搜索时,用户有更高的概率进行特定信息的检索。例如在College数据集中,不少用户重点关注了自己所熟知的高校。这种个人化信息检索的行为,能够有效提高用户的兴趣与参与度。

相较之下,在AnonCollege与Exoplanet数据集中数据检索频率始终很低。这说明用户对于自身并不熟悉的数据,缺乏信息检索的兴趣和突破口。

综上可得结论:对于用户熟知的数据,提供文本搜索能够鼓励用户进行数据检索。

  1. 探索时间

图5. 总探索时间的比较

图5. 总探索时间的比较

由图5可见,不同情境下用户总的探索时间并没有明显区别。在Board of Directors中,提供文本搜索显著增加了用户的探索时间。作者解释称,这可能表明了用户在不同指标下、对搜索结果进行比较。

  1. 对数据细节的关注

图6. 用户浏览数据细节的时间比较

图6. 用户浏览数据细节的时间比较

此外,255 Charts中用户浏览细节的时间远多于其他几个可视化。这是由于在255 Charts中,点击折线会呈现一个全新图表作为数据细节,其包含了更丰富的信息。
由图6可见,当增加了搜索功能后,用户往往花费更多时间访问他/她所感兴趣的、搜索目标的数据细节。而浏览细节信息的时间是用户参与度(User Engagement)的一项重要指标。这也就说明了,增加文本搜索能够有效提高用户在可视分析中的参与度。

  1. 数据访问的覆盖面

图7. 用户访问的数据覆盖面比较

图7. 用户访问的数据覆盖面比较

在图7中,橙/蓝色分别代表了有/没有文本搜索时,数据的访问频率。可见在不提供搜索的255 Charts中,用户更关注较为突出的几个异常曲线。而在不提供搜索的College中,用户普遍关注中心的少数数据点。但提供了搜索功能后,用户访问数据的多样性得到了显著的提升。

这是因为在缺乏检索能力时,用户普遍遵循从全局到局部(Overview to Detail)的分析结构:从分布概貌着手、寻找有显著特征的局部再进行细节分析。而文本搜索提供了直接访问任意局部的切入口,允许用户着重关注自己所熟知的局部数据。

 

  • 总结

在用户对数据有一定了解的前提下,在可视化中加入文本搜索、能够帮助用户快速查找自己感兴趣的局部信息,有利于提高用户兴趣和参与度、增加其访问数据的多样性与覆盖面。而除文本搜索以外,信息检索还有很多不同的渠道和方式,如自然语言、相关推荐、眼动扫描等等。如何设计信息检索以更好地支持可视分析,仍有待进一步探究。

 

参考文献:

[1] Feng Mi, Deng Cheng, Peck Evan M, et al. The Effects of Adding Search Functionality to Interactive Visualizations on the Web. Proceedings of the 2018 CHI Conference on Human Factors in Computing Systems. ACM, 2018: 137.

[2] Matthew Brehmer and Tamara Munzner. 2013. A multi-level typology of abstract visualization tasks. IEEE Transactions on Visualization and Computer Graphics 19, 12 (2013), 2376–2385.

[3] Dörk M, Riche N H, Ramos G, et al. Pivotpaths: Strolling through faceted information spaces. IEEE Transactions on Visualization and Computer Graphics, 2012, 18(12): 2709-2718.

[4] Renee Lightner and Theo Francis. 2016. Inside America’s boardrooms. http://graphics.wsj.com/ boards-of-directors-at-SP-500-companies/. (2016).

[5] Jeremy Ashkenas and Alicia Parlapiano. 2014. How the recession shaped the economy, in 255 charts. http://www.nytimes.com/interactive/2014/06/05/upshot/ how-the-recession-reshaped-the-economy-in-255-charts. html. (2014).

评论关闭。