模糊电子表格:理解和探索表格计算中的不确定性(Fuzzy Spreadsheet: Understanding and Exploring Uncertainties in Tabular Calculations)

电子表格在人们的生活中随处可见:在自然科学、金融商务、电子信息等领域都有着广泛应用。电子表格不仅为用户提供了可靠、方便的数据浏览的方式;并且允许用户使用一些基本的函数对表格数据进行操作,方便用户进行更进一步的统计分析。然而在使用过程中稍加分析,我们可以发现,电子表格本身对于数据中的不确定性以及单元格之间诸如通过函数相连的关系缺乏一种较好的表达方式。本文基于此,提出一种通过单元格内嵌可视化的方法,对传统表格进行“增强”,从而方便地使用户在浏览一般表格数据时,还可以较好地观察到单元格之间的关联性与其内部数值的不确定性。

以Windows系统中最常用的Microsoft Office提供的Excel为例,我们发现虽然其可以通过丰富的函数功能对表格数据进行操作,但直观上来看,我们实际上无法通过眼前的这张表来得知单元格之间隐含的依赖关系。对于表格中出现的不确定性性,传统的电子表格缺乏有力的表现形式。

那么我们应该如何更加直观地查看这些在表中隐含的关系以及“不确定性”呢?在此,我们先对作者的相关工作进行一个简要的概览。作者提出了Fuzzy Sheet表格系统,该表格系统通过紧凑的单元格内的可视化内嵌,以及一个用于表述更具体信息的侧边栏,对传统表格进行增强,使用户可以在浏览原有信息的同时,看到更多的表格内隐含信息。为了方便使用作者将Fuzzy Sheet写成了插件的形式,可以作为组件,对现有的主流电子表格进行“增强”。

在这里,使用一个例子可能会让之前我们提到的问题更加明确。比如,一位先生想要对其两辆汽车进行检修,而他要为该次检修进行价格预估。以传统表格的表现形式如下所示:

图2:汽车检修的实际案例表

让我们对表格进行一个简单的解析:我们先看表格的左半边:

首先看第一辆汽车:他要为部件A和部件B进行检修,如果坏掉则对部件进行替换(也就是拆除旧的并买一个新的),而且他给出了两个部件分别的损坏概率,分别是0.75和0.5,检修是必须的,这部分的概率当然是1。

第二辆车,车主在乎的是汽车的引擎,与之前不同的是,车主已经确定引擎已经损坏,并且要换一个新引擎,也就是新引擎的费用是必须的;而老旧的引擎则有一定概率被回收,换取一定的回收费。 表格的下方给出了费用的总计情况以及其对应的概率。表格的右侧则是检修所需的时间花费。为了方便理解其中的计算关系,我们给出一张计算图,来表示单元格中的内在联系:

如我们所见,目前所的问题其实已经非常明确了:这可以分为以下的两个方面:

  1. 我们不能显式地看到如关系图所描述的单元格内在关系;
  2. 其实一些单元格内所表述的信息是模糊的,如Grand Total项为例,其实它只是以上几项加权并线性组合的某种情况,但并不是全部,很多排列组合的可能出现的总消费值并未在表格中列出,或者说,表格没有能力展现这类情况。(我们想要的是一个概览分布,而实际上表格呈现给我们的仅仅是一个值,也就是分布轴上的某种情况。)

以上就促使我们寻求一个更好的表现形式,使得表格可以更好的展现以上的缺失项。

在具体展示作者的设计前,我们先来看看表格对于数据探索的用户基本需求。用户在使用电子表格的时候,常常可以分为两个主要阶段,分别是“表格制作/填充”以及“表格数据分析”。在这两个阶段,用户分别有如下的基本需求[1][2]:

图3:用户基本需求

在表格创建阶段:

  • 汇总数据
  • 建立联系
  • 指定不确定性以及引入备选方案

在表格分析阶段:

  • 查找值
  • 跟踪联系
  • 计算影响
  • 暴露/显示不确定性
  • 阐述因果关系
  • 比较概率分布

而以上这些用户需求可以简单归类为以下三种更加基本的需求或其组合的形式。 不难看出,“汇总数据”、“查找值”等需求在基本的电子表格中已经可以得到良好的满足,但对于“显示不确定性”以及设计需要解析关系图这种基本需求的目标,传统电子表格仍然无法覆盖。

下面我们仍然使用之前提到过的车辆检修的例子,只不过这次我们使用作者的Fuzzy Sheet来对传统表格进行增强。来看看作者的方法是如何覆盖以上传统电子表格无法满足的用户需求的。

  1. 首先,整体上来看,相较于传统表,Fuzzy Sheet首先对单元格进行了扩充,填入了一些可视化编码额外的信息,并且在侧边添加了sider panel作为内嵌在单元格中的信息补充 。
  2. 现在让我们从使用者角度出发,探索这个表格,并逐步解释其中内嵌的可视化编码。
    • 首先如果我们要初始化电子表格,并选中某个单元格作为当前感兴趣单元格。
    • 如果我们想要探索单元格之间的内在联系,这就使得我们需要选择至少两个单元格作对比分析,其中一个选择为参考单元格,另一个做对照。在这里我们选择Grand Total和Total两个单元格。
    • 其次我们注意到左侧的菱形标志,在右侧的sider bar视图中,可以得知,该图样编码的是“影响关系”,专注于解决Tx,对于感兴趣单元格影响关系更直接的单元格将被标注成更深的颜色。

我们从一张基本电子表格开始,按照作者的思路看它是如何增强这张表的表现力的。

  1. 首先选中一个单元格,这个单元格会被以黄色高亮边框标定为“参考单元格”。(T1)
  2. 而后在右侧的sider bar中,我们可以选择各种视图以进一步对表格进行分析。
  3. 如果我们想了解单元格内在的依赖关系(T2),我们在sider bar中勾选influence选卡,在这里由于grand total作为“被影响者”,故我们选择influencing选项。而后所有对Grand Total直接或简介产生影响的单元格均会产生一个菱形icon作标签。这些icon的颜色深浅代表着关系的“直接”程度。
  4. 现在我们知道了哪些单元格对reference单元格产生影响。但更进一步,我们想要知道这些单元格对最终结果的贡献程度(T3)。于是我们勾选sider bar中的 Impact 和 Probability 选卡。这会让那些与reference单元格存在联系的单元格生成一个方框可视化图元,其颜色值代表着其对最终结果的贡献程度,大小则编码其发生的概率。
  5. 以上的交互还会触发另一个视图,即中间的概率分布视图,由于以上的几个视图没有完全展示所有的概率组合的情况,该视图作为补充,展示单元格所有可能取的值以及其概率分布(T4)。
  6. 由于空间有限,故内嵌到单元格内部的可视化表示无法展示更多细节,故如果用户对某个单元格更加感兴趣,想要了解其细节,可以选中并聚焦到该单元格,右侧的sider bar视图中将会对以上内嵌到单元格中的可视化细节进行扩充。
  7. 在某些情况下,用户想要得知改变某些单元格中的值,会如何对整体造成影响(T5),此时我们可以打开“what-if”分析模式,并修改感兴趣单元格中的值。而后,依赖于该单元格值的所有单元格的取值以及分布均将发生改变,且改变后的概率分布将以粉红配色进行呈现(T6),值的改变将以箭头方式进行表示。这些改变将在单元格内部以及sider bar中的扩充视图同时发生。
图4:表格分析示例(以汽车检修为例)

以上,我们走完了整个分析流程。有趣的是,Fuzzy Sheet恰好可以完全覆盖上文提到的所有用户表格探索分析需求。

另外作者又给出了一个在更加复杂具体应用场景下的例子——某学术会议的收支预算与估计。想要了解Fuzzy Spreadsheet是如何在具体应用场景下去解决实际问题的,可以在原文第七章Usage Scenario中寻求描述。

图5:学术会议收支预算的估计

下面我们来看作者如何对Fuzzy Sheet进行有效性的评估。

首先实验对象以及条件如下: 14人作为参与者,均分为两组各7人,在某在线平台进行对两种表格的使用。实验组为使用Fuzzy Sheet而对照组则使用较为传统的Microsoft Excel。两组成员使用相同的数据集,而后会对两组成员进行一系列的问题测试,最终使用以下指标作为对新系统易用性的考量。

  1. 回答正确率
  2. 回答问题响应时间
  3. 回答问题所消耗的脑力[3]
  4. 系统可用性打分(SUS)[4]

而作者做出的假设也刚好基于以上几点,并具有一一对应的关系:

图6:作者对用户协议的假设

测试结果令人振奋,在整体层面上,以上四个假设均被完美接受,这验证了Fuzzy Sheet系统的可用性与易用性。在易用性打分方面,本系统也获得了“good”的评价,而Excel仅仅得到了“awful”的评价。

然而,整体上通过并不一定代表Fuzzy Sheet在所有的User Task中都有较好的表现,于是作者做了如下的统计(其中绿色一栏为Excel代表的传统表格,蓝色则代表Fuzzy Sheet)。

图7:分部用户实验打分结果

可以看到,在正确率方面,对于相对简单的T1任务,Fuzzy Sheet并不具有任何优势;而在相对复杂的T4 T3任务,Fuzzy Sheet相较于传统表格优势明显。另一个有意思的点在于,我们发现在Mental Effort一栏中,T1任务上Fuzzy Sheet对比传统表格甚至具有劣势,虽然作者没有给出明确的说明,但个人认为是内嵌如单元格中的可视化吸引了用户过多的注意力,使得其没有办法将更多的注意力快速集中到数据本身。这也就是在执行T1任务时其花费更多脑力的原因。

参考文献:

[1] R. Amar and J. Stasko. A Knowledge Task-Based Framework for Design and Evaluation of Information Visualizations. In IEEE Symposium on Information Visualization, pp. 143–150, 2004. Citation Key Alias: amar knowledge 2004. doi: 10.1109/INFVIS.2004.10

[2] M. Brehmer and T. Munzner. A Multi-Level Typology of Abstract Visualization Tasks. IEEE Transactions on Visualization and Computer Graphics, 19(12):2376–2385, 2013. doi: 10.1109/TVCG.2013.124

[3] F. G.W. C. Paas, J. J. G. van Merri¨enboer, and J. J. Adam. Measurement of Cognitive Load in Instructional Research. Perceptual and Motor Skills, 79(1):419–430, 1994. doi: 10.2466/pms.1994.79.1.419

[4] P. W. Jordan, ed. Usability evaluation in industry. CRC Press, 1996.

评论关闭。