CrossData: 利用文字和数据之间的关联(CrossData: Leveraging Text-Data Connections for Authoring Data Documents)

研究者常用数据文档来记录在进行数据探索中的各种发现。尽管目前已经有相当多的工具可以被用于进行数据探索,但是针对帮助进行数据文档编写的工具仍然很少。研究者们仍然需要通过手动的方式记录和维护数据文档。于此同时,一旦数据本身发生更新,对应的数据文档就需要进行修改;由于缺少对应的工具,手动地对数据文档进行修改和维护始终是一件乏味且容易出错的事。为了解决这个问题,来自加州大学圣地亚哥分校的研究者们提出了CrossData,通过自动识别数据和文本之间的关系,来帮助对数据文档的编写。

研究者们首先通过访谈的形式,总结了用户在进行数据探索,编写数据文档时所遇到的各类问题。用户们普遍会在数据探索工具(如Excel软件)和文本编辑软件(如Word软件)之间来回切换,并通过截图以及复制粘贴的方式编写数据文档,记录他们的发现。有时,用户也需要用到其他工具帮助做一些分析,如使用计算器进行一些统计值的计算。而当数据发生更新,或是探索方向发生变化,导致数据文档需要修改时,用户只能通过手动的方式,逐行逐条地修改检查对应的文本,以更新数据文档,防止其中可能出现的不一致和错误。研究者们认为,导致这些问题的更本原因在于,当前阶段对于数据文档的编写割裂了数据和文字之间天然存在的关联,因此将他们的工作聚焦于如何识别并保持数据和数据文档直接的关联,以帮助用户编写数据文档。

CrossData系统主要包含三个部分,分别是专门识别文字和数据关联的关联识别模块,帮助数据文档编写的交互模块,以及维持数据文字一致性的更新模块。关联识别模块中,研究者们借用了NLP邻域的相关成果和工具,将句子分割解析成依赖关系树。研究者们定义了两种实体——独立实体和依赖实体,分别指原始数据中包含的数据项和原始数据中没有包含的,依赖其他数据项计算得到的值。通过NLP工具,CrossData系统能够识别出句子中的实体,针对独立实体,采用字符串匹配和语义匹配的方式推荐候选实体;针对依赖实体,系统更具依赖树解析计算实体值的方法,并自动计算相关的值。这样,系统就能够在用户输入句子的时候,自动地提供相对应的候选实体补全,以及自动计算其中相对应的依赖值。

CrossData系统可以帮助用户交互地编写数据文档,同时也支持简单的图表插入。

在交互部分,CrossData系统通过自动地根据已经输入的文本,筛选出相关的数据项或是中间依赖实体的值,并展示给用户的方式,减少用户在数据探索工具和文本编辑工具之间的切换,大大方便了用户对于数据文档的编写。CrossData还提供了占位符功能,用户可以使用占位符代替需要计算的依赖实体,而CrossData系统则会在句子完成之后,自动地计算占位符处的实体值,并填充进去。用户可以通过这种方式,让系统自动地进行简单的数据计算,而不需要在编写数据文档的过程中使用另外的工具,如计算器。除此之外,系统还提供了对应的纠错交互,帮助用户纠正自动化算法的错误,如错误的依赖关系等。

自动补全功能,以及将相关联的数据项、中间值展示给用户。
使用关键词Diff作为占位符替代需要计算的差值,而系统则会在句子完成后自动计算需要填充的值,使用相应的计算值替换原本的占位符。

第三部分更新部分则是利用了前两部所建立的数据和文本之间的对应关系,自动地维护数据文档和数据之间的一致性。即当数据发生更新,或是数据文档中的句子里的实体发生变化,相对应的计算值会根据建立好的关联性自动地更新。研究者们还扩展了针对嵌入数据文档中的简单图表的自动更新,其原理与文本句子一致。

自动更新以维持数据和文本的一致性。左侧为数据发生修改后,对应的文本中的值也会更新,同时相应的计算关键词(increased)在数据改变后不再适用,也被高亮显示出来。右侧则为句子中的实体发生改变,相对应的计算值也会同步更新。

针对该系统,研究者们进行了两项评估实验。首先他们使用摘抄自WHO等真实的数据分析报告中的句子测试了自动化推荐算法的有效性。通过测试,他们发现,在529个依赖性实体推荐中,有88.8%的实体成功地出现在了系统推荐的top5中。对于失败的例子,主要存在三个原因,包括缺少上下文(如前后两句话存在联系,进而导致单独分析一个句子存在内容缺失),针对数字的文本表达(如使用约五分之二替代43%),以及未被系统所涵盖的计算三部分。

另外,研究者还进行了用户实验。进行测试的8位数据分析专家普遍赞同该系统是一个有用且易学易用的系统,能够帮助他们进行数据分析。有一位专家表达了对于占位符的理解和学习成本的担心。专家们还对系统提出了一些建议和意见,如需要提供针对邻域的计算扩展包,帮助系统更好地适应有特定需求的分析等等。

这篇文章提出了CrossData,一种帮助进行数据文档编写的方法,并实现了原型系统。CrossData通过识别和维护数据和文档之间的天然关系,帮助用户快速进行数据文档的编写,同时提供了自动化的更新,帮助在数据或是文字发生更新迭代时,保持一致性,避免了用户人工手动地进行更新和纠错。

参考文献:

[1] Chen, Zhutian, and Haijun Xia. “CrossData: Leveraging Text-Data Connections for Authoring Data Documents.” CHI Conference on Human Factors in Computing Systems. No. 410, pp. 1–15, 2022.

评论关闭。