基于话题探索和嵌入式可视化促进研究思路生成 (Topic-based Exploration and Embedded Visualizations for Research Idea Generation)

研究者经常需要通过写作的方式讲述自己的研究思路。在写作的过程中,随着新的观点以及相关论据被引入,针对问题的研究思路会得到调整和逐步完善。这是一个认知构建(sensemaking)的过程,可以分为两个阶段:构建框架(framing),完善细节(elaboration)。具体到一个提案的写作过程中,在框架阶段,研究者会创建和修改整个写作的提纲;在细节阶段,会加入更多的相关工作支持论点。本工作调研了研究者在写作过程中的痛点,构建了一个系统,减轻写作负担,促进研究想法的生成、完善。

作者首先调研了研究者在写作过程中主要挑战,包括:

  • 上下文切换(Context switch)。在写作的过程中,研究者需要查阅相关文献以支持自己的论点,因此需要在写作和文献检索两个不同的活动中不停切换,这带来额外的精神负担。
  • 论据不平衡(Evidence imbalance)。在论证想法可行性时,研究者更偏向发现支持自己的论点的文献,而忽视了与想法不一致的文献。
  • 多学科障碍(Disciplinary barries)。研究者往往对自己所在领域的文献很熟悉,因而会更多引用所在领域的文献。而对于一些跨学科的研究而言,通过关键词查询文献的方式往往会有很多遗漏。
  • 引文集中(Citation-based clusters)。研究者通常使用论文引用网络发现相关工作,而已有研究表明引用关系和主题相似性的关联度并不高。过度依赖引用网络,会遗漏在网络外的相关工作。

针对以上的挑战和研究者的使用反馈,作者提取了以下的设计需求

  • 支持构建框架和细节完善两个阶段。在集成的系统中,用户既可以写作,又可以完成文献的检索,不用来回切换。
  • 提供多种获取相关工作的方式。为了解决上面的挑战,作者认为文献的获取不能仅仅依赖查询关键词的方式,而需要支持对于文献集语义的探索。
  • 自动推荐引用文献。系统能够基于写作的语义,推荐和当前写作相关的文献。除了引用文献的元数据,系统也提供关于文献的引用和被引用信息,帮助用户判断该文献与当前写作的相关性。
  • 文献检索时提供写作的上下文。作者发现在文献检索时,同时让用户保持对当前写作进展的认知可以帮助用户决定文献的查询和引用。

基于以上的设计需求,针对写作过程中的框架构建和细节完善两个阶段,作者分别设计了写作视图和探索视图。系统首先从用户上传的文献集或者公开的文献集中提取文献的摘要和内容,然后用LDA模型计算得到每个文献的主题分布,从而在语义上检索文献。

图 1. 写作视图。a) 用户管理文档;b) 编辑界面;c) 引用文献面板

在写作视图(图1)中,用户可以管理已有的不同文档(a),在编辑界面写作(b)。通常一个提案包含不同的段落,系统会自动从已有的段落中使用训练好的LDA模型计算主题,通过计算段落主题与数据库中文献主题的相似性在视图(c)中推荐可以引用的文献。视图(c)中列出推荐的文献(Recommended),以及当前文档已引用的文献(Cited),用户标记的文献(Bookmarked)。表示帮助用户评估推荐文献与当前文档相关程度,作者设计了一个时间轴视图,红色的圆点代表该文献,在文献发表时间前的灰色柱状图代表文献内的引用的时间分布,蓝色的柱状图代表用户标记过的文献分布;在文献发表时间后的灰色折线图代表该文献被引的时间分布,蓝色的折线图代表用户标记过的文献分布。对比文献10和11,我们可以发现,引用文献10的论文用户有过多次标记,表明文献10所在领域用户可能更熟悉,而文献11处于用户的熟悉工作外。

图2. a) 搜索框;b) 关键词和话题视图;c)论文搜索结果; d) 写作缩略图

在探索视图中(图2),用户有两种检索文献的方式,根据关键词搜索主题得到文献,或者直接搜索文献题目和摘要中的关键词(a)。视图b左侧为关键词列表,每个条带的宽度代表该关键词在不同话题中的加权权重,表明关键词的重要性;右侧为主题列表,每个主题中会有多个关键词,每个条带的宽度代表该关键词在改主题中的权重,每个主题前的圆形大小代表包含该主题的文献数量;视图c中展现了搜索返回的文献列表,依据文献的主要话题分组;视图d展现了当前的写作状态,颜色越透明,表明该段文字越长时间没有修改。左侧的橙色标记表明在该段落处存在一篇引用。视图d帮助用户在探索文献集时,同时保持对当前写作进展的概览,从更好的决定引用的内容。

为了评估系统的有效性,作者设计了用户实验对比了该系统和搜索引擎的使用效果。五名参与者分别使用该系统和搜索引擎写两篇不同的研究提案,结果表明通过该系统,用户在完成的提案中包含更多的核心名词,表明用户写作的思路更加开阔。作者还观察到,在写作的后期,由于关键词数量有限,用户更倾向使用基于主题的文献探索。作者认为该系统更适合某个领域的研究新手使用,帮助他们扩展思路,避免论点、论据的遗漏,而成熟的研究者可以基于已有的知识和文献的理解写出较完整的提案。

总而言之,该工作面向研究者写作过程中的痛点,设计了一个“可视”写作系统,利用主题模型向研究者推荐文献引用。不同于传统基于关键词的文献检索方式,系统支持进一步的基于话题的文献探索。生活、科研中我们会遇到各种问题,面对这些问题,大部分人都会选择用已有的方式解决,尽管解决的方法不方便。如果能够进一步深入思考,也许就有了不一样的想法。

参考文献:

Hua Guo and David H. Laidlaw. Topic-based Exploration and Embedded Visualizations for Research Idea Generation. TVCG 2019, to appear.

1 条评论。

  1. 非常好的博客!可惜RSS订阅功能坏了……