数据科学项目既包括数据获取、清洗、建模等技术工作,也包括技术人员和非技术人员的高度合作。例如,数据科学家在构建模型之后,需要向项目相关者展示模型,并从他们那里收集反馈和获得支持。这一过程需要从复杂的代码中定位和提取关键信息,将这些信息组织成数据故事,同时还要根据观众背景的差异改变展示的方式。数据科学家需要耗费大量时间,且容易出错。来自香港科技大学、IBM研究院和密歇根大学的Zheng等人 [1]提出了以用户为中心、人工智能辅助的模型展示幻灯片的制作系统,帮助数据科学家提高效率。
该工作的作者们通过形成性研究来理解数据科学家在制作幻灯片时的任务和挑战。他们首先调研了相关研究和工业标准文档,起草了一个包含常见展示结构的幻灯片纲要,如下图所示。他们根据该纲要,从一个数据竞赛获奖的计算笔记本制作了展示幻灯片草稿。然后,他们让7位数据科学家参与了出声思维的参与式设计。设计过程包含两个阶段。首先参与者根据自己的经验,从前述计算笔记本创建幻灯片。然后该工作的作者们给参与者展示了幻灯片草稿,请他们共同设计,还询问了关于幻灯片创建的挑战和可能的自动化方案的问题。结果显示,参与者赞同所创建的展示纲要的重要性,并帮助该工作的作者改进了纲要。参与者还表达了对部分环节自动化的兴趣。根据这些结果,该工作的作者提出了人工智能辅助系统的设计需求,包括(1)根据观众背景进行定制;(2)准确从项目中提取已有信息并总结为幻灯片;(3)为自动构建幻灯片提供解释;(4)对于不能自动构建的幻灯片,要给用户提供好的例子;(5)允许用户做修改。

据此,该论文的作者设计和实现了人工智能辅助的幻灯片创建系统NB2Slides。该系统的计算流程如下图所示。系统以Jupyter笔记本为输入,根据其结构将其解析为树结构,其中叶子节点为代码单元和其中的注释的信息(步骤1)。随后,系统计算幻灯片描述和代码单元的向量表示,计算时将单词划分为句子,并使用SimCSE来计算句子的向量,然后计算余弦相似度来确定与每个幻灯片最相关的前k个代码单元(步骤2和3)。最后,系统使用CodeTrans中的代码总结模型将代码转化为自然语言。

该系统被实现为Jupyter Lab的插件。用户在配置面板(B)中输入参数,点击生成按钮。系统根据用户输入,自动生成幻灯片,在幻灯片视图(E)中展示。其中,信息包含在笔记本中的幻灯片被自动填入相应的文字,其它幻灯片则由系统提供样例供用户参考,并被进行标记(E3)。用户可以通过工具栏来修改幻灯片,如复制结果图片、增删幻灯片等。笔记本总览(C)和幻灯片纲要总览(D)从全局上展示了输入的笔记本和生成的幻灯片。用户点击一张幻灯片,与生成该幻灯片有关的部分将在笔记本总览视图中高亮。用户进一步点击高亮区域,可以在笔记本视图中查看对应的代码单元,从而理解该幻灯片如何被创建。

12名数据科学家参与了评估实验。实验中他们使用NB2Slides系统,根据关于红酒数据的计算笔记本创建展示幻灯片,完成后他们还需要填写问卷和参与访谈。实验结果显示自动化方法给用户提供了继续修改的好的起点。用户赞同幻灯片的组织方式,并认为自动生成的内容节约了他们的时间。用户问卷(图4)也显示用户认为该系统容易使用,并且高度评价系统定位信息和收集信息的能力。

【参考文献】
[1] Chengbo Zheng, Dakuo Wang, April Yi Wang, Xiaojuan Ma. “Telling Stories from Computational Notebooks: AI-Assisted Presentation Slides Creation for Presenting Data Science Work.” In Proceedings of the ACM Conference on Human Factors in Computing Systems (CHI 2022), to appear.
评论关闭。