作者存档: 李, 金城

将人类知识纳入数据嵌入以提高模式显著性和可解释性(Incorporation of Human Knowledge into Data Embeddings to Improve Pattern Significance and Interpretability)

降维是一种常用的高维数据可视化方法,它将高维数据投影到低维空间,在产生的投影中保留原始数据的特定特征。降维的典型分析过程分为两步。用户首先寻找投影中特殊的视觉结构(如离群值和聚类),然后解释每个视觉结构中的模式。然而,显著和可解释的结构并非总是存在。这会导致用户的后续分析难以开展。另一方面,用户知识可用于提高模式显著性和可解释性,从而构建结果驱动的分析流程。知识指的是用户对目标数据集的整体理解,这来自于他们的经验。这篇文章 [1]提出一种实现基于知识数据分析的嵌入方法。

继续阅读 »

DumbleDR: 预测用户对降维投影质量的偏好(DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality)

降维是一种常用的高维数据可视化方法,它将高维数据投影到低维空间,在产生的投影中保留原始数据的特定特征。由于不同降维方法旨在保留数据的不同特征,它们可能会产生十分不同的结果。为了帮助用户选择合适的结果,研究人员提出了多种降维结果评估方法。这些方法可以大致分为定量度量和定性判断两类。前者可以进一步分为评估信息保留程度的准确性度量和评估视觉模式显著性的可解释性度量。定性判断由人类偏好驱动。比如,研究人员发现用户的专业知识越多,他们的判断就越一致 [1]。虽然可供使用的评估方法有很多,但在评估中仍存在一些挑战。首先,用户偏好没有被很好地描述,他们在选择投影时关心哪些方面仍不清楚。其次,量化指标和定性判断之间存在缺口,我们不知道衡量标准能在多大程度上反映用户的偏好。最后,这些方法缺少对投影选择的进一步指导,他们无法预测用户可能喜欢的投影并解释为什么喜欢这些投影。

面对这些挑战,作者们提出DumbleDR [2]。他们首先通过实验来分析用户在降维中的主观偏好,然后开发了通过组合质量指标来预测用户对投影偏好的模型。基于模型,他们提出DumbleDR,一个支持对投影进行排名并显示哪些指标驱动排名的网页工具。

继续阅读 »

Crystalline:降低开发人员为决策收集和组织信息的成本(Crystalline: Lowering the Cost for Developers to Collect and Organize Information for Decision Making)

在遇到编程问题时,开发人员需要搜索网页并理解其中的内容,以找到对应的解决方案。一般来说,解决方案通常有多个由不同标准表征的选项。比如,开发人员可以将numpy ndarray和numpy matrix作为高维数据数据格式的候选,然后根据是否包含内置矩阵操作、是否支持任意维度数组以及是否可以获得长期支持等标准来进行选择。面对众多的网页以及各种可能的衡量标准,提供工具来帮助开发人员收集、组织和理解信息,以促进进一步的决策变得必要。

继续阅读 »

定量和定类高维数据的对偶分析(Integrated Dual Analysis of Quantitative and Qualitative High-Dimensional Data)

对偶空间分析(dual space analysis)是一种先进的高维数据分析方法。它包含维度空间和数据项空间,用户在一个空间上的操作会反映在另一个空间上,从而使得用户可以同时探索它们,联合地研究维度空间的结构和数据项空间的分布(图1)。然而,以往的工作没有平等地处理定量维度和定类维度,后者通常只用来定义数据项子集。这可能会导致有趣的模式被忽略。面对这一局限,作者提出两个能够同时描述定量和定类数据的统计度量来扩展当前对偶空间分析的框架,并开发了一个原型系统来帮助用户完成联合的探索性分析 [1]。

继续阅读 »

用于比较分析的交互式降维(Interactive Dimensionality Reduction for Comparative Analysis)

比较数据中的两个群组或者多个群组以确定使这些群组彼此相同或不同的因素是一项常见的分析任务。对于高维数据,降维方法经常被用来寻找每个群组的特征。然而,现有的降维方法进行比较分析的能力和灵活性有限。比如,无监督降维方法(如PCA)在计算时不会考虑数据的标签信息,有监督降维方法分析的目标较为狭窄(如LDA只识别最能区分群组的因素)。另外,大多数降维方法都不允许用户进行观察层面的交互,这极大限制了比较的灵活性。为了解决这些问题,作者提出新的降维方法ULCA(unified linear comparative analysis)和交互式降维框架 [1]。

继续阅读 »

第八届中国可视化与可视分析大会(ChinaVis 2021)Day 0

第八届中国可视化与可视分析大会(ChinaVis 2021)于2021年7月24日至27日于武汉东湖国际会议中心进行。北京大学可视化与可视分析研究组袁晓如研究员与二十余名学生参加此次会议。24日是正式会议的前一天,与大会相关的若干活动在这天进行,包括第四届中日可视化交流研讨会、两个可视化相关课程、博士生论坛、可视化与可视分析专委会会议及会议委员会工作会议等内容,吸引了众多国内外可视化领域专家学者参加。

继续阅读 »

Bio+Med+Vis Spring School Day 3

2021年5月19日,生物和医学可视化春季学校Bio+Med+Vis第三天,来自林克平大学的Ingrid Hotz教授,印度科学研究所的Vijay Natarajan教授,犹他大学的Alex Lex教授,卑尔根大学和霍克兰德大学附属医院的Noeska Smit副教授,马格德堡大学的Gabriel Mistelbauer研究员讲授相关内容。

继续阅读 »

Bio+Med+Vis Spring School Day 2

2021年5月18日,生物和医学可视化春季学校Bio+Med+Vis第二天,来自卑尔根大学的Helwig Hauser教授和Stefan Bruckner教授,德国图宾根大学的Michael Krone教授,哈佛大学的Johanna Beyer研究员,nanographics公司联合创始人和首席技术官Peter Mindek,Kitware公司联合创始人Will Schroeder博士以及加拿大不列颠哥伦比亚省癌症中心迈克尔-史密斯基因组科学中心的Martin Krzywinski讲授相关内容。

继续阅读 »

IEEE VIS 2020 – Day 3

10月27日是IEEE VIS 2020正式会议的第一天。上午的开幕式上,大会主席、来自美国犹他大学的Valerio Pascucci教授和Mike Kirby教授介绍了大会的基本情况。大会吸引了来自80多个国家的2910名参会者,创下参会人数记录。

继续阅读 »

流式多维数据可视化的增量降维方法(An Incremental Dimensionality Reduction Method for Visualizing Streaming Multidimensional Data)

降维方法常用于多维数据的分析和可视化。然而,由于(1)高计算复杂度,(2)无法在不同时间步的降维结果中保留用户的心理地图和(3)无法处理数据包含不同维数的情况这三个挑战,降维方法无法直接应用到流式多维数据中。本文[1]介绍了一种增量式降维方法来解决这些挑战,使得用户能够实时可视化和分析流式多维数据。

继续阅读 »