作者存档: 李, 金城

以语义属性关联为指导的交互式子空间聚类分析(Interactive Subspace Cluster Analysis Guided by Semantic Attribute Associations)

在高维数据中,子空间指由维度子集构成的数据空间。为了避免数据中的重要模式被无关维度掩盖,分析人员需要选择合适的子空间作为分析对象,而不是在全维度空间进行分析。然而,子空间数量过多是子空间分析的主要挑战。包含d个维度的数据有2d-1个子空间。另一方面,虽然子空间聚类算法可以帮助我们找到包含聚类的潜在有价值子空间,但这类算法存在三个方面的问题:(1)产生的子空间数量依然过多;(2)结果存在冗余,即其中部分子空间十分相似;(3)结果存在偏差,即算法会过度强调某些维度,使它们在产生的子空间中出现的频率显著高于其他维度。面对这些问题,本文 [1]提出从语义角度生成和分析子空间的新范例(图1)。其核心思路是根据维度语义来生成子空间。

继续阅读 »

CALVI: 可视化中读写能力的批判性思维评估(CALVI: Critical Thinking Assessment for Literacy in Visualizations)

虽然可视化可以有效地传递信息,但有时它们也会向读者传达有误导性的信息。这种情况被称为可视化误导(visualization misinformation)。面对误导,一个有趣的问题是:公众能在多大程度上识别可视化的错误信息?要回答它,我们首先需要有一种指标来衡量公众相应的阅读、解释和推理错误的或有潜在误导性的可视化信息的能力。本文 [1]提出CALVI,一个用以衡量可视化读写能力批判性思维方面的系统性测试(图1)。CALVI包含45个项目,这些项目来自错误信息类型和图表类型的设计空间。每个单元格都是一个可视化的多选题。

继续阅读 »

将人类知识纳入数据嵌入以提高模式显著性和可解释性(Incorporation of Human Knowledge into Data Embeddings to Improve Pattern Significance and Interpretability)

降维是一种常用的高维数据可视化方法,它将高维数据投影到低维空间,在产生的投影中保留原始数据的特定特征。降维的典型分析过程分为两步。用户首先寻找投影中特殊的视觉结构(如离群值和聚类),然后解释每个视觉结构中的模式。然而,显著和可解释的结构并非总是存在。这会导致用户的后续分析难以开展。另一方面,用户知识可用于提高模式显著性和可解释性,从而构建结果驱动的分析流程。知识指的是用户对目标数据集的整体理解,这来自于他们的经验。这篇文章 [1]提出一种实现基于知识数据分析的嵌入方法。

继续阅读 »

DumbleDR: 预测用户对降维投影质量的偏好(DumbleDR: Predicting User Preferences of Dimensionality Reduction Projection Quality)

降维是一种常用的高维数据可视化方法,它将高维数据投影到低维空间,在产生的投影中保留原始数据的特定特征。由于不同降维方法旨在保留数据的不同特征,它们可能会产生十分不同的结果。为了帮助用户选择合适的结果,研究人员提出了多种降维结果评估方法。这些方法可以大致分为定量度量和定性判断两类。前者可以进一步分为评估信息保留程度的准确性度量和评估视觉模式显著性的可解释性度量。定性判断由人类偏好驱动。比如,研究人员发现用户的专业知识越多,他们的判断就越一致 [1]。虽然可供使用的评估方法有很多,但在评估中仍存在一些挑战。首先,用户偏好没有被很好地描述,他们在选择投影时关心哪些方面仍不清楚。其次,量化指标和定性判断之间存在缺口,我们不知道衡量标准能在多大程度上反映用户的偏好。最后,这些方法缺少对投影选择的进一步指导,他们无法预测用户可能喜欢的投影并解释为什么喜欢这些投影。

面对这些挑战,作者们提出DumbleDR [2]。他们首先通过实验来分析用户在降维中的主观偏好,然后开发了通过组合质量指标来预测用户对投影偏好的模型。基于模型,他们提出DumbleDR,一个支持对投影进行排名并显示哪些指标驱动排名的网页工具。

继续阅读 »

Crystalline:降低开发人员为决策收集和组织信息的成本(Crystalline: Lowering the Cost for Developers to Collect and Organize Information for Decision Making)

在遇到编程问题时,开发人员需要搜索网页并理解其中的内容,以找到对应的解决方案。一般来说,解决方案通常有多个由不同标准表征的选项。比如,开发人员可以将numpy ndarray和numpy matrix作为高维数据数据格式的候选,然后根据是否包含内置矩阵操作、是否支持任意维度数组以及是否可以获得长期支持等标准来进行选择。面对众多的网页以及各种可能的衡量标准,提供工具来帮助开发人员收集、组织和理解信息,以促进进一步的决策变得必要。

继续阅读 »

定量和定类高维数据的对偶分析(Integrated Dual Analysis of Quantitative and Qualitative High-Dimensional Data)

对偶空间分析(dual space analysis)是一种先进的高维数据分析方法。它包含维度空间和数据项空间,用户在一个空间上的操作会反映在另一个空间上,从而使得用户可以同时探索它们,联合地研究维度空间的结构和数据项空间的分布(图1)。然而,以往的工作没有平等地处理定量维度和定类维度,后者通常只用来定义数据项子集。这可能会导致有趣的模式被忽略。面对这一局限,作者提出两个能够同时描述定量和定类数据的统计度量来扩展当前对偶空间分析的框架,并开发了一个原型系统来帮助用户完成联合的探索性分析 [1]。

继续阅读 »

用于比较分析的交互式降维(Interactive Dimensionality Reduction for Comparative Analysis)

比较数据中的两个群组或者多个群组以确定使这些群组彼此相同或不同的因素是一项常见的分析任务。对于高维数据,降维方法经常被用来寻找每个群组的特征。然而,现有的降维方法进行比较分析的能力和灵活性有限。比如,无监督降维方法(如PCA)在计算时不会考虑数据的标签信息,有监督降维方法分析的目标较为狭窄(如LDA只识别最能区分群组的因素)。另外,大多数降维方法都不允许用户进行观察层面的交互,这极大限制了比较的灵活性。为了解决这些问题,作者提出新的降维方法ULCA(unified linear comparative analysis)和交互式降维框架 [1]。

继续阅读 »

第八届中国可视化与可视分析大会(ChinaVis 2021)Day 0

第八届中国可视化与可视分析大会(ChinaVis 2021)于2021年7月24日至27日于武汉东湖国际会议中心进行。北京大学可视化与可视分析研究组袁晓如研究员与二十余名学生参加此次会议。24日是正式会议的前一天,与大会相关的若干活动在这天进行,包括第四届中日可视化交流研讨会、两个可视化相关课程、博士生论坛、可视化与可视分析专委会会议及会议委员会工作会议等内容,吸引了众多国内外可视化领域专家学者参加。

继续阅读 »

Bio+Med+Vis Spring School Day 3

2021年5月19日,生物和医学可视化春季学校Bio+Med+Vis第三天,来自林克平大学的Ingrid Hotz教授,印度科学研究所的Vijay Natarajan教授,犹他大学的Alex Lex教授,卑尔根大学和霍克兰德大学附属医院的Noeska Smit副教授,马格德堡大学的Gabriel Mistelbauer研究员讲授相关内容。

继续阅读 »

Bio+Med+Vis Spring School Day 2

2021年5月18日,生物和医学可视化春季学校Bio+Med+Vis第二天,来自卑尔根大学的Helwig Hauser教授和Stefan Bruckner教授,德国图宾根大学的Michael Krone教授,哈佛大学的Johanna Beyer研究员,nanographics公司联合创始人和首席技术官Peter Mindek,Kitware公司联合创始人Will Schroeder博士以及加拿大不列颠哥伦比亚省癌症中心迈克尔-史密斯基因组科学中心的Martin Krzywinski讲授相关内容。

继续阅读 »