悉尼科技大学Jie Lu教授和美国雪城大学Michael Tick教授、Reige Xu副教授、Sam Van Aken副教授访问北京大学

2017年9月19日下午,悉尼科技大学的Jie Lu教授访问北大可视化与可视分析实验室。Jie Lu教授是一位国际知名的,在模糊迁移学习、决策支持系统、推荐系统、预测和提早警示系统方面的有卓越贡献的科学家。她担任悉尼科技大学Engineering and Information Technology院Research Excellence的副主任,她还是Centre for Artificial Intelligence (CAI)的负责人。她出版过6部研究性的书籍,在学术期刊和会议中发表过400余篇论文。在过去的15年中,她获得过8次Australian Research Council (ARC)的探索津贴和10次其他研究津贴。

继续阅读 »

ConceptVector: 基于词嵌入的交互式词典构建进行文本可视分析 (ConceptVector: Text Visual Analytics via Interactive Lexicon Building using Word Embedding)

目前而言,许多文本分析方法的核心都是一个Concept:一组表征特定对象、现象或主题的语义相关的关键词。另外,Word Embedding的不断发展允许用户通过一小部分的关键词来构建一个Concept。然而,由于自然语言的多义性,直接使用这种技术可能导致错误。为了降低这个问题,这篇文章[1]提出了一个名为ConceptVector的可视分析系统,来指导用户构建这些Concepts,然后使用它们来分析文档。这篇文章使用现实生活中的数据集来进行案例分析,展示了ConceptVector的细粒度分析。为了支持这个“种子关键词”的概念,他们引用了双极概念模型,并且支持不相关的单词。

文本可视分析中涵盖了很多领域的方法:1. 词关系与层次结构;2. Word Embedding;3.基于单词层次的文本可视分析。

继续阅读 »

针对航空交通分析的轨迹相关部分聚类方法(Clustering Trajectories by Relevant Parts for Air Traffic Analysis)

如今移动物体的轨迹数据在多个领域被广泛的收集,如动物生态学,运动以及航空。移动物体的相似轨迹的聚类是运动分析中的重要技术。可以使用距离函数基于轨迹点或段的属性来评估轨迹之间的相似性。属性可能包括空间位置,时间和其他数据属性。有这样的需求,需要分析轨迹的某些部分,即具有特定属性的点和段。根据分析焦点,需要对轨迹的相关部分进行聚类。在整个分析过程中,焦点可能会改变,轨迹的不同部分可能会变得相关。这篇文章[1]提出一个分析工作流程,其中使用交互式过滤工具将相关标志附加到轨迹点,聚类是使用忽略不相关元素的距离函数完成的,并且汇总了所得到的聚类进一步分析。

该工作有三个主要的工作流程,分别为过滤,聚类和汇总分析。 继续阅读 »

针对大规模应用的欧拉-拉格朗日组合数据表示方法 (A Combined Eulerian-Lagrangian Data Representation for Large-scale Applications)

在科学应用中,模拟的数据输出形式主要有两种。一种是欧拉表示,也就是通常说的体数据,在固定的格点上记录数据信息,不过对于格点之间的区域往往需要插值。另一种是拉格朗日表示,即粒子数据,记录了离散粒子在数据场内的运动,其缺点是在一些感兴趣的区域可能没有粒子出现。在传统方法里,这两种数据表示形式在不同的分析任务中往往是独立存储和访问的。 为了提高计算效率,我们需要一种将两者进行结合的高效的组合表示形式。这篇文章[1]针对这一问题提出了一种欧拉-拉格朗日联合表示方法,可以对两种形式的原始模拟输出数据同时进行重组织,提高了数据载入和一些基本数据操作的效率。

继续阅读 »

ACTIVIS: 工业规模深度神经网络的可视化探索 (ACTIVIS: Visual Exploration of Industry-Scale Deep Neural Network Models)

深度学习在许多领域,比如计算机视觉、自然语言处理,取得相当重要的突破。尽管越来越多公司在他们的产品上,用越来越多深度学习模型。但这些模型依靠非常多的参数,尝试从数据中学习隐藏的非线性的结构。这个特点,使得人们难以理解模型的结果,难以分析模型不好的原因进而采取进一步的措施。

近些年,越来越多研究者研发可视化工具,尝试帮助人们理解深度学习模型的结果。但现有的工具,往往针对某一特定的模型和某种类型的数据,不能满足工业界的需求。在工业界,一方面,使用的模型种类非常多,模型结构非常复杂;另一方面,分析的数据类型非常丰富,数据量也非常的大。

为此,本文提出ACTIVIS[1],一个支持工业界深度学习模型分析的可视化探索工具。

继续阅读 »

延迟不确定性和其对火车旅行规划的影响的可视化(Visualization of Delay Uncertainty and its Impact on Train Trip Planning: A Design Study)

火车延误的不确定性对火车旅行具有很大的影响。延误可能导致转车时错过连接火车,或到达目的地比预约的时间要晚。面对这种不确定性,旅行者希望预先知道火车可能的延迟。目前,火车旅行规划是基于两站之间的预定的时间。虽然有几种可视化方法可以显示时间不确定性,但没有专门的视觉设计支持行程规划。对于这些问题,我们提出了一个评估视觉设计,延迟火车旅行规划与延迟不确定性可视分析系统。它列出了预定的火车线路连接,预期的火车延误以及它们对到达时间的影响以及错过转车的可能性[1]。

继续阅读 »

Hashedcubes: 对于大数据的简洁,低存耗,实时的可视探索 (Hashedcubes: Simple, Low Memory, Real-Time Visual Exploration of Big Data)

交互式可视化系统的设计者现在正面对着大规模、多维度的数据的挑战。这一工作为以下问题提供了一个肯定的答案:是否存在一个简单的数据结构为一个更成熟的索引提供更丰富的性能,同时使空间消耗相对较低、执行方法较为简便?

继续阅读 »

对人工神经网络的隐式行为进行可视化 (Visualizing the Hidden Activity of Artificial Neural Networks)

图3:训练前后MLP最后一层数据表示的投影图

在许多机器学习任务中,人工神经网络尤其是近些年发展起来的深度学习网络,已经取得了十分瞩目的结果。然而,以前研究者往往将神经网络的内部行为当作黑盒来看待,神经网络到底学习到了什么并不了解。近些年来,研究者们逐渐开始关注这一问题,并通过了解其内部行为来帮助优化模型。而这篇工作则是从可视化的角度出发来对待这个问题。

继续阅读 »

NEREx:多方会话中的实体关系探索(NEREx: Named-Entity Relationship Exploration in Multi-Party Conversations)

本文提出了NEREX,为逐字会话脚本提供了一种探索性的交互式可视化分析方法。NEREX的切入点是从多方对话不同的角度给出了分析,通过链接的详细视图提供高层次的概述和提供机制的形成和验证假设。使用定制命名实体抽取,我们将重要实体抽象为十类,并用距离约束实体关系模型提取它们之间的关系。该模型符合逐字记录往往不合语法的结构,涉及两个实体是否在同一个句子中出现一个小的距离窗内。我们的工具使多方对话的探索性分析使用几个链接的意见,显示在文本的主题和时间结构。除了远程阅读,我们还为文本层次调查过程整合了密切的阅读观点。超越时空对话的探索性分析,NEREX帮助用户生成和验证假设并进行多元对话的比较分析。我们通过三名来自政治科学领域专家的定性研究,证明了我们的方法在2016届美国总统辩论中对真实世界数据的适用性。

继续阅读 »

DSPCP:在平行坐标中展现复杂数据关系(DSPCP: A Data Scalable Approach for Identifying Relationships in Parallel Coordinates)

DSPCP:在平行坐标中展现复杂数据关系

平行坐标是一种高效而常用的、展现高维数据分布的可视化方法。其形式简洁、可扩展性强,有着同类方法难以比拟的优势。然而,平行坐标也存在不少缺点,形式不直观便是其中重要的一项。用户通过观察折线分布,仅能感知两个维度之间的线性相关性,而且往往会高估其中的正相关关系[2]。这篇发表在2017年TVCG上的文章[1],则巧妙地利用了平行坐标的点线对称性,增强了平行坐标表现复杂数据关系的能力与准确性。

继续阅读 »