7月20日上午,来自俄亥俄州州立大学计算机系的沈汉威教授讲授了题为”基于分布的原位数据建模、分析和可视化“的课程。下午,浙江大学计算机科学与技术学院的巫英才研究员的授课主题是“社交媒体数据的可视分析”。
沈汉威教授首先介绍了研究的背景。随着超级计算机的兴起,百亿亿级的大规模模拟变得普遍。模拟结果的保存和分析变得极为困难,过去先保存数据后进行分析的方法不再适用。为减少数据存储和移动的开销,支持细节的分析,需要采取原位数据建模和压缩以及高效的查询和特征提取来进行处理,比如原位提取数据的统计分布信息,使用分布进行数据分析和可视化以及进行信息和不确定性分析。

图1 沈汉威教授正在授课。
接着,沈汉威教授介绍了对于极大规模数据将原始图像数据切分成局部区域,每个区域的原始数据用概率密度函数表示的方法,并且详细讲解了关于局部统计总结的概率论基础。他随后介绍如何从压缩得到的概率分布中恢复原始数据,从而进行流线可视化、体数据绘制等任务,方法包括从概率密度函数中直接估计特征,和蒙特卡洛采样方法,采样又可以根据是否考虑相邻数据点的相关性进行划分。针对数据中的不确定性,传统科学可视化方法需要重新设计。沈教授讨论了Marching Cubes在不确定性下的算法,v-Level Crossing方法。
最后沈教授介绍了一些前沿的研究工作。第一个工作扩展了区域划分的方法,使用聚类方法进行非均匀划分,从而可以提高压缩到精确度。第二个工作提出可以通过保存更多的空间信息,恢复空间信息,从而可以更好地让科学家信任可视化的结果。沈教授总结道,可视化研究需要有扎实基本功,从而可以设计出合理的算法,解决问题;希望大家学习科学可视化或者在其它领域使用科学可视化的一些方法。在问答环节,暑期学校的师生们踊跃提问,所提问题包括其它领域的场景、现有工具、与图像压缩工作的比较等,沈教授一一作了解答。
随着社交媒体比如新浪微博的高速发展,社交媒体所产生的数据呈现爆炸性增长的趋势,对这种数据进行有效的分析具有非常广阔的商业价值和研究价值。下午的报告中,巫英才老师简要介绍社交媒体数据可视分析的基本方法、任务与应用,并结合他在相关领域的工作,介绍国内外的最新进展及其未来的展望。

图2 浙江大学巫英才教授授课
巫英才老师首先从数据挖掘与可视化、人类智能与机器智能的互补性的角度介绍了可视化与可视分析的概念。接下来在大科学、大工程、大安全、智慧城市、计算体育、社交媒体等方面介绍了可视分析在大数据时代的重要应用。大科学中,可视分析是基础自然科学的必要手段,是科学大数据发展的必需,在海洋、能源、大气、地震等方面有重要应用。大工程中可视分析是对大工程仿真、实测、融合、预测、测试等不同环节产生的信息进行综合理解与分析的必要手段,在智能交通、智能电网、智能物流、智能制造等方面有重要应用。大安全中可视分析是面向与人博弈任务的智能分析的最主要的交互界面。在国土安全、网络安全、公共安全、金融安全等方面有重要应用。智慧城市中可视分析是基于GPS数据进行规划、理解、决策的敏捷分析途径。时空大数据的便捷可视推理与决策,包括面向时空场景的探索式推理、人机智能融合的多准则决策。比如针对选址问题的多准则可视化决策,需要分析城市数据、规划与选址、多准则的决策(综合考虑位置、流量、价格等因素),面临搜索空间巨大、个体需求多样等挑战。
巫老师详细介绍了社交媒体数据的可视分析。社交媒体是人们撰写、分享、评价、讨论、相互沟通的互联网平台。社交媒体具有高维异构数据、复杂自然语言、快速观点传播的特点。社交媒体数据一方面作为信息载体(模态多样,动态实时,规模海量,语义丰富),另一方面作为网络载体(关系异构,结构复杂,规模海量,交叉演化),兼有信息属性和社会属性。社交媒体数据承载海量用户行为与观点,通过对其分析能洞察用户行为。
社会化媒体大数据应用广泛,比如客户关系管理、媒体舆情监控、商务智能决策、网络安全监控、自然灾害预警、在线课程管理、公共安全管理、媒体危机公关等。社交媒体数据分析面临如何高效生成直观的总览图、如何高效利用专家领域知识、如何进行舒适性的可视表达等挑战。社交媒体数据可视化的基本任务包括展现和分析人们的社交行为,呈现和理解人们的社交网络,以及获取和探索社交媒体的信息。

图3 袁晓如为巫英才颁发暑期学校纪念牌
巫老师在授课中提到用户情感的传播分析是重要需求,如媒体舆情监控、商务智能决策、城市公共安全、媒体危机公关等,并跟同学们分享了很多社交媒体数据可视分析的案例。最后,巫老师鼓励大家多看一些其他领域的文章,从中寻找灵感,开阔眼界,进行跨学科融合,帮助创新和工作的改进。
评论关闭。