标签存档: 表示学习

用于在高性能计算应用中检测异常调用堆栈树的可视分析框架 (A Visual Analytics Framework for the Detection of Anomalous Call Stack Trees in High Performance Computing Applications)

图9 分析案例。

在高性能计算(HPC)应用中,诸如延迟之类的异常行为会对运行程序产生很大的负面影响。 因此,检测HPC集群中的异常执行是非常重要的。这些异常执行通常是从跟踪事件(trace event)中识别的,也是HPC节点中函数入口、出口和消息传递的序列。下图1(b)显示了HPC节点中计算函数的一次执行(图1(a))内的跟踪事件的示例。它表示在执行compute函数期间调用堆栈的历史(使用绿色等颜色表示的函数即其调用的子函数)。目前,领域科学家一般基于函数随时间变化的执行时长等信息来检测异常执行。但是,这种方法并不能完全识别和诊断真正的异常。例如,图1中compute函数的延迟可能是由其子函数引起的,而这种延迟可能是由与之通信的其他HPC结点造成的。因此,在没有上下文函数执行结构的情况下对异常函数进行检测是不够的。

继续阅读 »