微博可视化 – I

微博是基于用户关系的信息分享、传播、获取的平台,它的内容简洁而短小,用户能够通过它交换一些规模很小的信息,诸如短句子、个人照片、视频链接等等。它能够允许用户通过手机、网络等方式及时更新自己的个人信息,并与他人交换信息,维护自己的人际圈。微博使得世界上的每一个人都能够成为信息源,并使之在全球传播,这就使得微博本身所承载的信息量大大增加。微博逐渐地从单纯的社交工具摇身变为商家传播商业广告的途径、变为比大众媒体更早传出新闻的地方、变为草根成就明星梦的基础。微博如今已成为广大的真实社会在虚拟世界的一个映射,深入地影响到世界上每一个人的生活。

研究微博上的信息具有十分重要的意义。

首先,微博现在已经集合了海量的新闻、事件和信息,并且每天都在更新,每天都在流传,并对现实的社会产生巨大的影响。尤其是在突发事件的信息传播上,微博更是超越了传统媒体,成为了信息快速传播的渠道。

在2011年3月11日发生的日本大地震中,微博也同样成为了信息传播的前沿阵地。无数人转发了各种新闻,让前线消息更快地被世界各地的人们知道。无数人通过微博找到了自己的亲朋好友。无数人更新了自己的微博状态,马上让家人了解到自己的平安,使家人放心。无数人播报了现场的情况,把自己获得的视频、图片等等上传,让世界各地的人们都可以迅速看到更全面、更细节的灾难现场。无数人通过微博筹集善款,爱心的接力棒在微博这个虚拟的世界里传递,很快地筹集到的真实的款项送往最需要帮助的地区。

另外,最早爆出基地头目本·拉登死讯的也并不是各大媒体而是Twitter, 此后该消息被网民纷纷转载成为人们热议的话题。同样,723动车事件中,也是众多事发地附近居民以及列车上的人在出事的第一时间在微博上发出了消息,从而很快便引起众多网友的密切关注。

其次,微博上的信息不仅发布及时,而且也是现实社会生活的缩影。挖掘微博上的信息有利于分析现实世界的情况。

东南路易斯安娜大学的助教教授Aron Culotta曾经通过追踪一些与流感有关的关键词,如“flu”“have”“headache”等,进行流感爆发趋势的预测。他利用发布于20099月到20105月间的近5亿条信息建立起了一个预测模型。通过该模型他发现的预测结果与美国疾病预防控制中心(CDC)的统计数据惊人地相符。

下图便是Aron Culotta所作的数据分析。

数据来源:http://www2.selu.edu/Academics/Faculty/aculotta/pubs/culotta10detecting.pdf

上面六张图分别是选取了不同关键词进行的回归分析及预测的结果。图中,黑色曲线表示的是CDC的统计数据。红色虚线部分则是Aron Culotta 通过搜索不同关键词进行的分析结果, 其中0-20周为对数据进行回归分析的结果,20-35周是通过模型进行的预测结果。通过六张图可以发现,统计分析微博上的数据可以获得比较准确的结果。

圣路易斯华盛顿大学的一个研究小组进行了Air Twitter的研究,他们通过收集twitter上用户对火灾、沙尘暴等事件的报道、评论、发布的照片等,进行空气质量的预测。 虽然微博上的信息不一定精确,但它的时效性强,并且不需要花费大量的人力物力去收集信息,这就大大方便研究人员进行快速分析。当然,通过微博搜集到的海量数据也是传统数据收集方法所不可比拟的。

另外,每个用户在微博上也同样维护这一个不同于现实生活的人际交往圈,并且逐渐对其自身造成潜移默化的影响。用户在微博上保持着与部分现实生活中好友的联系,也同样通过微博结识到很多原先不认识的人,他可能是你好友的好友,也可能是之前完全没有关系的网友。这些众多的好友便形成了一个错综复杂的人际网络。也许你时常会有如此感叹:“啊!他们俩居然认识!世界真小啊!”。因此,微博上的人际关系也是一个十分有趣的研究内容。

微博上的信息海量、复杂且多样,传统的数据分析方法已经很难适应这一特点。而利用可视化的工具,对微博数据进行可视化、可视分析与并加以人机交互,是一个十分有力且具有广大前景的研究方向。

后面,我们将分门别类地介绍现有的微博可视化分析方法与工具。

 

 

 

评论关闭。