利用在线评论轻松比较本地企业 (Towards Easy Comparison of Local Businesses Using Online Reviews)

随着电子商务的快速发展,越来越多的在线评论网站,如Yelp,帮助客户做出更好的购买决策。查看其他客户的在线评论,包括评级得分和文本评论,并进行不同业务之间的比较是做出最佳决策的关键。然而,由于在线评论数量巨大,用户评级标准存在潜在差异,以及评论的时间、长度、细节和质量等各有不同,客户很难实现快速和全面的比较。本文[1]介绍了基于在线评论的精心设计的可视化分析系统E-Comp,用以帮助客户不同详细程度地比较本地企业。

图1. E-Comp系统的用户界面

 

通过用户访谈和文献调研,本文提出了一些设计要求:

  • R1:快速概述用于过滤潜在候选人
  • R2:企业之间可靠的比较
  • R3:用户评论的时间分析
  • R4:有关重要功能的深刻细节
  • R5:查按需探索详的用户评论
  • R6:直观的视觉设计

基于这些设计要求,本文设计了如图1所示的可视分析系统。其中,(A)控制面板允许用户过滤数据并更改其他视图。(B)地图视图 (Map View) 显示编码本地商家基本属性的字形,其中所选商家用蓝色矩形标记。(C)共同客户比较视图 (Common Customer Comparison View) 显示共同客户的评级差异。(D)时间视图 (Temporal View) 可视化评论的时间趋势,并通过矩形或圆形大小编码个人评论的有用性。(E)增强词云视图 (Augmented Word Cloud View) 比较评论文本中一个特征维度的高频率的形容词-名词词对。(F)详细的评论文本视图显示了时间视图中所选评论(红色矩形虚线)的详细信息。(G)企业列表列出所选地区的当地企业。

地图视图用于初步比较,共同客户比较视图、时间视图、增强词云视图用于细节比较。

下面详细介绍本文的可视化设计。

基于字形的可视化

本文提出了一种基于饼图字形,如图2c。该设计使用外圈区域来表示客户评论的总数,饼图的每个扇区编码每个评级级别的评论编号。内圈固定区域的颜色代表所有客户的平均评级。上方的条形显示了企业的价格水平,它可以从Yelp评论数据集中获得。

图2. 覆盖在地图上的字形的视图设计。(a)基于雷达图的字形设计,(b)基于条形图的字形设计,(c)基于饼图的字形设计。

 

确定该字形设计之前,作者还考虑了基于雷达图的字形设计(图2a)和基于条形图的字形设计(图2b)。条形图十分常用,它有利于直接估计每个级别的评论的绝对数量。但是,基于条形图的字形无法清晰地显示好/坏评级的百分比和评论总数,而客户却需要通过这些信息来快速过滤企业候选项。基于雷达图的字形与基于条形图的字形存在相同的问题。此外,已经有研究表明雷达图的形状特征影响对其背后数据的准确解释[2]。而之前的研究[3]已经证明饼图在显示百分比方面优于条形图,并且已成功应用于在实际应用中显示百分比。评论总数也由饼图的圆形区域直接显示。综合考所有这些因素,本文最终选择了基于饼图的字形设计(图2c)。

颜色编码:最初,作者选择sequential color scheme(差评:浅蓝色,好评:深蓝色)以显示每个评级级别的评论数。然而,在与原型阶段的目标用户核实后,发现用户通常将三星级评级视为中性评论,并且对正评价和负评级所占的百分比更感兴趣。然而,sequential color scheme往往只强调正面评级。因此,作者最终选择了diverging color scheme(图3)。

图3. 评级的配色方案。最终选择diverging color scheme以同时强调好评和差评。

 

共同客户比较视图

本文提出了一种基于桑基图 (Sankey Diagram) 的设计,以显示共同客户的评级差异(图1C)。左右矩形编码两个本地企业的五级评级。中间矩形明确地总结了每个共同评论者的评分差异,即左评分减去右评分。为了进一步利于共同客户的评论比较,我们将拥有类似情绪的评级分组,其中三分的评级通常表示中性评价,而高于或低于三的评分可分别视为为正面或负面评价。颜色编码方案与上面提到的一致。

 

图4. 共同客户比较视图的替代设计:(a)二分图,(b)矩阵,(c)传统的桑基图,(d)基于桑基图的最终设计

 

时间视图

评论的时间信息对于比较本地企业(R3)也是至关重要的。本文提出了一个时间视图明确地显现评论随时间的变化情况,如图1D。每个评论都被编码为矩形或圆形,其中圆圈表示所选进行比较的商家的共同用户的评论。该视图提供堆叠布局 (stacked layout) 分层布局 (layered layout) 两种布局来对每个评价级别分别进行评论整体趋势和评论演变的可视化。用户可以通过交互指定布局模式。用户还可以根据需要以交互方式将时间单位指定为季度或月。

告知用户每个评论的有用性非常重要,因为许多企业都有大量的评论,这使得阅读所有评论变得非常耗时。当用户能够知道哪些评论更有帮助时,他们可以专注于那些重要的评论,以加快对评论的探索。根据Mudambi和Schuff [4]的综合研究,有四个主要因素影响着评论的感知有用性:评级极限 (rating extremity),评论深度 (review depth,即评论的字数),其他客户的有用性投票 (helpfulness votes) 和产品类型 (product type)。他们表示,对于体验商品 (experience goods,其定义为购买前难以获得产品质量信息的产品),评级极高的评论不如评级中等的评价有帮助。Yelp数据集中的本地企业属于此类别。根据此研究,本文提出了一个指标来显示评论的有用性,如下图所示:

图5. 评论有用性

 

增强词云视图

评论文本代表客户对企业的详细评估。为了更有效和准确地通过评论文本比较本地企业,本文提出了一种新颖的增强词云视图(图1E),以支持深刻的评论摘要和本地企业之间的有效比较(R4)

传统的词云(图6)专注于可视化单个词的频率和情感。但在大多数情况下,单个单词不会传达任何背景,这使得用户很难了解评论的意见并进一步比较企业。例如,当查看仅由餐馆评论产生的单个单词组成的单词云时,我们无法知道单词“好”是否意味着餐厅具有“良好的服务”,“良好的食物”或“良好的氛围”。

图6. 传统词云

受相关研究[5]的启发,本文在词云中显示形容词-名词词对,以提供有意义的语境。而且本文将具有相同名词单词的单词对分成一个小组,并仔细放置单词以支持更有效的评论摘要和比较,而不只是随机放置单词对。此外,本文将单词对分为不同的类别。用户可以交互式地选择要显示的感兴趣的单词对类别,进一步有利于轻松比较评论。

增强词云视图的生成包括词对提取和分类以及词对布局。

单词对提取和分类:本文使用流行的语言处理库NLTK中开发的词性 (POS, part-ofspeech) 标记器 (tagger) 来标记评论文本中每个单词的词性。然后,类似于[5],本方法通过保持名词和修饰它的相应形容词从每个句子中提取形容词-名词词对。为了准确反映客户意见,本方法特别处理了否定表达。例如,当评论说“食物不美味”时,我们提取“不美味的食物”而不是“美味的食物”来保留原有的意见。这里使用了一种启发式的基于规则的方法:我们检查在一个带有连接动词(例如,“is”,“are”)的单个句子的名词和形容词之间是否存在否定副词(例如,“not”,“never”,“no”),如果是,则将否定副词保留在提取结果中。常见的缩写如“isn’t”,“aren’t”,“can’t”在评论中也得到了展开,以保证对否定表达的准确检测。此外,我们使用NLTK对每个单词对进行情感分析。

为了按照客户的兴趣将形容词-名词单词对分类为几个类别,我们手动为每个类别标记一组代表性单词,然后使用word2vec[6]计算输入单词对和每个类别的标记单词之间的相似度。最后,我们将单词对分配给具有最高相似性的类别。对于Yelp数据集中的餐厅评论,我们将单词对分为四类:食品,价格,服务和周围环境,这是客户通常感兴趣的餐厅的四个详细方面。

单词对布局:本文提出分别渲染不同类别的单词对,以提供语义上有意义的摘要和快速比较。用户可以与E-Comp交互以选择感兴趣的类别。此外,我们将描述相同对象的单词对组合在一起,以进一步增强视觉摘要和评论文本比较的有效性。如图7所示,描述相同名词单词的形容词在垂直方向上聚类和排列,并按其频率排序。形容词的颜色代表他们的情感色彩。大多数名词都具有中性情绪。为了向用户提供关于用户评论的更多信息,我们计算名词单词的情感值作为修改该名词单词的所有形容词单词的情感值的加权平均值。采用蓝色,黑色和红色分别表示正面,中性和负面情绪。名词单词的单词大小表示它们的整体单词频率。修饰相同名词单词的形容词单词具有相同的大小,以使得较不频繁的形容词也可以更清楚地查看。它们的大小总和等于相应的名词单词的大小。

图7. 增强词云视图显示了食物特征的聚类形容词-名词词对。红色圆角矩形突出显示的聚类中展示了否定表达的例子 (“not-good”)。

关于渲染增强词云(图7)的详细描述可总结如下:

  1. 将所有具有相同名词的单词对分组,并根据单词频率对形容词单词进行排序。当有四个以上的形容词修饰名词时,只保留前四个形容词。
  2. 对于从步骤1获得的所有形容词-名词单词对的集群,使用名词单词频率对它们进行排序。
  3. 对于单词对群集的排序列表,按照径向布局按照名词单词的频率降序逐个渲染。具有最高频率的名词单词的簇位于中心附近。
  4. 执行碰撞检测以检查当前字对集群是否与先前放置的集群具有空间重叠。当碰撞存在时,当前的单词对簇移动到阿基米德螺旋[7]之后的下一个位置,直到没有碰撞。
  5. 重复步骤3和4,直到呈现所有单词对群集或达到预定义的最大群集。

本文通过案例研究和深入的用户访谈评估E-Comp的有效性和可用性。总体而言,深入的用户访谈表明,E-Comp可以有效地帮助用户在本地企业之间进行轻松比较,即使对于没有可视化或人机交互背景知识的用户,它也具有良好的可用性。

有效性:大多数参与者可以毫无困难地使用 E-Comp来快速比较不同的本地业务,从而为E-Comp的有效性提供支持。

可用性:一般用户学习使用 E-Comp没有困难,大多数参与者可以很容易地理解视觉设计(R6)

E-Comp与Yelp:总体而言,参与者的反馈表明, E-Comp在支持轻松比较本地业务方面优于Yelp。

限制和建议:参与者还指出了E-Comp的一些限制并提出了建议。例如,建议支持地图视图中字形之间的碰撞检测,以避免字形的遮挡,建议对客户发布的图像进行分析等。

总体来说,本文介绍了E-Comp,一个可视化分析系统,通过在线评论来促进本地企业之间的比较。本文设计覆盖在地图上的直观字形设计用于初步比较和快速候选选择。使用分组的桑基图 (Grouped Sankey Diagram) 来显示共同客户的评级差异,以便更可靠地比较两个企业。提出了显示形容词-名词单词对的增强词云,结合时间视图展示评论随时间的演变,以便于在不同时间段、评级分数和特征方面对企业进行深入比较。E-Comp还支持丰富的交互,允许灵活的视觉探索。通过案例研究和深入的用户访谈证明了E-Comp的有效性和可用性。

 

参考文献:

[1] Wang, Y., Haleem, H., Shi, C., Wu, Y., Zhao, X., Fu, S., & Qu, H. Towards Easy Comparison of Local Businesses Using Online Reviews. In Computer Graphics Forum (Vol. 37, No. 3, pp. 63-74), 2018, June.

[2] Klippel, A., Hardisty, F., & Weaver, C. Star plots: How shape characteristics influence classification tasks. Cartography and Geographic Information Science36(2), 149-163, 2009.

[3] Spence, I., & Lewandowsky, S. Displaying proportions and percentages. Applied Cognitive Psychology5(1), 61-77, 1991.

[4] Mudambi, S. M., & Schuff, D. Research note: What makes a helpful online review? A study of customer reviews on Amazon. com. MIS quarterly, 185-200, 2010.

[5] Yatani, K., Novati, M., Trusty, A., & Truong, K. N. Review spotlight: a user interface for summarizing user-generated reviews using adjective-noun word pairs. In Proceedings of the SIGCHI Conference on Human Factors in Computing Systems (pp. 1541-1550). ACM, 2011, May.

[6] Mikolov, T., Sutskever, I., Chen, K., Corrado, G. S., & Dean, J. Distributed representations of words and phrases and their compositionality. In Advances in neural information processing systems (pp. 3111-3119), 2013.

[7] Steele, J., & Iliinsky, N. Beautiful visualization: looking at data through the eyes of experts. ” O’Reilly Media, Inc.”, 2010.

评论关闭。