菜单导航

当计算机读懂了你的情绪,世界会变得更好吗?

作者: 精装之家 来源: 精装之家 发布时间: 2021年07月21日 01:51:02

图片来源:pixabay

  撰文 | Dana Mackenzie

  翻译 | 严如风

  责编 | 岭   桐

  一些企业和研究人员正在试图用计算机来读懂文字背后的情感:虽然情感分析产品还远非完美,但已经能够从大数据中提炼出一些东西,甚至在未来的某一天可以监控人类的心理健康。

  很多人认为2020年是有史以来最糟糕的一年,虽然这样的描述可能过于主观,但有一份数据可以支持这个结论。

  Hedonometer(译者注:Hedono是一个词根,意为愉悦)是一种计算机化的评估方法,检测我们的幸福与失落。它在佛蒙特大学的电脑上日复一日地运行,每天从推特上收集约5000万条推文,然后对公众的情感进行快速、粗略的解读。根据Hedonometer的数据,2020年是它自2008年开始记录以来最糟糕的一年。

情感分析已经有了多种使用场景。图片来源:pexels

  50多年来,计算机科学家一直在研究如何使用计算机来评估单词的情感基调,Hedonometer是他们取得的比较新的进展。为了建立Hedonometer,佛蒙特大学的计算机科学家克里斯-丹佛斯需要教机器去理解这些推文背后的情感,毕竟人类不可能一一解读所有推文。这一过程被称为情感分析,已经在近年来取得了重大进展,并有了多种使用场景。

  除了用来感知Twitter用户的情绪状况外,研究人员还利用情感分析来研究人们对气候变化的看法以及验证一般常识,比如在音乐中小和弦是否比大和弦更悲伤(以及悲伤的程度)等等。而一些觊觎客户情感信息的企业正在利用情感分析来评估Yelp(美国最大点评网站)等平台上的评论,也有一些企业正在利用它来感知工作中员工在内部社交网络上的情绪。这种技术也可能在医学上得到应用,例如识别需要帮助的抑郁症患者。

  丹佛斯表示,情绪分析可以帮助研究人员分析大量的数据,而这些数据在以前很难被收集,过程也很费时:“在社会科学中,我们倾向于测量那些容易的东西,如国内生产总值,而幸福本身是一个很重要但很难衡量的东西”。

01

  如何读懂你的词

  你可能认为情感分析的第一步是教计算机理解人类在说什么,但这是计算机科学家无法做到的,理解语言是人工智能中最臭名昭著的难题之一。其实书面文字背后有大量的情感线索,即使不理解文字的含义,计算机也能识别情感。

  最早的情感分析方法是单词计数,这个想法很简单,就是计算正面词的数量和负面词的数量。更好的办法是根据单词的含义进行加权,例如“优秀(Excellent)”比“良好(Good)”表达了更强烈的情感,这些权重通常是由专家配置的:将一部分情感分析中经常使用的词对应到情感的字典中,这一方法被称为词库法(lexicons)。

最简单的情感分析办法是词库法。图片来源:pixabay

  但仅仅计算字数有其固有的问题,其一是忽略了语序,只是把句子当成了词的集合。此外计词法可能会遗漏一些来自特定语境的线索,比如这个产品评论:“I’m so happy that my iPhone is nothing like my old ugly Droid. (我很高兴,我的iPhone和我老旧丑陋的Android手机完全不一样。)”这句话有三个负面的词(“完全不一样”、“老”、“丑”),只有一个正面的词(“高兴”);虽然人类能立即意识到“老旧”和“丑”指的是不同的手机,但对计算机来说,这都是负面的。同时,比较的语境会带来更多的困难。“完全不一样”是什么意思?说话者到底想不想把两者做对比?语言在有些时候是令人困惑的。

  为了解决这些问题,计算机科学家已经越来越多地转向更加复杂的方法,将人类劳动完全排除在这个过程之外。他们正在使用机器学习教应用程序来识别一些范例,比如单词之间的意义关系。例如计算机可以学习当“bank”和 “river”这两个词经常出现在一起时,“bank”会代表“河流”的意思,而当 “bank”和“money”出现在同一个句子中,那么它的意思可能就会是“银行”。

  2013年机器学习在这方面取得了重要的进展,Google Brain的研究员托马斯-米科罗夫构建了一个叫做单词嵌入(word embeddings)的工具,这个工具将每个词映射到50到300个数字的列表,称为一个向量。这些数字就像描述一个词的指纹,可以描述它和其他词语出现在一起时的特征。

  为了获得这些描述符,米克罗夫的程序整理了报纸文章中的数百万个词,并试图在给定前面一个词的情况下预测下一个词。米克罗夫的嵌入法可以识别同义词:像“钱”和“现金”这样的词有非常相似的映射。更巧妙的是,尽管这个工具实际上无法认清这些单词的含义,但它可以捕捉到一些基本的类推:例如国王之于女王就像男孩之于女孩一样。鉴于这种类推是美国高考(SAT)的考察范围,能够做到这样已经是一个了不起的成就了。