技术观点

用R语言实现文本情感分析——案例


       情感分析是对个人观点的挖掘,个人观点即个人对产品、服务等的带有主观感情色彩的态度甚至是情绪。随着自然语言处理技术的发展,可以做文本分析的工具越来越多,他的分类可以分为篇章级、句子级、词语级。


       接下来本文就举个与句子级文本情感分析相关的简单例子,采用R语言对XX酒店评论进行文本情感分析,具体操作如下:

1、导入文本数据
       通过readr包,对爬取回来的文本数据进行读取,效果如下:

2、原始数据清洗

       对导入的文本数据进行数据清洗,包括去除重复的数据和去除无关字符等,具体如下:

3、分词并统计词频

       导入停用词典,利用jiebaR包对文本数据进行分词并统计词频:
将词语转为数据框形式,一列是词,一列是词语所在句子ID,最后一列是词语的词性。

4、导入情感词典,给词典赋权

       导入情感词典,并给情感词典里面的正负面情感的词赋予权重,然后提取文本数据中的正面、负面的情感词语,并进行位置确定。

5、情感词的修订

       根据情感词前是否有否定词或双层否定词对情感值进行修正。

6、定位语句位置

       对修订后的后的数据框内的词语进行定位,确定其处于原始文本中的位置。

7、提取正反面数据

       以负面信息为例子,结果如下:

8、可视化

       这个例子的数据可视化采用词云图的形式来体现,词云图里的字体越大,则说明正面评论和方面评论出现频率高,是客户的关注点、态度、情绪等体现。这里是利用wordcloud2包来实现,结果如下:

正面评论词云图:


负面评论词云图:



*本文中所采用的数据资料来自商略咨询数据库
 
上一篇:NPS(净推荐值)对企业运营的价值 下一篇:如何应用服务质量差距模型提高客户满意度