PS:可以直接使用pipinstallsnownlp命令进行snownlp模块的快速安装(注:这里要求pip版本至少为18.0)。
其中-1表示贬义,1表示褒义。由于snownlp全部是unicode编码,所以要注意数据是否为unicode编码。因为是unicode编码,所以不需要去除中文文本里面含有的英文,因为都会被转码成统一的编码(补充一下,关于编码问题,我还是不特别清楚,所以这里不多讲,还请对这方面比较熟悉的伙伴多多指教)。软件本身默认的是Ascii编码,所以第一步先设置软件的默认编码为utf-8,代码如下:
1、改变软件默认编码
importsysreload(sys)sys.setdefaultencoding('utf-8')2、然后准备数据
fromsnownlpimportsentiment#加载情感分析模块sentiment.train('E:/Anaconda2/Lib/site-packages/snownlp/sentiment/neg.txt','E:/Anaconda2/Lib/site-packages/snownlp/sentiment/pos.txt')#对语料库进行训练,把路径改成相应的位置。我这次练习并没有构建语料库,用了默认的,所以把路径写到了sentiment模块下。sentiment.save('D:/pyscript/sentiment.marshal')#这一步是对上一步的训练结果进行保存,如果以后语料库没有改变,下次不用再进行训练,直接使用就可以了,所以一定要保存,保存位置可以自己决定,但是要把`snownlp/seg/__init__.py`里的`data_path`也改成你保存的位置,不然下次使用还是默认的。
THE END