【关键词】情感分类 预处理 特征词 情感词
典
一般的文本采集方法会使得最终得到的
文本集合中含有大量的噪音,在这些噪音的影
响下,进行文本情感分析会受到干扰,得到的
结果准确性也会降低。因此在进行情感分析之
前必须要对文本数据集进行一系列预处理工
作。
1 文本分词、去停用词
中文分词(Chinese Word Segmentation)
是指将完整的句子拆分成单个词语。现阶段常
用的中文分词算法主要有三种:统计方法,词
典方法和规则方法。中文分词采用一般采用中
科院中文分词系统(ICTCLAS)进行,可以
实现中文分词、词性标注和命名实体识别,该
系统对分词具有较好的效果。举例来说:
原句:中央电视台主持人、了不起的挑
战节目艺人撒贝宁在上海拍摄节目。
以上句子用ICTCLAS 分词后:中央电视
台/n 主持人/n 、了不起的挑战/n 节目/n 艺
人/n 撒贝宁/n 在/p 上海/n 拍摄/v 节目/n。
/w
从__________上述分词实例可以看出,ICTCLAS 在
分词时整体效果较为优秀,能够将名词动词等
都正确分出。
停用词指在中文文本中出现的语气助词、
指代词、介词、感叹词、数量词、副词、连词
等对文本分类没有直接影响的词语。这些停用
词在中文文本中出现的频率非常高,使得对文
本的特征选取方面出现一定程度的偏差。
那么如何将停用词去除便成了文本分类
的一个先决条件,去停用词的过程是:建立一
文/郭璇
文本是情感表达的重要方式,
在挖掘文本包含的情感之前必须
要进行预处理。本文对预处理的
过程进行综述,包括文本分词、
去停用词、特征选择、特征项加权、
生成VSM 模型、情感词典建立等
步骤。
摘 要
个停用词词典,分词后,将每个词语放进停用
词词典进行比对,如果相同则去除当前词语。
需要我们注意的是,停用词的词典构建过程不
可能一次完成,需要在平时的研究过程中不断
积累和添加。如果能将文本集合中的词频做出
统计,即可发现,词频数最大的几个词语通常
是我们文本分类中无意义的停用词。
2 特征选择
常用的文本特征选择基本思想:针对每
一个特征词,计算出一个统计时使用的度量值,
设定一个阈值,将计算出的统计度量值的结果
与阈值做出比较,小于阈值的所有特征都去除,
最后剩下的就是有效特征。具体方法有以下三
种:
文档频率(DF):文档频率指某一个具
体的特征词在其他文档中出现的次数。其主要
思想是:对包含指定特征的文档在训练集中出
现的频率进行统计,并预设一个相应的阈值。
将特征项的DF 值与设定好的阈值进行比较,
若DF 值小于阈值,则将此特征值删去,这样
可以使得特征的选取更加具有代表性。
信息增益(IG):信息增益主要凭借信
息熵来衡量特征项对分类提供了多少信息。在
进行特征选取时,根据该项特征存在与否时分
别判断当前分类模型中的信息量大小,若该特
征项存在时,分类模型提供较大的信息量,则
将此特征项提取出来。
互信息(MI): 互信息主要是检测两个随
机事件之间的关联性。在特征选择这个关键步
骤中,若类别与特征项这两者之间表现出的关
联度越大,即互信息越大,则表示该特征值最
能代表此类别。
3 特征项加权
将每一篇训练文本集合在特征空间中的
向量进行扫描和统计,采用TF--IDF 的方法计
算出向量中每一维的权重。TF-IDF 权重,代
表将词语频率和文本频率两种数据信息结合,
进行利用表示将TF 和IDF 两种计算权重的方
式进行组合并综合运用,其计算公式为:
(1)
式中TF 代表排序为k 的特征词出现在第
i 篇文本中的次数,N 代表着当前训练集中的
文本总数目,nk 代表着包含排序为k 的特征词
的文本数目,β 为一个经验值,一般取0.01、0.1
或者1。
4 文本生成VSM模型
目前文本表示通常采用 G. Salton 等人
提出的向量空间模型(Vector Space Model,
VSM)。给定一个文本 D(t1,w1;t2,w2;…
;tn,wm),D 满足以下约定:
(1)各个特征项 tk(1 ≤ k ≤ n)互异;
(2)各个特征项 tk 没有顺序关系。
采用向量空间模型的方式来表示文本,
其主要的流程如下:
(1)首先将样本数据集中的训练集表示
成特征项序列D={t1,t2,…,td},便于文本表示;
(2)根据机器学习的算法所需要的文本
表示形式,并基于第一步中排列出的文本的特
征项序列,把包含在样本集中选择出的训练集
和测试集中的所有文本分别进行特征赋值和规
约化等操作,最终生成计算机能够识别的向量
空间模型。
5 情感词典建立
对文本的情感进行分类,必须要在分类
器上对情感信息进行训练,这就需要建立一个
情感词典来提供给机器学习。文本中包含的情
感信息通常都是以词语的形式体现,情感词的
褒贬也通常代表这句子的褒贬,因此,一个词
汇量大、高质量的情感词典,将有效提高情感
分类的效率。
情感词典的建立基于国内常用的情感词
典《知网》(HowNet)知网于2007 年发布了
beta 版本情感分析用词语集,其中报考正向的
情感词836 个,负向的情感词语1254 个。评
价词语褒义3730 个,贬义3116 个。
6 小结
本文对文本情感分析预处理的过程做了
详细的介绍,对采集到的含有较多数据噪声的
文本,先进行分词和去停用词,在此基础上对
当前处理好的文本进行特征选择和特征项加
权,最后将文本用空间向量(VSM)的形式
表示,便于计算机识别并为文本分类提供方便。
作者单位
重庆师范大学计算机与信息科学学院 重庆市
401331
Data Base Technique • 数据库技术