你的位置:论文发表 >> 论文下载 >> 计算机论文 >> 计算机网络 >> 详细内容 在线投稿

文本情感分类预处理研究

浏览138次 时间:2017年5月20日 08:40

【关键词】情感分类 预处理 特征词 情感词

一般的文本采集方法会使得最终得到的

文本集合中含有大量的噪音,在这些噪音的影

响下,进行文本情感分析会受到干扰,得到的

结果准确性也会降低。因此在进行情感分析之

前必须要对文本数据集进行一系列预处理工

作。

1 文本分词、去停用词

中文分词(Chinese Word Segmentation

是指将完整的句子拆分成单个词语。现阶段常

用的中文分词算法主要有三种:统计方法,词

典方法和规则方法。中文分词采用一般采用中

科院中文分词系统(ICTCLAS)进行,可以

实现中文分词、词性标注和命名实体识别,该

系统对分词具有较好的效果。举例来说:

原句:中央电视台主持人、了不起的挑

战节目艺人撒贝宁在上海拍摄节目。

以上句子用ICTCLAS 分词后:中央电视

/n 主持人/n 、了不起的挑战/n 节目/n

/n 撒贝宁/n /p 上海/n 拍摄/v 节目/n

/w

__________上述分词实例可以看出,ICTCLAS

分词时整体效果较为优秀,能够将名词动词等

都正确分出。

停用词指在中文文本中出现的语气助词、

指代词、介词、感叹词、数量词、副词、连词

等对文本分类没有直接影响的词语。这些停用

词在中文文本中出现的频率非常高,使得对文

本的特征选取方面出现一定程度的偏差。

那么如何将停用词去除便成了文本分类

的一个先决条件,去停用词的过程是:建立一

/郭璇

文本是情感表达的重要方式,

在挖掘文本包含的情感之前必须

要进行预处理。本文对预处理的

过程进行综述,包括文本分词、

去停用词、特征选择、特征项加权、

生成VSM 模型、情感词典建立等

步骤。

摘 要

个停用词词典,分词后,将每个词语放进停用

词词典进行比对,如果相同则去除当前词语。

需要我们注意的是,停用词的词典构建过程不

可能一次完成,需要在平时的研究过程中不断

积累和添加。如果能将文本集合中的词频做出

统计,即可发现,词频数最大的几个词语通常

是我们文本分类中无意义的停用词。

2 特征选择

常用的文本特征选择基本思想:针对每

一个特征词,计算出一个统计时使用的度量值,

设定一个阈值,将计算出的统计度量值的结果

与阈值做出比较,小于阈值的所有特征都去除,

最后剩下的就是有效特征。具体方法有以下三

种:

文档频率(DF):文档频率指某一个具

体的特征词在其他文档中出现的次数。其主要

思想是:对包含指定特征的文档在训练集中出

现的频率进行统计,并预设一个相应的阈值。

将特征项的DF 值与设定好的阈值进行比较,

DF 值小于阈值,则将此特征值删去,这样

可以使得特征的选取更加具有代表性。

信息增益(IG):信息增益主要凭借信

息熵来衡量特征项对分类提供了多少信息。在

进行特征选取时,根据该项特征存在与否时分

别判断当前分类模型中的信息量大小,若该特

征项存在时,分类模型提供较大的信息量,则

将此特征项提取出来。

互信息(MI: 互信息主要是检测两个随

机事件之间的关联性。在特征选择这个关键步

骤中,若类别与特征项这两者之间表现出的关

联度越大,即互信息越大,则表示该特征值最

能代表此类别。

3 特征项加权

将每一篇训练文本集合在特征空间中的

向量进行扫描和统计,采用TF--IDF 的方法计

算出向量中每一维的权重。TF-IDF 权重,代

表将词语频率和文本频率两种数据信息结合,

进行利用表示将TF IDF 两种计算权重的方

式进行组合并综合运用,其计算公式为:

1

式中TF 代表排序为k 的特征词出现在第

i 篇文本中的次数,N 代表着当前训练集中的

文本总数目,nk 代表着包含排序为k 的特征词

的文本数目,β 为一个经验值,一般取0.010.1

或者1

4 文本生成VSM模型

目前文本表示通常采用 G. Salton 等人

提出的向量空间模型(Vector Space Model,

VSM)。给定一个文本 Dt1,w1;t2,w2;

;tn,wm,D 满足以下约定:

1)各个特征项 tk1 k n)互异;

2)各个特征项 tk 没有顺序关系。

采用向量空间模型的方式来表示文本,

其主要的流程如下:

1)首先将样本数据集中的训练集表示

成特征项序列D={t1,t2,,td},便于文本表示;

2)根据机器学习的算法所需要的文本

表示形式,并基于第一步中排列出的文本的特

征项序列,把包含在样本集中选择出的训练集

和测试集中的所有文本分别进行特征赋值和规

约化等操作,最终生成计算机能够识别的向量

空间模型。

5 情感词典建立

对文本的情感进行分类,必须要在分类

器上对情感信息进行训练,这就需要建立一个

情感词典来提供给机器学习。文本中包含的情

感信息通常都是以词语的形式体现,情感词的

褒贬也通常代表这句子的褒贬,因此,一个词

汇量大、高质量的情感词典,将有效提高情感

分类的效率。

情感词典的建立基于国内常用的情感词

典《知网》(HowNet)知网于2007 年发布了

beta 版本情感分析用词语集,其中报考正向的

情感词836 个,负向的情感词语1254 个。评

价词语褒义3730 个,贬义3116 个。

6 小结

本文对文本情感分析预处理的过程做了

详细的介绍,对采集到的含有较多数据噪声的

文本,先进行分词和去停用词,在此基础上对

当前处理好的文本进行特征选择和特征项加

权,最后将文本用空间向量(VSM)的形式

表示,便于计算机识别并为文本分类提供方便。

作者单位

重庆师范大学计算机与信息科学学院 重庆市

401331

Data Base Technique 数据库技术

TAG: 关键词 情感
上一篇 下一篇

论文发表与咨询

论文发表 写作指导 职称论文 毕业论文 客服联系方式:
投稿信箱:lunww@126.com
在线咨询客服QQ:站点合作85782530
在线咨询客服QQ:站点合作82534308
联系电话:18262951856
点击进入支付宝支付(支付宝认可网络诚信商家)
点击进入财付通支付(财付通认可网络诚信商家)
点击进入支付方式---->>>>

论文发表 诚信说明

论文发表 论文投稿 热点图片