基于TF-IDF与word2vec的台词文本分类研究

被引：4

作者：

但宇豪 ^{[1
]}

黄继风 ^{[1
]}

杨琳 ^{[2
]}

高海 ^{[3
]}

机构：

[1] 上海师范大学信息与机电工程学院

[2] 上海计算机软件技术开发中心

[3] 上海高创电脑技术工程有限公司

来源：

上海师范大学学报(自然科学版) | 2020年 / 49卷 / 01期

关键词：

词频-逆文本频率(TF-IDF); word2vec; 信息熵; 文本分类; 机器学习; 加权;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.

引用

页码：89 / 95

页数：7

共 14 条

[1] 基于LDA特征扩展的短文本分类方法研究
胡朝举
徐永峰
[J]. 软件导刊, 2018, 17 (03) : 63 - 66
[2] 基于LDA特征扩展的短文本分类方法研究
胡朝举
徐永峰
[J]. 软件导刊, 2018, 17 (03) : 63 - 66
[3] 一种基于word2vec的文本分类方法
薛炜明
侯霞
李宁
[J]. 北京信息科技大学学报(自然科学版), 2018, 33 (01) : 71 - 75
[4] 一种基于word2vec的文本分类方法
薛炜明
侯霞
李宁
[J]. 北京信息科技大学学报(自然科学版), 2018, 33 (01) : 71 - 75
[5] 基于维基百科构建语义知识库及其在文本分类领域的应用研究[D]. 苏小康.华中师范大学 2010
[6] 基于维基百科构建语义知识库及其在文本分类领域的应用研究[D]. 苏小康.华中师范大学 2010
[7] A Neural Probabilistic Language Model. Bengio, Yoshua,Ducharme, Réjean,Vincent, Pascal,Jauvin, Christian. Journal of Machine Learning Research . 2003
[8] A Neural Probabilistic Language Model. Bengio, Yoshua,Ducharme, Réjean,Vincent, Pascal,Jauvin, Christian. Journal of Machine Learning Research . 2003
[9] Efficient estimation of word representations in vector space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean. Computer Science . 2013
[10] Efficient estimation of word representations in vector space. Tomas Mikolov,Kai Chen,Greg Corrado,Jeffrey Dean. Computer Science . 2013

← 1 2 →