首页
学术期刊
论文检测
AIGC检测
热点
更多
数据
基于TF-IDF与word2vec的台词文本分类研究
被引:0
|
作者
:
论文数:
引用数:
h-index:
机构:
但宇豪
[
1
]
论文数:
引用数:
h-index:
机构:
黄继风
[
1
]
杨琳
论文数:
0
引用数:
0
h-index:
0
机构:
上海计算机软件技术开发中心
上海师范大学信息与机电工程学院
杨琳
[
2
]
高海
论文数:
0
引用数:
0
h-index:
0
机构:
上海高创电脑技术工程有限公司
上海师范大学信息与机电工程学院
高海
[
3
]
机构
:
[1]
上海师范大学信息与机电工程学院
[2]
上海计算机软件技术开发中心
[3]
上海高创电脑技术工程有限公司
来源
:
上海师范大学学报(自然科学版)
|
2020年
/ 49 卷
/ 自然科学版期
关键词
:
词频-逆文本频率(TF-IDF);
word2vec;
信息熵;
文本分类;
机器学习;
加权;
D O I
:
暂无
中图分类号
:
学科分类号
:
摘要
:
为提高文本分类的准确性,针对健康节目台词文本各类别之间样本数量及各样本之间词数不平衡的特点,提出了一种基于word2vec均值算法及改进的词频-逆文本频率(TFIDF)算法的分类方法 .该方法通过引入信息熵及修正因子,缓解了数据不平衡对分类准确率及召回率造成的不良影响.实验结果表明:所提出的分类方法在准确率及召回率上与word2vec均值模型相比,分别提高7.3%及10.5%.
引用
收藏
页数:7
相关论文
共 5 条
[1]
基于LDA特征扩展的短文本分类方法研究
论文数:
引用数:
h-index:
机构:
胡朝举
论文数:
引用数:
h-index:
机构:
徐永峰
[J].
软件导刊,
2018,
17
(03)
: 63
-
66
[2]
一种基于word2vec的文本分类方法
论文数:
引用数:
h-index:
机构:
薛炜明
侯霞
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学计算机学院
北京信息科技大学计算机学院
侯霞
李宁
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学计算机学院
北京信息科技大学计算机学院
李宁
[J].
北京信息科技大学学报(自然科学版),
2018,
33
(01)
: 71
-
75
[3]
基于维基百科构建语义知识库及其在文本分类领域的应用研究[D] 苏小康 华中师范大学 2010,
[4]
Robust Truncated Hinge Loss Support Vector Machines[J] Yichao Wu;Yufeng Liu Journal of the American Statistical Association 2007,
[5]
基于WordNet以及潜在语义分析的文本分类方法[P] 赵旭;李建强;刘璐;许泽文;莫豪文 2015,
←
1
→
共 5 条
[1]
基于LDA特征扩展的短文本分类方法研究
论文数:
引用数:
h-index:
机构:
胡朝举
论文数:
引用数:
h-index:
机构:
徐永峰
[J].
软件导刊,
2018,
17
(03)
: 63
-
66
[2]
一种基于word2vec的文本分类方法
论文数:
引用数:
h-index:
机构:
薛炜明
侯霞
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学计算机学院
北京信息科技大学计算机学院
侯霞
李宁
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学计算机学院
北京信息科技大学计算机学院
李宁
[J].
北京信息科技大学学报(自然科学版),
2018,
33
(01)
: 71
-
75
[3]
基于维基百科构建语义知识库及其在文本分类领域的应用研究[D] 苏小康 华中师范大学 2010,
[4]
Robust Truncated Hinge Loss Support Vector Machines[J] Yichao Wu;Yufeng Liu Journal of the American Statistical Association 2007,
[5]
基于WordNet以及潜在语义分析的文本分类方法[P] 赵旭;李建强;刘璐;许泽文;莫豪文 2015,
←
1
→