首页
学术期刊
论文检测
AIGC检测
热点
更多
数据
基于Word2vec的文档分类方法
被引:9
|
作者
:
论文数:
引用数:
h-index:
机构:
陈杰
[
1
]
陈彩
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学信息学部
北京工业大学信息学部
陈彩
[
1
]
梁毅
论文数:
0
引用数:
0
h-index:
0
机构:
北京工业大学信息学部
北京工业大学信息学部
梁毅
[
1
]
机构
:
[1]
北京工业大学信息学部
来源
:
计算机系统应用
|
2017年
/ 26卷
/ 11期
关键词
:
文档向量;
文档特征提取;
文档分类;
TF-IDF;
word2vec;
D O I
:
10.15888/j.cnki.csa.006055
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
文档的特征提取和文档的向量表示是文档分类中的关键,本文针对这两个关键点提出一种基于word2vec的文档分类方法.该方法根据DF采集特征词袋,以尽可能的保留文档集中的重要特征词,并且利用word2vec的潜在语义分析特性,将语义相关的特征词用一个主题词乘以合适的系数来代替,有效地浓缩了特征词袋,降低了文档向量的维度;该方法还结合了TF-IDF算法,对特征词进行加权,给每个特征词赋予更合适的权重.本文与另外两种文档分类方法进行了对比实验,实验结果表明,本文提出的基于word2vec的文档分类方法在分类效果上较其他两种方法均有所提高.
引用
下载
收藏
页码:159 / 164
页数:6
相关论文
共 6 条
[1]
基于Word2Vec的一种文档向量表示
论文数:
引用数:
h-index:
机构:
唐明
论文数:
引用数:
h-index:
机构:
朱磊
邹显春
论文数:
0
引用数:
0
h-index:
0
机构:
西南大学计算机与信息科学学院
西南大学计算机与信息科学学院
邹显春
[J].
计算机科学,
2016,
43
(06)
: 214
-
217
[2]
基于信息增益与信息熵的TFIDF算法
论文数:
引用数:
h-index:
机构:
李学明
论文数:
引用数:
h-index:
机构:
李海瑞
论文数:
引用数:
h-index:
机构:
薛亮
论文数:
引用数:
h-index:
机构:
何光军
[J].
计算机工程,
2012,
38
(08)
: 37
-
40
[3]
信息检索用户查询语句的停用词过滤
论文数:
引用数:
h-index:
机构:
熊文新
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
[J].
计算机工程,
2007,
(06)
: 195
-
197
[4]
基于机器学习的文本分类技术研究进展
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
苏金树
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
张博锋
徐昕
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
徐昕
[J].
软件学报,
2006,
(09)
: 1848
-
1859
[5]
Web挖掘中的降维和分类方法研究[D]. 孙建涛.清华大学. 2005
[6]
EXTENDED BOOLEAN INFORMATION-RETRIEVAL
SALTON, G
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
SALTON, G
FOX, EA
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
FOX, EA
WU, H
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
WU, H
[J].
COMMUNICATIONS OF THE ACM,
1983,
26
(11)
: 1022
-
1036
←
1
→
共 6 条
[1]
基于Word2Vec的一种文档向量表示
论文数:
引用数:
h-index:
机构:
唐明
论文数:
引用数:
h-index:
机构:
朱磊
邹显春
论文数:
0
引用数:
0
h-index:
0
机构:
西南大学计算机与信息科学学院
西南大学计算机与信息科学学院
邹显春
[J].
计算机科学,
2016,
43
(06)
: 214
-
217
[2]
基于信息增益与信息熵的TFIDF算法
论文数:
引用数:
h-index:
机构:
李学明
论文数:
引用数:
h-index:
机构:
李海瑞
论文数:
引用数:
h-index:
机构:
薛亮
论文数:
引用数:
h-index:
机构:
何光军
[J].
计算机工程,
2012,
38
(08)
: 37
-
40
[3]
信息检索用户查询语句的停用词过滤
论文数:
引用数:
h-index:
机构:
熊文新
宋柔
论文数:
0
引用数:
0
h-index:
0
机构:
北京语言大学语言信息处理研究所
北京外国语大学中国外语教育研究中心
宋柔
[J].
计算机工程,
2007,
(06)
: 195
-
197
[4]
基于机器学习的文本分类技术研究进展
苏金树
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
苏金树
张博锋
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
张博锋
徐昕
论文数:
0
引用数:
0
h-index:
0
机构:
湖南长沙410073国防科学技术大学机电工程与自动化学院
徐昕
[J].
软件学报,
2006,
(09)
: 1848
-
1859
[5]
Web挖掘中的降维和分类方法研究[D]. 孙建涛.清华大学. 2005
[6]
EXTENDED BOOLEAN INFORMATION-RETRIEVAL
SALTON, G
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
SALTON, G
FOX, EA
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
FOX, EA
WU, H
论文数:
0
引用数:
0
h-index:
0
机构:
INT INST TROP AGR, IBADAN, NIGERIA
WU, H
[J].
COMMUNICATIONS OF THE ACM,
1983,
26
(11)
: 1022
-
1036
←
1
→