基于改进的TF-IDF算法的微博话题检测

被引:16
|
作者
陈朔鹰 [1 ]
金镇晟 [2 ]
机构
[1] 北京理工大学网络信息中心
[2] 北京理工大学计算机学院
关键词
微博; TF-IDF; 话题检测; TDT; 文本聚类;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
中文微博具有更新快、时效性强等特点,产生的热点话题均具有一定的突发性,与此同时文本中有代表性的特征词也会随之激增。利用这一特性,在传统的TF-IDF(term frequency-inverse document frequency)基础上提出一种改进的特征权重算法,称之为TF-IDF-KE(term frequency-inverse document frequency-kinetic energy),用以解决突发性热点话题在聚类时特征不明显的问题。该算法结合物体的动能原理,将特征项的突发值用动能的概念进行描述,加入权值计算,提高突发性特征项的权重,最后使用CURE(clustering using representatives)算法,实现微博的话题检测。该方法描述了文本和特征项所具有的动态属性,实验结果表明,该方法能够有效地提高话题检测的效果。
引用
收藏
页码:282 / 286
页数:5
相关论文
共 9 条
  • [1] 基于改进的χ2检验的热点词突发性度量研究
    翟东海
    聂洪玉
    崔静静
    于磊
    杜佳
    王佳君
    [J]. 计算机与数字工程, 2013, 41 (11) : 1788 - 1790
  • [2] 基于互信息的热点词发现和突发性话题检测研究
    翟东海
    王佳君
    聂洪玉
    崔静静
    [J]. 西藏大学学报(自然科学版), 2013, 28 (01) : 82 - 87
  • [3] 一种突发性热点话题在线发现与跟踪方法
    薛峰
    周亚东
    高峰
    刘霁
    赵俊舟
    党琪
    [J]. 西安交通大学学报, 2011, (12) : 64 - 69+116
  • [4] 互联网话题识别与跟踪系统设计及实现
    闵可锐
    赵迎宾
    刘昕
    赵泽宇
    闫华
    [J]. 计算机工程, 2008, (19) : 212 - 214
  • [5] 话题检测与跟踪的评测及研究综述
    洪宇
    张宇
    刘挺
    李生
    [J]. 中文信息学报, 2007, (06) : 71 - 87
  • [6] 一种基于动态进化模型的事件探测和追踪算法
    贾自艳
    何清
    张海俊
    李嘉佑
    史忠植
    [J]. 计算机研究与发展, 2004, (07) : 1273 - 1280
  • [7] Cure: an efficient clustering algorithm for large databases[J] . Sudipto Guha,Rajeev Rastogi,Kyuseok Shim.Information Systems . 2001 (1)
  • [8] A vector space model for automatic indexing[J] . G. Salton,A. Wong,C. S. Yang.Communications of the ACM . 1975 (11)
  • [9] Introduction to data mining. Pang-Ning T,Michael S,Vipin K. Addison-Wesley . 2006