基于Web-Log Mining的Web文档聚类

被引:27
|
作者
苏中
马少平
杨强
张宏江
机构
[1] Simon Fraser大学
[2] 微软中国研究院 北京100084 清华大学智能技术与系统国家重点实验室
[3] 北京100084
[4] 加拿大
[5] 清华大学计算机科学与技术系
[6] 北京100080
关键词
数据库; 聚类; Webmining; 数据挖掘;
D O I
10.13328/j.cnki.jos.2002.01.014
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.
引用
收藏
页码:99 / 104
页数:6
相关论文
共 6 条
  • [1] SLINK: an optimally efficient algorithm for the single-link cluster method. Sibson,R. TheComputerJournal . 1973
  • [2] Finding Groups in Data: An Introduction to Cluster Analysis. Kaufman L,Rousseeuw P. J. . 1990
  • [3] Efficient and effective clustering methods for data mining. Ng,R,Han,J. Proceedings of the1994InternationalConference onVeryLargeDataBases (VLDB94) . 1994
  • [4] A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Martin Ester,Hans-Peter Kriegel el. Proceedings of 2nd international conference on knowledge discovery and data mining . 1996
  • [5] Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Voorhees,E.M. InformationProcessing andManagement . 1986
  • [6] On-Line clustering. Bouguettaya,A. IEEE Transactions onKnowledge andDataEngineering . 1996