基于Web-Log Mining的Web文档聚类

被引：27

作者：

苏中

马少平

杨强

张宏江

机构：

[1] Simon Fraser大学

[2] 微软中国研究院北京100084 清华大学智能技术与系统国家重点实验室

[3] 北京100084

[4] 加拿大

[5] 清华大学计算机科学与技术系

[6] 北京100080

来源：

软件学报 | 2002年 / 01期

关键词：

数据库; 聚类; Webmining; 数据挖掘;

D O I：

10.13328/j.cnki.jos.2002.01.014

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

速度和效果是聚类算法面临的两大问题.DBSCAN(density based spatial clustering of applications with noise)是典型的基于密度的一种聚类方法,对于大型数据库的聚类实验显示了它在速度上的优越性.提出了一种基于密度的递归聚类算法(recursive density based clustering algorithm,简称RDBC),此算法可以智能地、动态地修改其密度参数.RDBC是基于DBSCAN的一种改进算法,其运算复杂度和DBSCAN相同.通过在Web文档上的聚类实验,结果表明,RDBC不但保留了DBSCAN高速度的优点,而且聚类效果大大优于DBSCAN.

引用

页码：99 / 104

页数：6

共 6 条

[1] SLINK: an optimally efficient algorithm for the single-link cluster method. Sibson,R. TheComputerJournal . 1973
[2] Finding Groups in Data: An Introduction to Cluster Analysis. Kaufman L,Rousseeuw P. J. . 1990
[3] Efficient and effective clustering methods for data mining. Ng,R,Han,J. Proceedings of the1994InternationalConference onVeryLargeDataBases (VLDB94) . 1994
[4] A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise. Martin Ester,Hans-Peter Kriegel el. Proceedings of 2nd international conference on knowledge discovery and data mining . 1996
[5] Implementing agglomerative hierarchical clustering algorithms for use in document retrieval. Voorhees,E.M. InformationProcessing andManagement . 1986
[6] On-Line clustering. Bouguettaya,A. IEEE Transactions onKnowledge andDataEngineering . 1996

← 1 →