基于竞争思想的分级聚类算法

文章快速检索

引用本文

张文倩, 庄华亮, 陈翔, 何熊熊. 基于竞争思想的分级聚类算法[J]. 信息与控制, 2017, 46(5): 614-619, 626. 复制到剪切板

ZHANG Wenqian, ZHUANG Hualiang, CHEN Xiang, HE Xiongxiong. Hierarchical Clustering Algorithm Based on Competitive Learning[J]. Information and Control, 2017, 46(5): 614-619, 626. 复制到剪切板

基于竞争思想的分级聚类算法

张文倩¹, 庄华亮¹, 陈翔², 何熊熊¹

1. 浙江工业大学信息工程学院, 浙江杭州 310023;
2. 浙江三门县人民医院, 浙江台州 317100

收稿/录用/修回: 2016-07-20/2017-10-21/2017-01-23

基金项目: 浙江省公益技术研究社会发展项目（2013C33069）；浙江省科技项目（2013C33083）；三门县科技计划项目（12401）

作者简介: 张文倩（1990-），女，硕士生.研究领域为数据挖掘，聚类分析.
庄华亮（1967-），男，博士，讲师.研究领域为智能系统，无线传感网络，数据挖掘.
陈翔（1962-），男，教授.研究领域医疗信息化，医院管理.

通信作者: 庄华亮，zhuanghl@zjut.edu.cn

摘要: 为了解决海量数据分析中的非凸状等复杂聚类问题，同时兼顾聚类算法运算速度，提出了一种新的基于竞争思想的快速分级聚类算法.首先，根据给定邻域半径对数据进行第1级分类；然后，在第1级聚类的基础上，基于数据竞争的思想，以簇间数据密度为依据，设立第1级聚类生成的小簇之间小簇联系性权重的增加准则；最后，依据该准则计算有联系的小簇之间联系权重，对达到权重阈值的小簇进行合并，从而解决非凸状等复杂聚类问题.仿真实验表明，算法的聚类精度和抗噪声能力均优于传统的K-means算法和基于密度的DBSCAN（density-based spatial clustering of applications with noise）算法.由于算法复杂度较低，算法对于大数据的聚类分析将会具有更好的适用性.

关键词: 分级聚类复杂聚类竞争算法联系性权重类合并

Hierarchical Clustering Algorithm Based on Competitive Learning

ZHANG Wenqian¹, ZHUANG Hualiang¹, CHEN Xiang², HE Xiongxiong¹

1. College of Information Engineering, Zhejiang University of Technology, Hangzhou 310023, China;
2. Sanmen County People's Hospital, Taizhou 317100, China

Abstract: We propose a new hierarchical clustering algorithm based on competition theory to solve the issue of non-convex and other complex clustering for massive data analysis with efficient computation. First, we separate the data into a number of sub-clusters according to a given rudimentary clustering radius. Then, on the basis of the first-level clustering, we establish a criterion for strengthening the inter-cluster association weight based on the idea of data competition depending on the data density between the sub-clusters. Finally, the sub-clusters with qualified association weights are grouped into resultant clusters to solve complex clustering problems, such as non-convex clustering. The clustering accuracy and anti-noise capability of the new hierarchical clustering algorithm are superior to those of the traditional K-means algorithm and density-based DBSCAN clustering algorithms. Given the low complexity of the algorithm, the proposed algorithm can be used in clustering analysis of big data.

Key words: hierarchical clustering complex clustering competition algorithm link weight class merging

1 引言

聚类分析^[1-2]是数据挖掘^[3-4]的重要组成部分，作为数据分析的工具，聚类在各个领域得到了广泛的应用^[5].所谓聚类(clustering)是将数据对象分成若干个类，在同一个类中的对象具有较高的相似度，而不同类中的对象差别较大.作为无监督^[6]的学习方法之一，聚类^[7]越来越引起人们的关注.

聚类算法^[7]大体分为以下几类：(1) 基于划分^[8]的方法，如K-means算法^[9]、K-medoids算法等；(2) 基于层次的方法，如BIRCH(balanced iterative reducing and clustering using hierarchies)算法、CURE(clustering using representatives)^[10]算法；(3) 基于密度的方法，如DBSCAN (density-based spatial clustering of application with noise)^{[1, 11]}算法、DENCLUE(DENsity based CLUstEring)等算法；(4) 基于网格的方法；(5) 神经网络等其它各种聚类方法^[10-13].其中，K-means算法是最经典的聚类算法之一.作为目前应用最广的基于划分的聚类算法，K-means算法实现起来比较简单，但是仍有以下3个缺点：(1) 用户必须事先指定聚类个数；(2) K-means算法不适合发现非凸状的聚类；(3) K-means算法对噪声和异常数据非常敏感.而DBSCAN通过检查一个对象ε邻域的密度是否足够高，即一定距离ε内数据点个数是否超过设定阈值来确定是否建立一个以该对象为核心对象的新簇，再合并密度可达簇的方法来实现可以在带有“噪声”的空间数据库中发现任意形状的簇类，但是DBSCAN算法却对ε和设定阈值这两个难以确定的参数敏感^[1].另外，在计算复杂度上，DBSCAN相对较高.

针对以上分析的K-means算法及DBSCAN算法的缺点，本文提出一种新的基于竞争思想的分级聚类(hierarchical clustering)算法，将竞争思想引入聚类过程，用多级快速凸聚类，解决非凸聚类问题，采用权重判据以及权重增加的方式计算联系性权重，实现后级小簇快速合并算法.实验结果表明，本文算法聚类时间短、速度快准确率高，不仅能发现任意形状的簇类，而且计算复杂度及参数敏感性低于DBSCAN算法.

2 相关定义及算法描述

本文采用分级聚类的思想，将聚类过程分为2级聚类.第1级聚类基于距离，将对象划分为一定数目的小类；第2级聚类基于竞争思想^[14-16]，计算第1级聚类簇心之间的权重，采取适当的规则进行簇的合并，实现聚类.算法的基本思想为：

设数据集X={X₁，X₂，…，X_i，…，X_N}(i=1，2，…，N)，其中，N是数据集中的元素总数，X中的第i个数据对象X_i是一个P维矢量，X_i=[x_i¹，x_i²，…，x_iⁱ，…，x_i^p]^T. X中对象间的距离的计算方法为

(1)

其中，X_i=[x_i¹，x_i²，…，x_i^p]，X_j=[x_j¹，x_j²，…，x_j^p]是X的两个P维数据对象.

2.1 第1级聚类

第1级聚类是在给定的ε邻域值基础上进行一次次遍历，形成第1级聚类的小簇.在遍历的过程中取所要遍历数据集中的第1个数据作为第1个小簇的簇心，依次遍历数据集中的下一个数据，按照式(1) 计算数据点到所有簇心的距离，在簇心的ε邻域时将该点放入簇心所在的簇中，不在簇心的ε邻域时，该点作为一个新的簇的簇心计入下一次点到所有簇心的计算过程中.直到对所有数据进行一次遍历.最后将所形成小簇的中心更新为该簇的实际簇心.

第1级聚类算法描述如下：

对于数据集X={X₁，X₂，…，X_i，…，X_N}，设定距离半径ε及权重阈值L；假设最终形成的簇为H={H₁¹，H₂¹，…，H_j¹，…，H_M¹}，每一个簇所对应的簇心为C={C₁¹，C₂¹，…，C_j¹，…，C_M¹}，C_j¹和H_j¹中的上标1是代表第1级的聚类，下标j代表第j个簇.

第1步 初始化i=1，j=1，C₁¹=X₁.

第2步 i=i+1.

第3步 从第1个簇心C₁¹开始一直到第j个簇心依次作如下处理：

如果存在一个j使得||X_i-C_j¹|| < ε，那么H_j¹={H_j¹，X_i}并且判断i取值.当i < N时，返回第2步；否则，执行第4步.

如果找不到一个j满足||X_i-C_j¹|| < ε，那么j=j+1，同时将X_i放入新的簇H_j¹中，H_j¹={X_i}并且判断i取值.当i < N时，返回第2步；否则，执行第4步.

第4步 对形成的小簇H={H₁¹，H₂¹，…，H_j¹，…，H_M¹}进行簇心的更新，将簇的实际中心作为更新后的簇心C={C₁¹，C₂¹，…，C_j¹，…，C_M¹}.

2.2 第2级聚类

由于第1级聚类形成的是一些基于欧氏距离数据空间中的凸状的、分布相对密集的小类，所以需要进行凸状小簇的合并(第2级聚类)来解决非凸状等复杂聚类问题.为了对小簇进行合理合并，引入簇间联系权重的计算.

如图 1所示，图中3个椭圆分别代表3个小簇，实心点为簇心元素，空心三角形代表该簇的簇心，簇心记为A、B、C.为方便表述，分别称3个小簇为簇A、簇B、簇C.对簇A中的数据X_i，距离X_i最近簇心默认为X_i所在的簇A的簇心，如果除去X_i本身所在的簇心外，距离X_i次近的簇为小簇B，此时，称簇A和簇B之间对于数据X_i存在联系权重.

图 1 簇之间的联系 Figure 1 The links among the clusters

图选项

所有簇心对于簇中数据存在竞争关系，本文在竞争中采用“赢者通吃”的思想，取竞争过程中该元素自身所在簇的簇心和除去自身簇心之外的距离该元素最近的簇心作为竞争中的胜利者，进行联系权重计算.如图 1中簇C对簇A、B间关于当前元素X_i的联系权重没有影响.

从簇间联系权重的概念可以看出，2个小簇之间的联系权重实际上取决于小簇之间数据点的密度.由此，可以制定基于联系权重计算的小簇之间合并准则.

联系权重的考虑分为2个层次：第1层次是簇间联系权重的存在判据；第2层次是对已存在权重的加权计算.联系权重存在判据：对数据集X={X₁，X₂，…，X_i，…，X_N}，在进行第1级聚类之后，若所有簇心对数据X_i的竞争过程中，胜利者分别为簇心C_x¹和C_y¹，取d=max(||X_i-C_x¹||，||X_i-C_y¹||).当d的取值在某一范围时，则认为簇C_x¹和簇C_y¹存在联系性权重.实验结果表明，当d≤2.5时，算法具有较好的聚类质量.本文取d≤2.5进行联系权重的存在判据.联系性权重的增加准则：用L_x^y表示两个小簇之间的联系权重，计算方法为

(2)

其中，d=max(||X_i-C_x¹||，||X_i-C_y¹||)，L_x^y中x=min(x，y)，y=max(x，y)，ε为第1级聚类的聚类半径.

基于上述联系权重的存在判据和增加准则，在第1级聚类的基础上计算小簇之间的联系权重：

首先对数据集X={X₁，X₂，…，X_i，…，X_N}从第1个数据X₁开始依次进行遍历，对每一个具体的数据，所有簇心C={C₁¹，C₂¹，…，C_j¹，…，C_M¹}对该数据存在竞争关系，按照“赢者通吃”的思想找出所有簇心在对数据竞争关系过程中的2个胜利者C_x¹和C_y¹，然后按照上面所说联系性权重存在准则判断2个胜利者所对应的簇H_x¹和H_y¹之间是否存在联系权重.如果存在权重，则对存在权重的簇按照式(2) 进行联系权重的增加，然后遍历下一个数据；如果不存在联系权重则直接遍历下一个数据.直到所有的数据依次遍历一次.

联系权重计算完成之后，形成的联系权重为L_x^y，其中x=1，…，M，y=x，…，M.

根据以上对第1级聚类形成的凸状的、分布相对密集的小簇之间联系性权重的计算，进行小簇合并.给定联系权重阈值L，当联系权重L_x^y>L时，簇H_x¹和簇H_y¹可以合并，第2级聚类算法描述为：

第1步 假设最终形成的簇集合为Q_k，其中下标k的每一个取值对应一个独立的簇，对最终形成的簇集合Q_k的下标初始化为k=1，Q₁={C₁¹}，联系权重L_x^y下标x初始化为x=1.

第2步 联系权重L_x^y的下标x=1，…，M逐一取值，对联系权重L_x^y的上标取值依次为y=x，…，M，当L_x^y中出现x=y的情况时，令L_x^y满足L_x^y>L.

当联系权重L_x^y不满足L_x^y>L条件时，小簇不作任何处理；当联系权重L_x^y满足L_x^y>L条件时，如果C_x¹∈Q_k或者C_y¹∈Q_k，那么C_x¹和C_y¹同时合并到Q_k中，Q_k={Q_k，C_x¹，C_y¹}；否则k=k+1，同时C_x¹和C_y¹合并到新的簇Q_k中，Q_k={C_x¹，C_y¹}.其中，Q_k={Q_k，C_x¹，C_y¹}和Q_k={C_x¹，C_y¹}中存在的相同的元素合并为同一项.

第3步 最终形成的簇为Q_k(k=1，2…，K).

第2级聚类结束.

由于第2级聚类对凸状的、分布相对密集的小类采用的合并方式是一种联合覆盖的形式，因此可以很好地解决一些非凸状等复杂聚类问题.

3 实验结果与分析

本文实验环境为Intel酷睿i5-3230M CPU @ 2.60 GHz，安装内存4.00 GB，500 GB硬盘，Windows 7操作系统，Matlab R2011b.

3.1 不加噪声的数据集实验

为了测试本文算法，将本文算法与经典的K-means算法和基于密度的DBSCAN算法进行对比，选用图 2所示的聚类算法测试常用数据集进行实验.

图 2 实验所用测试数据集 Figure 2 Test data set for the experiment

图选项

为了测试本文对非凸集的处理能力，选用了几种咬合形数据及螺旋线数据.同时，为了测试算法对大数据的处理能力，选用的DD10数据集是包含2 000个数据的大数据集.另外，为了测试本文对高维数据的处理能力，选用UCI机器学习数据库中的Iris聚类算法测试数据集.为了更方便清晰地展示本文算法的测试结果，采用表 1中对数据集的描述方式.

表 1 实验所用数据集描述 Table 1 Data set description for the experiment

数据集	数据集代码	样本数	属性数	类数
Aggregation	D₁	788	2	7
Spiral	D₂	312	2	3
R15	D₃	600	2	15
Jain	D₄	373	2	2
DD10	D₅	2 000	2	5
Iris	D₆	150	4	3

表选项

衡量聚类有效性^[17-18]的指标之一是聚类准确率.聚类准确率γ为正确分类的数据数目占总数据数目的百分比.本文首先采用聚类准确率来测试本文算法的效果.对表 1所列的6种数据集分别在K-means算法、基于密度的DBSCAN算法和本文算法上各自运行20次，统计出20次算法运行的正确率γ，计算出20次结果的平均正确率，结果如表 2所示.

表 2 6种数据集运行平均准确率比较 Table 2 Average accuracy of 6 types of data sets

数据集	K-means	DBSCAN	本文算法
D₁	0.789 2	0.789 3	0.956 8
D₂	0.339 4	0.992 0	0.999 9
D₃	0.730 8	0.945 0	0.971 7
D₄	0.782 7	0.975 0	0.994 6
D₅	0.665 3	0.797 0	0.826 0
D₆	0.779 3	0.660 0	0.800 0

表选项

根据表 2结果，本文算法在6种数据集上的准确率均高于K-means算法和基于密度的DBSCAN算法.本文算法不仅适用于凸集数据，在非凸集数据集上聚类准确率仍然较好.同时，本文算法对高维数据效果也略好于K-means算法和DBSCAN算法.在数据集D₁和数据集D₅上，本文算法的准确率均明显高于基于密度的DBSCAN.分析原因，DBSCAN算法会对每一个数据点检查该点的ε邻域及该点直接或间接密度可达的簇，因此容易将具有连接的不同的簇类划分到一个簇中，而本文算法在第2级聚类的类的合并处理上，采用增加权重的处理方式，权重达不到阈值，不进行簇的合并，因此在具有连接的数据集处理上，本文算法效果比DBSCAN要好.

根据表 3，K-means算法的最高准确率和最低准确率变化幅度较大，聚类结果具有一定的随机性，而本文算法和基于密度的DBSCAN算法一样，具有较好的聚类稳定性.

表 3 6种数据集运行最高准确率和最低准确率 Table 3 types of data sets to run the highest accuracy and the minimum accuracy

数据	K-means		DBSCAN		本文算法
数据	最高	最低	最高	最低	最高	最低
D₁	0.819 7	0.682 7	0.789 3	0.789 3	0.956 8	0.956 8
D₂	0.333 3	0.352 5	0.992 0	0.992 0	0.999 9	0.999 9
D₃	0.799 4	0.666 2	0.945 0	0.945 0	0.971 7	0.971 7
D₄	0.782 9	0.779 1	0.975 0	0.975 0	0.994 6	0.994 6
D₅	0.897 5	0.550 0	0.797 0	0.797 0	0.826 0	0.826 0
D₆	0.826 6	0.566 7	0.660 0	0.660 0	0.800 0	0.800 0

表选项

常用的聚类有效性评价方法有外部评价法、内部评价法和相对评价法^[19-20].这3类准则中，外部准则最为客观.为了进一步评价本文算法的性能，下面采用最为客观的外部准则中的Rand指数、Jaccard系数和Adjusted Rand index参数对算法的聚类结果进行分析. Rand指数、Jaccard系数和Adjusted Rand index参数的定义如下：设数据集X={X₁，X₂，…，X_i，…，X_N}，X本身正确的聚类划分为U，通过某种算法对数据集处理得到的某种聚类划分为V，对X中的一对数据点(X_i，X_j)，进行如下项的计算：

φ_UV——两个数据点(X_i，X_j)属于U且属于V；

φ_UV′——两个数据点(X_i，X_j)属于U，但不属于V；

φ_U′V——两个数据点(X_i，X_j)不属于U，但属于V；

φ_U′V′——两个数据点(X_i，X_j)不属于U，也不属于V.

设a、b、c、d分别表示φ_UV、φ_UV′、φ_U′V、φ_U′V′的数目，则a+b+c+d=N(N-1)/2，N为数据集X中所含的样本数，即数据集的规模.定义M为数据集X中所有可能的样本对，M=a+b+c+d.

Rand指数：

Jaccard系数：

Adjusted Rand index参数：

Rand指数和Jaccard系数的取值为[0,1]，Rand指数表示聚类结果与原始数据集样本分布的一致性，Jaccard系数表示正确分类的样本对数目占聚类前或聚类后在同一簇的样本对数目的比例. I_R取值为[-1,1]，I_R取值越接近1，则聚类结果与原始样本正确分布的一致性越高. I_R值越大表示正确聚类的样本对越多，聚类效果越好.文[21]指出Adjusted Rand index参数是评价聚类有效性的最好准则，本文算法和K-means算法及DBSCAN算法的3个系数比较如图 3~图 5所示.

图 3 Rand指数比较 Figure 3 The comparison of the Rand index

图选项

图 4 Jaccard参数比较 Figure 4 The comparison of the Jaccard index

图选项

图 5 Adjuested Rand index参数比较 Figure 5 The comparison of the Adjuested Rand index

图选项

通过图 3~图 5可以看出，在数据集D₁~D₅中，本文算法的3个参数值均高于K-means算法，而与基于密度的DBSCAN算法基本相当.在数据集D₁中，本文算法的测试结果显示，3个参数值本文均高于K-means和DBSCAN.

在算法复杂度上，K-means的复杂度是O(nkt)，其中，n是所有对象的数目，k是簇的数目，t是迭代的次数.如果采用空间索引，DBSCAN的计算复杂度是O(nln n)，这里n是数据集中对象的数目；否则，计算复杂度是O(n²).对于本文算法，在复杂度上由于本文算法没有对每个数据点计算ε邻域，而是直接遍历2遍数据集完成聚类，因此复杂度低于DBSCAN，而会略高于K-means算法.虽然本文算法计算复杂度略高于K-means算法，但是K-means算法性能有限，不适用于广泛的非凸状聚类. 表 4给出3种算法在6种数据集上的运行时间.从表 4可以看出，本文在运行时间方面与DBSCAN算法相比具有一定的优越性.

表 4 6种数据集运行时间 Table 4 The running time of 6 data sets

数据集	K-means	DBSCAN	本文算法
D₁	0.016 0	0.058 3	0.048 0
D₂	0.012 4	0.025 8	0.022 6
D₃	0.018 8	0.060 9	0.024 9
D₄	0.010 0	0.059 5	0.022 7
D₅	0.020 0	0.224 1	0.126 7
D₆	0.009 6	0.073 0	0.008 1

表选项

3.2 加噪声的数据集实验

为进一步测试本文算法的抗干扰能力，本文对上面所用的非凸状数据集D₄螺旋线数据随机生成了含有5%、10%、15%、20%、25%、30%、35%、40%的随机噪声进行测试.测试结果的聚类准确率如图 6所示.

图 6 人工添加噪声数据集上聚类准确度比较 Figure 6 The comparison of the clustering accuracy on the artificial additive noise data set

图选项

图 6的比较结果显示，本文算法在含有不同比例的噪声数据集上的聚类准确度明显高于K-means算法，而在含有较高的噪声比例的数据集上略优于DBSCAN算法，在含有较低的噪声比例的数据集上，抗噪声能力与DBSCAN算法相当.

3.3 算法参数敏感性实验

本文算法同DBSCAN算法一样，都是在人为给定参数和阈值的基础上进行的，阈值对测试结果无疑有着重要的影响.本文所提算法的2个参数(ε邻域值和联系权重阈值L)的选取分别影响2级聚类的过程.但是ε值的大小只能决定第1级聚类所形成的小簇的数目及小簇中数据的个数，而联系权重阈值L的取值则最终决定小簇是否能够合并.经多次实验后发现，本文ε邻域值选取数据所占用空间的10%左右较为合理，联系权重阈值L的取值取为有联系权重的2个小簇中所有数据数目和的40%到50%左右是一个比较合理的数据，同时对大部分数据具有良好的效果.而文[1]指出，对于最初的DBSCAN算法，设定阈值在4的时候对于大部分2维数据集是一个合理的值.因此，为了比较参数敏感性，本文选取本文算法和DBSCAN算法都能很好处理的数据集D₂的Spiral螺旋线数据集进行比较，重点比较DBSCAN中的ε邻域及本文算法第1级聚类中的ε邻域的参数敏感性.对于数据集D₂依次取ε值为数据空间的8%、9%、10%、11.5%、11.7%、12%、12.3%，对应的ε取值分别为0.36、0.45、0.495、0.52、0.53、0.54、0.55，实验结果如图 7所示.

图 7 参数敏感性比较 Figure 7 The comparison of the parameter sensitivity

图选项

图 7的比较结果显示，本文算法和DBSCAN算法当ε邻域半径取值为数据空间的8%、9%、10%、11.5%时都具有良好的聚类效果，说明该取值是比较合理的.但是，当取值进行0.03%小范围变动时，DBSCAN算法的聚类准确度急剧下降，而本文算法依然可以保持在0.8以上的聚类准确度，这说明本文算法参数敏感性低于BSCAN算法.

4 结语

本文分析了K-means算法及DBSCAN算法的不足，在此基础上提出了针对非凸状等复杂聚类的一种新的基于竞争思想的分级聚类算法，采用多级快速凸聚类，解决非凸聚类问题，克服了K-means算法不能解决的非凸状聚类问题的缺点.算法聚类时间短、准确率高.另外采用增加小簇之间联系性权重的方式进行小簇的合理合并，避免了小簇之间联系性权重的全连接，只对存在联系性的小簇之间建立联系性权重，减少了权重的计算，缩小了程序存储空间.算法在计算复杂度和参数敏感性方面优于DBSCAN算法.实验结果表明了本文算法的准确性、快速性及良好的抗噪性.鉴于本算法高效快速的特点，下一步将研究其在高维数据领域的应用.

参考文献

[1]	范明, 范宏建. 数据挖掘导论[M]. 北京: 人民邮电出版社, 2011: 305-400. Fan M, Fan H J. Introduction to data mining[M]. Beijing: Posts & Telecom Press, 2011: 305-400.

[2]	王骏, 王士同, 邓赵红. 聚类分析研究中的若干问题[J]. 控制与决策, 2012, 27(3): 321–328. Wang J, Wang S T, Deng Z H. Survey on challenges in clustering analysis research[J]. Control and Decision, 2012, 27(3): 321–328.

[3]	杨黎刚, 苏宏业, 张英, 等. 基于SOM聚类的数据挖掘方法及其应用研究[J]. 计算机工程与科学, 2007, 29(8): 133–136. Yang L G, Su H Y, Zhang Y, et al. A method of data mining based on SOM clustering and its application[J]. Computer Engineering & Science, 2007, 29(8): 133–136.

[4]	Celebi M E, Kingravi H A, Vela P A. A comparative study of efficient initialization methods for the K-means clustering algorithm[J]. Expert Systems with Applications, 2013, 40(1): 200–210. DOI:10.1016/j.eswa.2012.07.021

[5]	李大字, 钱丽, 靳其兵, 等. 改进的全局K'-means算法及其在数据分类中的应用[J]. 信息与控制, 2011, 40(1): 100–104. Li D Z, Qian L, Jin Q B, et al. modified global K'-means algorithm and its application to data clustering[J]. Information and Control, 2011, 40(1): 100–104.

[6]	Bohte S M, La Poutré H, Kok J N. Unsupervised clustering with spiking neurons by sparse temporal coding and multilayer RBF networks[J]. IEEE Transactions on Neural Networks, 2002, 13(2): 426–435. DOI:10.1109/72.991428

[7]	苏卫星, 朱云龙, 刘芳, 等. 基于改进模糊聚类的同构多传感器在线数据融合方法[J]. 信息与控制, 2015, 44(5): 557–563. Su W X, Zhu Y L, Liu F, et al. online data fusion method for homogeneous multi-sensors based on advanced fuzzy clustering[J]. Information and Control, 2015, 44(5): 557–563.

[8]	王赛芳, 戴芳, 梁波, 等. 一种基于路径的划分聚类算法[J]. 信息与控制, 2011, 40(1): 141–144. Wang S F, Dai F, Liang B, et al. a path-based clustering algorithm of partition[J]. Information and Control, 2011, 40(1): 141–144.

[9]	Na S, Xumin L, Yong G. Research on K-means clustering algorithm:An improved K-means clustering algorithm[C]//2010 Third International Symposium on Intelligent Information Technology and Security Informatics (ⅡTSI). Piscataway, NJ, USA:IEEE, 2010:63-67.

[10]	李军, 黄杰. 基于自组织映射神经网络的局部自回归方法在网络流量预测中的应用[J]. 信息与控制, 2016, 45(1): 120–128. Li J, Huang J. Prediction of network traffic using local auto-regressive methods based on self-organizing map neural network[J]. Information and Control, 2016, 45(1): 120–128.

[11]	Zhou S, Zhou A, Jin W, et al. FDBSCAN:A fast DBSCAN algorithm[J]. Journal of Software, 2000, 11(6): 735–744.

[12]	Rodriguez A, Laio A. Clustering by fast search and find of density peaks[J]. Science, 2014, 344(6191): 1492–1496. DOI:10.1126/science.1242072

[13]	Ding L, Gonzalez-Longatt F M, Wall P, et al. Two-step spectral clustering controlled islanding algorithm[J]. IEEE Transactions on Power Systems, 2013, 28(1): 75–84. DOI:10.1109/TPWRS.2012.2197640

[14]	Celebi M E, Kingravi H A, Vela P A. A comparative study of efficient initialization methods for the K-means clustering algorithm[J]. Expert Systems with Applications, 2013, 40(1): 200–210. DOI:10.1016/j.eswa.2012.07.021

[15]	段敏, 张锡恩. 基于合并思想和竞争学习思想的聚类新算法[J]. 计算机工程与设计, 2006, 27(9): 1656–1659. Duan M, Zhang X E. Novel clustering algorithm based on combination ideal and competitive learning idea[J]. Computer of Engineering and Design, 2006, 27(9): 1656–1659.

[16]	ZhiMao L U, Qi Z. Clustering by data competition[J]. Science China:Information Sciences, 2013, 56(1): 12105–012105.

[17]	周开乐, 杨善林, 丁帅, 等. 聚类有效性研究综述[J]. 系统工程理论与实践, 2014, 34(9): 2417–2431. Zhou K L, Yang S L, Ding S, et al. On cluster validation[J]. Systems Engineering -Theory & Practice, 2014, 34(9): 2417–2431. DOI:10.12011/1000-6788(2014)9-2417

[18]	Arbelaitz O, Gurrutxaga I, Muguerza J, et al. An extensive comparative study of cluster validity indices[J]. Pattern Recognition, 2013, 46(1): 243–256. DOI:10.1016/j.patcog.2012.07.021

[19]	张惟皎, 刘春煌, 李芳玉. 聚类质量的评价方法[J]. 计算机工程, 2005, 31(20): 10–12. Zhang W J, Liu C H, Li F Y. Method of quality evaluation for clustering[J]. Computer Engineering, 2005, 31(20): 10–12. DOI:10.3321/j.issn:1002-8331.2005.20.003

[20]	金建国. 聚类方法综述[J]. 计算机科学, 2014, 41(B11): 288–293. Jin J G. Review of clustering method[J]. Computer Science, 2014, 41(B11): 288–293.

[21]	Vinh N X, Epps J, Bailey J. Information theoretic measures for clusterings comparison:is a correction for chance necessary?[C]//Proceedings of the 26th Annual International Conference on Machine Learning. New York, NJ, USA:ACM, 2009:1073-1080.

http://dx.doi.org/10.13976/j.cnki.xk.2017.0614
中国科学院主管，中国科学院沈阳自动化研究所、中国自动化学会共同主办。

文章信息

张文倩, 庄华亮, 陈翔, 何熊熊

ZHANG Wenqian, ZHUANG Hualiang, CHEN Xiang, HE Xiongxiong

基于竞争思想的分级聚类算法

Hierarchical Clustering Algorithm Based on Competitive Learning

信息与控制, 2017, 46(5): 614-619, 626.

Information and Control, 2017, 46(5): 614-619, 626.

http://dx.doi.org/10.13976/j.cnki.xk.2017.0614

文章历史

收稿/录用/修回: 2016-07-20/2017-10-21/2017-01-23

文章信息

文章历史

工作空间