![]() |
【引言】高维数据是比较常见的一种数据形式,具有稀疏性。随着应用的深入发展,如何从这些具有稀疏特征的高维数据集中挖掘出对用户有用的知识,是目前数据挖掘领域中重要的研究内容之一。受维度效应的影响,传统的聚类算法不能适用于高维数据。经典高维数据聚类算法包括网格聚类算法、密度聚类算法等,而近年来提出的子空间聚类算法因高效、准确的聚类结果而备受关注。子空间聚类的前提和基础是子空间的识别。事实上,子空间识别的研究已经成为高维数据预处理的重要组成部分,并且子空间的质量直接影响最终的子空间聚类,因此,该问题已经引起了学者的关注,正成为当前高维数据聚类研究的热点和难点。二阶段联合聚类算法( MTPCCA)是从聚类的角度来研究具有稀疏特征的高维数据对象—属性子空间的识别问题,能够识别出具有较高质量的对象—属性子空间,但该算法识别出的子空间边缘容易出现边界不清的现象,即子空间边缘存在重叠区域。如图1 所示,区域C既可以认为是对象—属性子空间A 的边缘区域,也可以认为是对象—属性子空间B 的边缘区域,这一部分本文定义为对象—属性子空间重叠区域C。因此,确定该重叠区域的归属对提高子空间质量、减小具有稀疏特征的高维数据预处理时的搜索空间,甚至对具有稀疏特征的高维数据聚类都是非常重要的。鉴于这一点,本文针对具有稀疏特征的对象—属性子空间边缘重叠区域的归属问题提出了子空间边缘检测算法,提高子空间识别的质量。
知识产权声明 | 服务承诺 | 联系我们 | 人才招聘 | 客服中心 | 充值中心 | 关于我们 Copyright© 中国期刊全文数据库
电子邮件:journals@188.com 备案号:辽ICP备14002692号-1 |