聚类方法主要包括哪几类方法(聚类方法)

百善孝当先
精选回答

1、3.1 K-pototypes算法 K-pototypes算法结合了K-means方法和根据K-means方法改进的能够处理符号属性的K-modes方法,同K-means方法相比,K-pototypes 算法能够处理符号属性。

2、 3.2 CLARANS算法(划分方法) CLARANS算法即随机搜索聚类算法,是一种分割聚类方法。

3、它首先随机选择一个点作为当前点,然后随机检查它周围不超过参数Maxneighbor个的一些邻接点,假如找到一个比它更好的邻接点,则把它移人该邻接点,否则把该点作为局部最小量。

4、然后再随机选择一个点来寻找另一个局部最小量,直至所找到的局部最小量数目达到用户要求为止。

5、该算法要求聚类的对象必须都预先调人内存,并且需多次扫描数据集,这对大数据量而言,无论时间复杂度还是空间复杂度都相当大。

6、虽通过引人R-树结构对其性能进行改善,使之能够处理基于磁盘的大型数据库,但R*-树的构造和维护代价太大。

7、该算法对脏数据和异常数据不敏感,但对数据物人顺序异常敏感,且只能处理凸形或球形边界聚类。

8、 3.3 BIRCH算法(层次方法) BIRCH算法即平衡迭代削减聚类法,其核心是用一个聚类特征3元组表示一个簇的有关信息,从而使一簇点的表示可用对应的聚类特征,而不必用具体的一组点来表示。

9、它通过构造满足分支因子和簇直径限制的聚类特征树来求聚类。

10、BIRCH算法通过聚类特征可以方便地进行中心、半径、直径及类内、类间距离的运算。

11、算法的聚类特征树是一个具有两个参数分枝因子B和类直径T的高度平衡树。

12、分枝因子规定了树的每个节点子女的最多个数,而类直径体现了对一类点的直径大小的限制即这些点在多大范围内可以聚为一类,非叶子结点为它的子女的最大关键字,可以根据这些关键字进行插人索引,它总结了其子女的信息。

13、 聚类特征树可以动态构造,因此不要求所有数据读人内存,而可以在外存上逐个读人。

14、新的数据项总是插人到树中与该数据距离最近的叶子中。

15、如果插人后使得该叶子的直径大于类直径T,则把该叶子节点分裂。

16、其它叶子结点也需要检查是否超过分枝因子来判断其分裂与否,直至该数据插入到叶子中,并且满足不超过类直径,而每个非叶子节点的子女个数不大于分枝因子。

17、算法还可以通过改变类直径修改特征树大小,控制其占内存容量。

18、 BIRCH算法通过一次扫描就可以进行较好的聚类,由此可见,该算法适合于大数据量。

19、对于给定的M兆内存空间,其空间复杂度为O(M),时间间复杂度为O(dNBlnB(M/P)).其中d为维数,N为节点数,P为内存页的大小,B为由P决定的分枝因子。

20、I/O花费与数据量成线性关系。

21、BIRCH算法只适用于类的分布呈凸形及球形的情况,并且由于BIRCH算法需提供正确的聚类个数和簇直径限制,对不可视的高维数据不可行。

22、 3.4 CURE算法(层次方法) CURE算法即使用代表点的聚类方法。

23、该算法先把每个数据点看成一类,然后合并距离最近的类直至类个数为所要求的个数为止。

24、CURE算法将传统对类的表示方法进行了改进,回避了用所有点或用中心和半径来表示一个类,而是从每一个类中抽取固定数量、分布较好的点作为描述此类的代表点,并将这些点乘以一个适当的收缩因子,使它们更靠近类的中心点。

25、将一个类用代表点表示,使得类的外延可以向非球形的形状扩展,从而可调整类的形状以表达那些非球形的类。

26、另外,收缩因子的使用减小了嗓音对聚类的影响。

27、CURE算法采用随机抽样与分割相结合的办法来提高算法的空间和时间效率,并且在算法中用了堆和K-d树结构来提高算法效率。

28、 3.5 DBSCAN算法(基于密度的方法) DBSCAN算法即基于密度的聚类算法。

29、该算法利用类的密度连通性可以快速发现任意形状的类。

30、其基本思想是:对于一个类中的每个对象,在其给定半径的领域中包含的对象不能少于某一给定的最小数目。

31、在DBSCAN算法中,发现一个类的过程是基于这样的事实:一个类能够被其中的任意一个核心对象所确定。

32、为了发现一个类,DBSCAN先从对象集D中找到任意一对象P,并查找D中关于关径Eps和最小对象数Minpts的从P密度可达的所有对象。

33、如果P是核心对象,即半径为Eps的P的邻域中包含的对象不少于Minpts,则根据算法,可以找到一个关于参数Eps和Minpts的类。

34、如果P是一个边界点,则半径为Eps的P邻域包含的对象少于Minpts,P被暂时标注为噪声点。

35、然后,DBSCAN处理D中的下一个对象。

36、 密度可达对象的获取是通过不断执行区域查询来实现的。

37、一个区域查询返回指定区域中的所有对象。

38、为了有效地执行区域查询,DBSCAN算法使用了空间查询R-树结构。

39、在进行聚类前,必须建立针对所有数据的R*-树。

40、另外,DBSCAN要求用户指定一个全局参数Eps(为了减少计算量,预先确定参数Minpts)。

41、为了确定取值,DBSCAN计算任意对象与它的第k个最临近的对象之间的距离。

42、然后,根据求得的距离由小到大排序,并绘出排序后的图,称做k-dist图。

43、k-dist图中的横坐标表示数据对象与它的第k个最近的对象间的距离;纵坐标为对应于某一k-dist距离值的数据对象的个数。

44、R*-树的建立和k-dist图的绘制非常消耗时间。

45、此外,为了得到较好的聚类结果,用户必须根据k-dist图,通过试探选定一个比较合适的Eps值。

46、DBSCAN算法不进行任何的预处理而直接对整个数据集进行聚类操作。

47、当数据量非常大时,就必须有大内存量支持,I/O消耗也非常大。

48、其时间复杂度为O(nlogn)(n为数据量),聚类过程的大部分时间用在区域查询操作上。

49、DBSCAN算法对参数Eps及Minpts非常敏感,且这两个参数很难确定。

50、 3.6 CLIQUE算法(综合了基于密度和基于网格的算法) CLIQUE算法即自动子空间聚类算法。

51、该算法利用自顶向上方法求出各个子空间的聚类单元。

52、CLUQUE算法主要用于找出在高维数据空间中存在的低维聚类。

53、为了求出d维空间聚类,必须组合给出所有d-1维子空间的聚类,导致其算法的空间和时间效率都较低,而且要求用户输入两个参数:数据取值空间等间隔距离和密度阔值。

54、这2个参数与样木数据紧密相关,用户一般难以确定。

55、CLIQUE算法对数据输人顺序不敏感。

山水有情 2023-12-02 14:59:25

相关推荐

电脑如何添加域

先点击计算机,然后单击右键,选择属性项,更改设置选择更改。计算机名字更改为使用者名字,这样是为了区分域中的计算机,域填写需要加进去的域名,点击确定,弹出对话框,填写域管理员的账号密码。点击计算机,然后单击右键,...
展开详情

形容高考的成语有哪些

形容高考的成语有:寒窗苦读:在寒冷的窗下苦读:形容读书的艰辛。倒背如流:背:背诵。把书或文章倒过来背,背得像流水一样流畅。形容背得非常熟练,记得非常牢。成语出处:郭沫若《苏联纪行日记六月廿七日》。她把说明小册子...
展开详情

表示队伍整齐的四字词语

1、堂堂之阵:形容阵容盛壮整齐,也用来形容光明正大;2、鳞次栉比:形容房屋或船只等排列得很密很整齐;3、正正之旗:排列整齐的军旗。借喻强盛整肃的军队;4、匪匪翼翼:形容车马行走时阵容整齐、威武;5、井然有序:整...
展开详情

显卡的6P供电怎么接

1、首先需要准备显卡电源线,保证质量完好无损,方可进行接下来的操作;2、接着观察电脑的插口有哪些具体样式,是否与自身的电源线接口相匹配;3、接着准备连接,首先找到电源插口上六加二中的六插口,随后插在显卡上,此时...
展开详情

儿子欠债父母有义务还吗

成年子女自己欠下的钱,债权人只能让这个成年子女还,法律上成年子女和父母的财产分的很清楚,不存在连带责任。父母对于成年子女的债务不负偿还义务,除非父母作为继承人,在成年子女死亡后继承死者遗产,就需要承担遗产价值以...
展开详情

精选推荐更多>

千万缕的意思

千万缕的意思是千丝万缕,千条丝、万条线。
千丝万缕造句:
1、两家公司有着千丝万缕的不解之缘。
2、自然界中的事物都存在着千丝万缕的联系。
3、我们在日常生活中更是与月亮有千丝万缕的联系。
4、春姑娘悄悄地来了,和煦的阳光从竹林的叶片枝杆中洒下了千丝万缕的金线,为竹林增添了生机。
5、宝黛二人之间的种种,有如千丝万缕,数来数不来,话也话不完。
6、新社会与旧社会有千丝万缕的关系。
7、人与人之间,人与社会之间,发生着千丝万缕的联系。
8、学校并不是世外桃源,它和社会有着千丝万缕的联系,所以学校教育、社会教育和家庭教育三者必须有机地结合起来。
9、原来是春姑娘把千丝万缕的线条从天空中投了下来。
10、我已经在不知不觉间和雨结下了千丝万缕的牵绊。

一狼洞其中词类活用

“一狼洞其中”的词类活用:洞,名词作动词,意思是“打洞”。出自《狼》:“一狼洞其中,意将隧入以攻其后也。身已半入,止露尻尾。屠自后断其股,亦毙之。乃悟前狼假寐,盖以诱敌。”
译文:另一只狼正在挖洞,打算从通道进入来攻击屠户的后面。身体已经进入了大半,只露出屁股和尾巴。屠户从后面砍掉了狼的大腿,也杀死了这只狼。他才知道前面的狼是假装睡觉,大概是用这种方法来诱骗敌人。
《狼》是清代小说家蒲松龄创作的文言短篇小说。描绘了贪婪、凶狠、狡诈的狼的形象。启示我们对待像狼一样的恶人,不能妥协退让,而要像屠夫一样勇敢斗争、善于斗争,这样才会取得胜利。

科学实践观创立的作者

科学实践观创立者是马克思。
马克思主义科学实践观的基本内容:
一、实践的本质:
实践是指人能动地改造客观世界的对象性活动,有两方面含义:
1、实践的一般本质:实践是人改造客观世界的物质活动,具有物质的性质和形式,具有直接现实性的特点。
2、实践的特殊本质:实践又是人所特有的对象性活动,实践以人为主体,以客观事物为对象,并把人的目的、能力等本质力量对象化为客观实在,创造出一个属人的对象世界,具有主体性的特点。
二、实践是人的存在方式:
实践的本质决定了实践在人类生活中具有基础和根本的地位,实践构成了人类存在的基本方式。实践是人类生命的特殊运动形式,实践创造了人的基本特征,实践使人成为“社会存在物”,“有意识的类存在物”和“能动的自然存在物”。创造出了人之为人的一切特征,把人类从动物界提升出来。实践是人类的特殊生命形式,即它是社会生命的运动形式。正是在实践过程中,人成为一种自我创造的主体性存在。

人间烟火气最抚凡人心的意思

“人间烟火味,最抚凡人心”的意思是指市井百态、寻常生活最能抚慰世俗人的思想了。抚的意思是抚慰,安抚。凡人心则是指“世俗人之心”。
烟火,yān huǒ,汉语词汇,即炊烟。借指住户、人家生火而燃起的烟火。
出处:
1、《庄子·徐无鬼》:“豕虱自以为安室利处,不知屠者之一旦鼓臂布草,操烟火,而己与豕俱焦也。”
2、《后汉书·吴汉传》:“飨士秣马,闭营三日不出,乃多树幡旗,使烟火不绝。”
3、《北史·魏陇西公仑传》:“今日大风既劲,若今推草车方轨并进,乘风纵烟火,以精兵自后乘之,破之必矣。”
近义词:烽火、人烟、焰火。
常见热点问答
热点搜索
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200
作文大全
1-20
21-40
41-60
61-80
81-100
101-120
121-140
141-160
161-180
181-200