一、聚类1.准备工作
(1) 研究目的
聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。
(2) 数据类型
![](http://tiebapic.baidu.com/forum/w%3D580/sign=da6086b1d1eef01f4d1418cdd0fc99e0/b056ddc451da81cb5734bc181766d0160b2431c8.jpg?tbpicau=2025-03-01-05_6e81cc9c9b2f257108bbc017d19d20ea)
1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。
2)定类:数字无比较意义,比如性别,1代表男,2代表女。
PS:SPSSAU会根据数据类型自动选择聚类方法。
K-modes聚类:数据类型仅定类时。
2.上传数据到SPSSAU
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=a3bb5cabd758d109c4e3a9bae15accd0/128b0f2442a7d933b67adba6e84bd11371f001c8.jpg?tbpicau=2025-03-01-05_9f0152f6f77815c99bdd3c85e2217f9e)
3.SPSSAU操作
(1)拖拽分析项
1) SPSSAU进阶方法→聚类。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=e401fafa7f292df597c3ac1d8c335ce2/4ce281cb39dbb6fd2289daf34c24ab18952b37c8.jpg?tbpicau=2025-03-01-05_62985c932942086e8c76d655e0f12ab3)
2)检查
检查分析项是否都在左侧分析框中。
3)进行拖拽
![](http://tiebapic.baidu.com/forum/w%3D580/sign=81f030cc68f5e0feee1889096c6234e5/9cf339dbb6fd5266a1f903c1ee18972bd60736c8.jpg?tbpicau=2025-03-01-05_71c4c6a5ef465e5c56b0aefc65446a3b)
(2)选择参数
![](http://tiebapic.baidu.com/forum/w%3D580/sign=48c62710a5fe9925cb0c695804aa5ee4/24e3b6fd5266d0167bcba1fdd22bd40737fa35c8.jpg?tbpicau=2025-03-01-05_accb9290633bd3381f97c77de5f3546f)
聚类个数:聚类个数设置为几类主要以研究者的研究思路为标准,如果不进行设置,SPSSAU默认聚类个数为3,通常情况下,建议设置聚类数量介于3~6个之间。
标准化:聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。
保存类别:分析选择保存‘保存类别’,SPSSAU会生成“新标题”用于标识,也可以右上角“我的数据”处查看到分析后的“聚类类别”。
新标题类似如下:Cluster_********。
4.SPSSAU分析
(1)聚类类别基本情况汇总分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=5e1aea1bdc25bc312b5d01906edd8de7/abc55266d0160924d8f79dce910735fae4cd34c8.jpg?tbpicau=2025-03-01-05_2fc374bfeb24130e3231729360c8a37b)
使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=941193c0f9315c6043956be7bdb3cbe6/4f5ed0160924ab18e3c4dee270fae6cd79890bc8.jpg?tbpicau=2025-03-01-05_53bc11647d5ee3a713965dae187258e5)
(2)聚类类别汇总图分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=eccab6d4196034a829e2b889fb1149d9/cd2e0924ab18972ba1e83f1fa3cd7b899c510ac8.jpg?tbpicau=2025-03-01-05_34a667022809a5d3f1d6fc65663c1825)
上图可以直观的看到各个类别所占百分比,4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。
(3)聚类类别方差分析差异对比
![](http://tiebapic.baidu.com/forum/w%3D580/sign=cade568571a85edffa8cfe2b795609d8/141cab18972bd4074315ec283e899e510db309c8.jpg?tbpicau=2025-03-01-05_074acd76a420998fde61ba1a24e5edf1)
使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体,他们在研究项上的特征具有明显的差异性,具体差异性可通过平均值进行对比,并且最终结合实际情况,对聚类类别进行命名处理。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=2b8f3e4d1bdf8db1bc2e7c6c3921dddb/b620972bd40735fa9122716cdb510fb30d2408c8.jpg?tbpicau=2025-03-01-05_2fcc90875f1d085f5d9af02bb389e3e8)
(4)聚类项重要性对比
![](http://tiebapic.baidu.com/forum/w%3D580/sign=4c47543ac8b1cb133e693c1bed5656da/8a13d40735fae6cd036694b44ab30f2440a70fc8.jpg?tbpicau=2025-03-01-05_848bf5db8a9c853fda2988fbfe7f901b)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=273087548e1349547e1ee86c664c92dd/c93f35fae6cd7b89e7be05564a2442a7db330ec8.jpg?tbpicau=2025-03-01-05_d9510a4a4f4bd44e7f1460cf78223eb1)
从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。
(5)聚类中心
![](http://tiebapic.baidu.com/forum/w%3D580/sign=f75ec1f60c540923aa696376a25ad1dc/28c2e6cd7b899e51755c05c107a7d933ca950dc8.jpg?tbpicau=2025-03-01-05_2d4a69d98f8ec5bdbc911561f107fa49)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0fc43b14c23dd542173a760e10bb3df/fbf57b899e510fb374cb48429c33c895d3430cc8.jpg?tbpicau=2025-03-01-05_5f0347aa4ee364a7c968e28736d81f55)
5.其它说明
(1)聚类中心是什么?
聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。
(2)k-prototype聚类是什么?
如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。
(3)聚类分析时SSE是什么意思?
![](http://tiebapic.baidu.com/forum/w%3D580/sign=35bb03c69854564ee565e43183dc9cde/66b19e510fb30f243e48d3d68d95d143af4b03c8.jpg?tbpicau=2025-03-01-05_8f4f3829b5b236dc46f1e1eb1c369104)
在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。
SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。
二、分层聚类1.准备工作
(1)研究目的
从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。
(2)数据类型
![](http://tiebapic.baidu.com/forum/w%3D580/sign=74ccd7b1134e9258a63486e6ac80d1d1/83690fb30f2442a7a4dcc2709443ad4bd31302c8.jpg?tbpicau=2025-03-01-05_6622384a70c4d9298fbc79e94a117dac)
2.上传数据到SPSSAU
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=a3bb5cabd758d109c4e3a9bae15accd0/128b0f2442a7d933b67adba6e84bd11371f001c8.jpg?tbpicau=2025-03-01-05_9f0152f6f77815c99bdd3c85e2217f9e)
3.SPSSAU操作
(1)拖拽分析项
1) SPSSAU进阶方法→分层聚类。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=29a198bd9409b3deebbfe460fcbd6cd3/121c42a7d933c895aeaca7ae941373f0800200c8.jpg?tbpicau=2025-03-01-05_b0e8c1850390051efb6f0d97229e2fc5)
2)检查
检查分析项是否都在左侧分析框中。
3)进行拖拽
![](http://tiebapic.baidu.com/forum/w%3D580/sign=12b7dbecf6de9c82a665f9875c8380d2/5f9fd933c895d1432da4dbf636f0820258af07c8.jpg?tbpicau=2025-03-01-05_0e970cf95d0e8133e5885fd3f2373351)
(2)确定参数
![](http://tiebapic.baidu.com/forum/w%3D580/sign=50e6b93bd982d158bb8259b9b00819d5/c40bc895d143ad4b50fc7915c7025aafa60f06c8.jpg?tbpicau=2025-03-01-05_339153007166edb64acf6d458767d590)
SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。
4.SPSSAU分析
(1)聚类项描述分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=313196679458ccbf1bbcb53229dabcd4/d5add143ad4bd113f11f88e71fafa40f49fb05c8.jpg?tbpicau=2025-03-01-05_233133f7db8bc668f87cdb0b3520dea9)
上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=1f6ddbbd89bf6c81f7372ce08c3cb1d7/cc7bad4bd11373f001ed504ae10f4bfbf9ed04c8.jpg?tbpicau=2025-03-01-05_f5838478efb29ed1fd8571c51a0960bd)
(2)聚类类别分布表分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=55b7c65a2981800a6ee58906813733d6/b073d11373f08202de40aeea0efbfbeda9641bc8.jpg?tbpicau=2025-03-01-05_853a6eedebfc4236ae20bcfa435f1c87)
总共聚类为3个类别,以及具体分析项的对应关系情况。在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。
(PS:聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。)
(3)聚类树状图分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=49506664c50a19d8cb03840d03f882c9/cc2b73f082025aaf21e0411ebeedab64014f1ac8.jpg?tbpicau=2025-03-01-05_d47ac4c918d70730f041615b202de218)
上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。
树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。比如上图中,红色垂直线最终会拆分成3个类别;第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=ea6e8aef5cd8bc3ec60806c2b289a6c8/6ec882025aafa40fcd14f108ee64034f7af019c8.jpg?tbpicau=2025-03-01-05_d10d436a9212a5d7a7bf380d15e7765b)
如果是聚为四类;从上图可看出,明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。所以画垂直线无法区分出类别。因而综合分析来看,最终聚类为3个类别最为适合。
当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=07e5133df93eb13544c7b7b3961ca8cb/9f3a5aafa40f4bfb7c02a181464f78f0f53618c8.jpg?tbpicau=2025-03-01-05_d0e831f4c6861b597cc8060b40e8426e)
5.其它说明
(1)针对分层聚类,需要注意以下几点:
![](http://tiebapic.baidu.com/forum/w%3D580/sign=9137b6dbf43533faf5b6932698d1fdca/4797a40f4bfbfbed238b09aa3df0f736adc31fc8.jpg?tbpicau=2025-03-01-05_79bc809ad6c866f4f69dc85a8a9ba06e)
(2)什么时候做因子分析后再做聚类分析?
如果题项较多,可先做因子分析,得到每个维度(因子)的数据,再进行聚类。
三、总结
聚类分析广泛的应用于自然科学、社会科学等领域。在分析时可以比较多次聚类结果,综合选择更适合的方案。
(1) 研究目的
聚类分析是根据事物本身的特性研究个体分类的方法,聚类分析的原则是同一类别的个体有较大相似性,不同类别的个体差异比较大。
(2) 数据类型
![](http://tiebapic.baidu.com/forum/w%3D580/sign=da6086b1d1eef01f4d1418cdd0fc99e0/b056ddc451da81cb5734bc181766d0160b2431c8.jpg?tbpicau=2025-03-01-05_6e81cc9c9b2f257108bbc017d19d20ea)
1)定量:数字有比较意义,比如数字越大代表满意度越高,量表为典型定量数据。
2)定类:数字无比较意义,比如性别,1代表男,2代表女。
PS:SPSSAU会根据数据类型自动选择聚类方法。
K-modes聚类:数据类型仅定类时。
2.上传数据到SPSSAU
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=a3bb5cabd758d109c4e3a9bae15accd0/128b0f2442a7d933b67adba6e84bd11371f001c8.jpg?tbpicau=2025-03-01-05_9f0152f6f77815c99bdd3c85e2217f9e)
3.SPSSAU操作
(1)拖拽分析项
1) SPSSAU进阶方法→聚类。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=e401fafa7f292df597c3ac1d8c335ce2/4ce281cb39dbb6fd2289daf34c24ab18952b37c8.jpg?tbpicau=2025-03-01-05_62985c932942086e8c76d655e0f12ab3)
2)检查
检查分析项是否都在左侧分析框中。
3)进行拖拽
![](http://tiebapic.baidu.com/forum/w%3D580/sign=81f030cc68f5e0feee1889096c6234e5/9cf339dbb6fd5266a1f903c1ee18972bd60736c8.jpg?tbpicau=2025-03-01-05_71c4c6a5ef465e5c56b0aefc65446a3b)
(2)选择参数
![](http://tiebapic.baidu.com/forum/w%3D580/sign=48c62710a5fe9925cb0c695804aa5ee4/24e3b6fd5266d0167bcba1fdd22bd40737fa35c8.jpg?tbpicau=2025-03-01-05_accb9290633bd3381f97c77de5f3546f)
聚类个数:聚类个数设置为几类主要以研究者的研究思路为标准,如果不进行设置,SPSSAU默认聚类个数为3,通常情况下,建议设置聚类数量介于3~6个之间。
标准化:聚类算法是根据距离进行判断类别,因此一般需要在聚类之前进行标准化处理,SPSSAU默认是选中进行标准化处理。数据标准化之后,数据的相对大小意义还在(比如数字越大GDP越高),但是实际意义消失了。
保存类别:分析选择保存‘保存类别’,SPSSAU会生成“新标题”用于标识,也可以右上角“我的数据”处查看到分析后的“聚类类别”。
新标题类似如下:Cluster_********。
4.SPSSAU分析
(1)聚类类别基本情况汇总分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=5e1aea1bdc25bc312b5d01906edd8de7/abc55266d0160924d8f79dce910735fae4cd34c8.jpg?tbpicau=2025-03-01-05_2fc374bfeb24130e3231729360c8a37b)
使用聚类分析对样本进行分类,使用Kmeans聚类分析方法,从上表可以看出:最终聚类得到4类群体,此4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。整体来看, 4类人群分布较为均匀,整体说明聚类效果较好。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=941193c0f9315c6043956be7bdb3cbe6/4f5ed0160924ab18e3c4dee270fae6cd79890bc8.jpg?tbpicau=2025-03-01-05_53bc11647d5ee3a713965dae187258e5)
(2)聚类类别汇总图分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=eccab6d4196034a829e2b889fb1149d9/cd2e0924ab18972ba1e83f1fa3cd7b899c510ac8.jpg?tbpicau=2025-03-01-05_34a667022809a5d3f1d6fc65663c1825)
上图可以直观的看到各个类别所占百分比,4类群体的占比分别是20.00%, 30.00%, 20.00%, 30.00%。
(3)聚类类别方差分析差异对比
![](http://tiebapic.baidu.com/forum/w%3D580/sign=cade568571a85edffa8cfe2b795609d8/141cab18972bd4074315ec283e899e510db309c8.jpg?tbpicau=2025-03-01-05_074acd76a420998fde61ba1a24e5edf1)
使用方差分析去探索各个类别的差异特征,从上表可知:聚类类别群体对于所有研究项均呈现出显著性(p<0.05),意味着聚类分析得到的4类群体,他们在研究项上的特征具有明显的差异性,具体差异性可通过平均值进行对比,并且最终结合实际情况,对聚类类别进行命名处理。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=2b8f3e4d1bdf8db1bc2e7c6c3921dddb/b620972bd40735fa9122716cdb510fb30d2408c8.jpg?tbpicau=2025-03-01-05_2fcc90875f1d085f5d9af02bb389e3e8)
(4)聚类项重要性对比
![](http://tiebapic.baidu.com/forum/w%3D580/sign=4c47543ac8b1cb133e693c1bed5656da/8a13d40735fae6cd036694b44ab30f2440a70fc8.jpg?tbpicau=2025-03-01-05_848bf5db8a9c853fda2988fbfe7f901b)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=273087548e1349547e1ee86c664c92dd/c93f35fae6cd7b89e7be05564a2442a7db330ec8.jpg?tbpicau=2025-03-01-05_d9510a4a4f4bd44e7f1460cf78223eb1)
从上述结果看,所有研究项均呈现出显著性,说明不同类别之间的特征有明显的区别,聚类的效果较好。
(5)聚类中心
![](http://tiebapic.baidu.com/forum/w%3D580/sign=f75ec1f60c540923aa696376a25ad1dc/28c2e6cd7b899e51755c05c107a7d933ca950dc8.jpg?tbpicau=2025-03-01-05_2d4a69d98f8ec5bdbc911561f107fa49)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=b0fc43b14c23dd542173a760e10bb3df/fbf57b899e510fb374cb48429c33c895d3430cc8.jpg?tbpicau=2025-03-01-05_5f0347aa4ee364a7c968e28736d81f55)
5.其它说明
(1)聚类中心是什么?
聚类中心是聚类类别的中心点情况,比如某类别时年龄对应的聚类中心为20,意味着该类别群体年龄基本在20岁左右。初始聚类中心基本无意义,它是聚类算法随机选择的聚类点,如果需要查看聚类中心情况,需要关注于最终聚类中心。实际分析时聚类中心的意义相对较小,其仅为聚类算法的计算值而已。
(2)k-prototype聚类是什么?
如果说聚类项中包括定类项,那么SPSSAU默认会进行K-prototype聚类算法(而不是kmeans算法)。定类数据不能通过数字大小直接分析距离,因而需要使用K-prototype聚类算法。
(3)聚类分析时SSE是什么意思?
![](http://tiebapic.baidu.com/forum/w%3D580/sign=35bb03c69854564ee565e43183dc9cde/66b19e510fb30f243e48d3d68d95d143af4b03c8.jpg?tbpicau=2025-03-01-05_8f4f3829b5b236dc46f1e1eb1c369104)
在进行Kmeans聚类分析时SPSSAU默认输出误差平方和SSE值,该值可用于测量各点与中心点的距离情况,理论上是希望越小越好,而且如果同样的数据,聚类类别越多则SSE值会越小(但聚类类别过多则不便于分析)。
SSE指标可用于辅助判断聚类类别个数,建议在不同聚类类别数量情况下记录下SSE值,然后分析SSE值的减少幅度情况,如果发现比如从3个聚类到4个类别时SSE值减少幅度明显很大,那么此时选择4个聚类类别较好。
二、分层聚类1.准备工作
(1)研究目的
从分析角度上看,聚类分析可分为两种,一种是按样本(或个案)聚类,此类聚类的代表是K-means聚类方法;另外一种是按变量(或标题)聚类,此类聚类的代表是分层聚类。
(2)数据类型
![](http://tiebapic.baidu.com/forum/w%3D580/sign=74ccd7b1134e9258a63486e6ac80d1d1/83690fb30f2442a7a4dcc2709443ad4bd31302c8.jpg?tbpicau=2025-03-01-05_6622384a70c4d9298fbc79e94a117dac)
2.上传数据到SPSSAU
登录账号后进入SPSSAU页面,点击右上角“上传数据”,将处理好的数据进行“点击上传文件”上传即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=a3bb5cabd758d109c4e3a9bae15accd0/128b0f2442a7d933b67adba6e84bd11371f001c8.jpg?tbpicau=2025-03-01-05_9f0152f6f77815c99bdd3c85e2217f9e)
3.SPSSAU操作
(1)拖拽分析项
1) SPSSAU进阶方法→分层聚类。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=29a198bd9409b3deebbfe460fcbd6cd3/121c42a7d933c895aeaca7ae941373f0800200c8.jpg?tbpicau=2025-03-01-05_b0e8c1850390051efb6f0d97229e2fc5)
2)检查
检查分析项是否都在左侧分析框中。
3)进行拖拽
![](http://tiebapic.baidu.com/forum/w%3D580/sign=12b7dbecf6de9c82a665f9875c8380d2/5f9fd933c895d1432da4dbf636f0820258af07c8.jpg?tbpicau=2025-03-01-05_0e970cf95d0e8133e5885fd3f2373351)
(2)确定参数
![](http://tiebapic.baidu.com/forum/w%3D580/sign=50e6b93bd982d158bb8259b9b00819d5/c40bc895d143ad4b50fc7915c7025aafa60f06c8.jpg?tbpicau=2025-03-01-05_339153007166edb64acf6d458767d590)
SPSSAU会默认聚类为3类并且呈现表格结果,如果希望更多的类别个数,可自行进行设置。
4.SPSSAU分析
(1)聚类项描述分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=313196679458ccbf1bbcb53229dabcd4/d5add143ad4bd113f11f88e71fafa40f49fb05c8.jpg?tbpicau=2025-03-01-05_233133f7db8bc668f87cdb0b3520dea9)
上表格展示总共8个分析项(即8个裁判数据)的基本情况,包括均值,最大或者最小值,中位数等,以便对于基础数据有个概括性了解。整体上看,8个裁判的打分基本平均在8分以上。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=1f6ddbbd89bf6c81f7372ce08c3cb1d7/cc7bad4bd11373f001ed504ae10f4bfbf9ed04c8.jpg?tbpicau=2025-03-01-05_f5838478efb29ed1fd8571c51a0960bd)
(2)聚类类别分布表分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=55b7c65a2981800a6ee58906813733d6/b073d11373f08202de40aeea0efbfbeda9641bc8.jpg?tbpicau=2025-03-01-05_853a6eedebfc4236ae20bcfa435f1c87)
总共聚类为3个类别,以及具体分析项的对应关系情况。在上表格中展示出来,上表格可以看出:裁判8单独作为一类;裁判5,3,7这三个聚为一类;以及裁判1,6,2,4作为一类。
(PS:聚类类别与分析项上的对应关系可以在上表格中得到,同时也可以查看聚类树状图得出更多信息。至于聚类类别分别应该叫做什么名字,这个需要结合对应有关系情况,自己单独进行命名。)
(3)聚类树状图分析
![](http://tiebapic.baidu.com/forum/w%3D580/sign=49506664c50a19d8cb03840d03f882c9/cc2b73f082025aaf21e0411ebeedab64014f1ac8.jpg?tbpicau=2025-03-01-05_d47ac4c918d70730f041615b202de218)
上图为聚类树状图的展示,聚类树状图是将聚类的具体过程用图示法手法进行展示;最上面一行的数字仅仅是一个刻度单位,代表相对距离大小;一个结点表示一次聚焦过程。
树状图的解读上,建议单独画一条垂直线,然后对应查看分成几个类别,以及每个类别与分析项的对应关系。比如上图中,红色垂直线最终会拆分成3个类别;第1个类别对应裁判8;第2个类别对应裁判5,3,7;第3个类别对应裁判1,6,2,4。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=ea6e8aef5cd8bc3ec60806c2b289a6c8/6ec882025aafa40fcd14f108ee64034f7af019c8.jpg?tbpicau=2025-03-01-05_d10d436a9212a5d7a7bf380d15e7765b)
如果是聚为四类;从上图可看出,明显的已经不再合适。原因在于垂直线不好区分成四类。也即说明有2个类别本应该在一起更合适(上图中的裁判1与6/2/4);但是如果分成4类,此时裁判1会单独成一类。所以画垂直线无法区分出类别。因而综合分析来看,最终聚类为3个类别最为适合。
当然在分析时也可以考虑分成2个类别,此时只需要对应将垂直线移动即可。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=07e5133df93eb13544c7b7b3961ca8cb/9f3a5aafa40f4bfb7c02a181464f78f0f53618c8.jpg?tbpicau=2025-03-01-05_d0e831f4c6861b597cc8060b40e8426e)
5.其它说明
(1)针对分层聚类,需要注意以下几点:
![](http://tiebapic.baidu.com/forum/w%3D580/sign=9137b6dbf43533faf5b6932698d1fdca/4797a40f4bfbfbed238b09aa3df0f736adc31fc8.jpg?tbpicau=2025-03-01-05_79bc809ad6c866f4f69dc85a8a9ba06e)
(2)什么时候做因子分析后再做聚类分析?
如果题项较多,可先做因子分析,得到每个维度(因子)的数据,再进行聚类。
三、总结
聚类分析广泛的应用于自然科学、社会科学等领域。在分析时可以比较多次聚类结果,综合选择更适合的方案。