spss不太会用,我整理了最近一次修理时间、修理频率和收益三个要素的400多个数据,然后打算使用k-均值聚类,并选择在选项中勾选了anova项。
我现在的问题是不知道k分类是选择三类还是四类更为合适,是不能能通过计算出结果的anova表中的f值去做判断,例如k=4时候的anova表如下,我计算f的总值为F1=var00001+var00002+var00003+var00004=479.192+323.712+81.327+492.020=1376.251,比分类为三的f总值1471.053要小,我就能认定分成三类比分成四类更合理么?
聚类均方 聚类df 误差均方 误差df f sig
vaR00001 7.832 3 .016 465 479.192 .000
VAR00002 1.136 3 .004 465 323.712 .000
VAR00003 .157 3 .002 465 81.327 .000
VAR00004 .795 3 .002 465 492.020 .000
我现在的问题是不知道k分类是选择三类还是四类更为合适,是不能能通过计算出结果的anova表中的f值去做判断,例如k=4时候的anova表如下,我计算f的总值为F1=var00001+var00002+var00003+var00004=479.192+323.712+81.327+492.020=1376.251,比分类为三的f总值1471.053要小,我就能认定分成三类比分成四类更合理么?
聚类均方 聚类df 误差均方 误差df f sig
vaR00001 7.832 3 .016 465 479.192 .000
VAR00002 1.136 3 .004 465 323.712 .000
VAR00003 .157 3 .002 465 81.327 .000
VAR00004 .795 3 .002 465 492.020 .000