第十章 分类分析
综合能力考核表详细内容
第十章 分类分析
第十章 分类分析 第一节 K-Means Cluster过程 10.1.1 主要功能 10.1.2 实例操作 第二节 Hierarchical Cluster过程 10.2.1 主要功能 10.2.2 实例操作 第三节 Discriminant过程 10.3.1 主要功能 10.3.2 实例操作 人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而 分类学是人们认识世界的基础科学。在医学实践中也经常需要做分类的工作,如根据病 人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查 方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙 类病的检查;等等。统计学中常用的分类统计方法主要是聚类分析与判别分析。 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归 入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然 后对未知类别的新事物进行判断以将之归入已知的类别中。聚类分析与判别分析有很大 的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别 分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新 对象的分类。 第一节 K-Means Cluster过程 10.1.1 主要功能 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析 就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 返回目录[pic] [pic]返回全书目录 10.1.2 实例操作 [例10.1]为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重 (kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份 段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较 ,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出 月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为 4,请通过聚类分析确定四个儿童生长发育期的起止区间。 |月份 |月平均增长率(%) | | |身高 |体重 |胸围 |坐高 | |1 |11.03 |50.30 |11.81 |11.27 | |2 |5.47 |19.30 |5.20 |7.18 | |3 |3.58 |9.85 |3.14 |2.11 | |4 |2.01 |4.17 |1.47 |1.58 | |6 |2.13 |5.65 |1.04 |2.11 | |8 |2.06 |1.74 |0.17 |1.57 | |10 |1.63 |2.04 |1.04 |1.46 | |12 |1.17 |1.60 |0.89 |0.76 | |15 |1.03 |2.34 |0.53 |0.89 | |18 |0.69 |1.33 |0.48 |0.58 | |24 |0.77 |1.41 |0.52 |0.42 | |30 |0.59 |1.25 |0.30 |0.14 | |36 |0.65 |1.19 |0.49 |0.38 | |42 |0.51 |0.93 |0.16 |0.25 | |48 |0.73 |1.13 |0.35 |0.55 | |54 |0.53 |0.82 |0.16 |0.34 | |60 |0.36 |0.52 |0.19 |0.21 | |66 |0.52 |1.03 |0.30 |0.55 | |72 |0.34 |0.49 |0.18 |0.16 | 10.1.2.1 数据准备 激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但为了更直观地了解聚 类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别 为x1、x2、x3和x4,输入原始数额。 10.1.2.2 统计分析 激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框(如图10.1示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击 (钮使之进入Variables框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两 种:Iterate and classify指先定初始类别中心点,而后按K- means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。 | | |[pic] | |图10.1 逐步聚类分析对话框 | 为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。 本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。 10.1.2.3 结果解释 在结果输出窗口中将看到如下统计数据: 首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K- means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。 |Initial Cluster Centers. | |Cluster X1 X2 X3 X4 | |1 11.0300 50.3000 11.8100 11.2700| |2 5.4700 19.3000 5.2000 7.1800| |3 3.5800 9.8500 3.1400 2.1100| |4 .3400 .4900 .1800 .1600| | | |Convergence achieved due to no or small distance change. | |The maximum distance by which any center has changed is | |.0000 | |Current iteration is 2 | | | |Minimum distance between initial centers is 10.5200 | | | |Iteration Change in Cluster Centers | |1 2 3 4 | |1 .0000 .0000 2.46E+00 1.27E+00 | |2 .0000 .0000 .0000 .0000 | | | |Case listing of Cluster membership. | |Case ID Cluster Distance | |1 1 .000 | |2 2 .000 | |3 3 2.457 | |4 4 3.219 | |5 3 2.457 | |6 4 1.530 | |7 4 1.346 | |8 4 .515 | |9 4 .915 | |10 4 .266 | |11 4 .281 | |12 4 .668 | |13 4 .467 | |14 4 .844 | |15 4 .415 | |16 4 .873 | |17 4 1.215 | |18 4 .619 | |19 4 1.269 | | | |Final Cluster Centers. | |Cluster X1 X2 X3 X4 | |1 11.0300 50.3000 11.8100 11.2700| |2 5.4700 19.3000 5.2000 7.1800| |3 2.8550 7.7500 2.0900 2.1100| |4 .9060 1.4660 .4820 .6560| | | 之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值 均
第十章 分类分析
第十章 分类分析 第一节 K-Means Cluster过程 10.1.1 主要功能 10.1.2 实例操作 第二节 Hierarchical Cluster过程 10.2.1 主要功能 10.2.2 实例操作 第三节 Discriminant过程 10.3.1 主要功能 10.3.2 实例操作 人们认识事物时往往先把被认识的对象进行分类,以便寻找其中同与不同的特征,因而 分类学是人们认识世界的基础科学。在医学实践中也经常需要做分类的工作,如根据病 人的一系列症状、体征和生化检查的结果,判断病人所患疾病的类型;或对一系列检查 方法及其结果,将之划分成某几种方法适合用于甲类病的检查,另几种方法适合用于乙 类病的检查;等等。统计学中常用的分类统计方法主要是聚类分析与判别分析。 聚类分析是直接比较各事物之间的性质,将性质相近的归为一类,将性质差别较大的归 入不同的类。判别分析则先根据已知类别的事物的性质,利用某种技术建立函数式,然 后对未知类别的新事物进行判断以将之归入已知的类别中。聚类分析与判别分析有很大 的不同,聚类分析事先并不知道对象类别的面貌,甚至连共有几个类别也不确定;判别 分析事先已知对象的类别和类别数,它正是从这样的情形下总结出分类方法,用于对新 对象的分类。 第一节 K-Means Cluster过程 10.1.1 主要功能 调用此过程可完成由用户指定类别数的大样本资料的逐步聚类分析。所谓逐步聚类分析 就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 返回目录[pic] [pic]返回全书目录 10.1.2 实例操作 [例10.1]为研究儿童生长发育的分期,调查1253名1月至7岁儿童的身高(cm)、体重 (kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1月至7岁划成19个月份 段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较 ,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出 月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为 4,请通过聚类分析确定四个儿童生长发育期的起止区间。 |月份 |月平均增长率(%) | | |身高 |体重 |胸围 |坐高 | |1 |11.03 |50.30 |11.81 |11.27 | |2 |5.47 |19.30 |5.20 |7.18 | |3 |3.58 |9.85 |3.14 |2.11 | |4 |2.01 |4.17 |1.47 |1.58 | |6 |2.13 |5.65 |1.04 |2.11 | |8 |2.06 |1.74 |0.17 |1.57 | |10 |1.63 |2.04 |1.04 |1.46 | |12 |1.17 |1.60 |0.89 |0.76 | |15 |1.03 |2.34 |0.53 |0.89 | |18 |0.69 |1.33 |0.48 |0.58 | |24 |0.77 |1.41 |0.52 |0.42 | |30 |0.59 |1.25 |0.30 |0.14 | |36 |0.65 |1.19 |0.49 |0.38 | |42 |0.51 |0.93 |0.16 |0.25 | |48 |0.73 |1.13 |0.35 |0.55 | |54 |0.53 |0.82 |0.16 |0.34 | |60 |0.36 |0.52 |0.19 |0.21 | |66 |0.52 |1.03 |0.30 |0.55 | |72 |0.34 |0.49 |0.18 |0.16 | 10.1.2.1 数据准备 激活数据管理窗口,定义变量名:虽然月份分组不作分析变量,但为了更直观地了解聚 类结果,也将之输入数据库,其变量名为month;身高、体重、胸围和坐高的变量名分别 为x1、x2、x3和x4,输入原始数额。 10.1.2.2 统计分析 激活Statistics菜单选Classify中的K-Means Cluster...项,弹出K-Means Cluster Analysis对话框(如图10.1示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击 (钮使之进入Variables框;在Number of Clusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两 种:Iterate and classify指先定初始类别中心点,而后按K- means算法作叠代分类,Classify only指仅按初始类别中心点分类,本例选用前一方法。 | | |[pic] | |图10.1 逐步聚类分析对话框 | 为在原始数据库中逐一显示分类结果,点击Save...钮弹出K-Means Cluster:Save New Variables对话框,选择Cluster membership项,点击Continue钮返回K-Means Cluster Analysis对话框。 本例还要求对聚类结果进行方差分析,故点击Options...钮弹出K-Means Cluster:来Options对话框,在Statistics栏中选择ANOVA table项,点击Continue钮返回K-Means Cluster Analysis对话框,再点击OK钮即完成分析。 10.1.2.3 结果解释 在结果输出窗口中将看到如下统计数据: 首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K- means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。 |Initial Cluster Centers. | |Cluster X1 X2 X3 X4 | |1 11.0300 50.3000 11.8100 11.2700| |2 5.4700 19.3000 5.2000 7.1800| |3 3.5800 9.8500 3.1400 2.1100| |4 .3400 .4900 .1800 .1600| | | |Convergence achieved due to no or small distance change. | |The maximum distance by which any center has changed is | |.0000 | |Current iteration is 2 | | | |Minimum distance between initial centers is 10.5200 | | | |Iteration Change in Cluster Centers | |1 2 3 4 | |1 .0000 .0000 2.46E+00 1.27E+00 | |2 .0000 .0000 .0000 .0000 | | | |Case listing of Cluster membership. | |Case ID Cluster Distance | |1 1 .000 | |2 2 .000 | |3 3 2.457 | |4 4 3.219 | |5 3 2.457 | |6 4 1.530 | |7 4 1.346 | |8 4 .515 | |9 4 .915 | |10 4 .266 | |11 4 .281 | |12 4 .668 | |13 4 .467 | |14 4 .844 | |15 4 .415 | |16 4 .873 | |17 4 1.215 | |18 4 .619 | |19 4 1.269 | | | |Final Cluster Centers. | |Cluster X1 X2 X3 X4 | |1 11.0300 50.3000 11.8100 11.2700| |2 5.4700 19.3000 5.2000 7.1800| |3 2.8550 7.7500 2.0900 2.1100| |4 .9060 1.4660 .4820 .6560| | | 之后对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值 均
第十章 分类分析
[下载声明]
1.本站的所有资料均为资料作者提供和网友推荐收集整理而来,仅供学习和研究交流使用。如有侵犯到您版权的,请来电指出,本站将立即改正。电话:010-82593357。
2、访问管理资源网的用户必须明白,本站对提供下载的学习资料等不拥有任何权利,版权归该下载资源的合法拥有者所有。
3、本站保证站内提供的所有可下载资源都是按“原样”提供,本站未做过任何改动;但本网站不保证本站提供的下载资源的准确性、安全性和完整性;同时本网站也不承担用户因使用这些下载资源对自己和他人造成任何形式的损失或伤害。
4、未经本网站的明确许可,任何人不得大量链接本站下载资源;不得复制或仿造本网站。本网站对其自行开发的或和他人共同开发的所有内容、技术手段和服务拥有全部知识产权,任何人不得侵害或破坏,也不得擅自使用。
我要上传资料,请点我!
管理工具分类
ISO认证课程讲义管理表格合同大全法规条例营销资料方案报告说明标准管理战略商业计划书市场分析战略经营策划方案培训讲义企业上市采购物流电子商务质量管理企业名录生产管理金融知识电子书客户管理企业文化报告论文项目管理财务资料固定资产人力资源管理制度工作分析绩效考核资料面试招聘人才测评岗位管理职业规划KPI绩效指标劳资关系薪酬激励人力资源案例人事表格考勤管理人事制度薪资表格薪资制度招聘面试表格岗位分析员工管理薪酬管理绩效管理入职指引薪酬设计绩效管理绩效管理培训绩效管理方案平衡计分卡绩效评估绩效考核表格人力资源规划安全管理制度经营管理制度组织机构管理办公总务管理财务管理制度质量管理制度会计管理制度代理连锁制度销售管理制度仓库管理制度CI管理制度广告策划制度工程管理制度采购管理制度生产管理制度进出口制度考勤管理制度人事管理制度员工福利制度咨询诊断制度信息管理制度员工培训制度办公室制度人力资源管理企业培训绩效考核其它
精品推荐
下载排行
- 1社会保障基础知识(ppt) 16695
- 2安全生产事故案例分析(ppt 16695
- 3行政专员岗位职责 16695
- 4品管部岗位职责与任职要求 16695
- 5员工守则 16695
- 6软件验收报告 16695
- 7问卷调查表(范例) 16695
- 8工资发放明细表 16695
- 9文件签收单 16695
- 10跟我学礼仪 16695