读书破万卷,下笔如有神,下面是爱岗的小编为大家分享的12篇多元统计分析论文,欢迎阅读,希望大家能够喜欢。
Abstract: According to the university scientific research data in nearly ten years, the factor analysis and cluster analysis statistical methods in the multivariate statistical analysis are used to carry out the comprehensive evaluation analysis of the college scientific research status and put forward a method for evaluating the state of the research. Research shows that, in some colleges, the first factor is very high, indicating that these colleges in cutting-edge academic research achievements. But at the same time, the third factor is low, indicating that these colleges and enterprises to contact the lack of scientific research. In other colleges, the second factor is very high, indicating that these colleges in the per capita contribution rate, C class paper per capita contribution rate and other aspects to do better. In addition, some of the college's third factor is very high, indicating that these colleges are closely related to the enterprise's scientific research and cooperation. The results of the subsequent cluster analysis also confirmed the rationality of the conclusion of the comprehensive evaluation analysis. Through the study of this paper, it provides a theoretical basis for the scientific management system and evaluation system of scientific research achievements.
关键词: 高校;科研状况;因子分析;聚类分析;评价
Key words: colleges and universities;research status;factor analysis;cluster analysis;evaluate
中图分类号:G463 文献标识码:A 文章编号:1006-4311(2016)31-0015-04
0 引言
科研能力是衡量一所高校科教水平的重要标志。某高校作为省重点高校有着悠久的办学历史,科研水平在省内也是名列前茅,本文针对该高校20个学院的各项科研指标进行多元统计分析,建立了描述科研水平的各类变量,包括各类科研项目的经费总额、各类论文的发表数量、论著发表数量,投入科研人员数量等。但由于各学院规模不一,各学院科研性质也不尽相同,为了保证研究结果的平衡性,本文采用对科研成果人均贡献率的方式进行研究。然而进行统计分析时,并非变量收集的越多越有利,变量间信息的高度相关、高度重叠会给统计方法的应用带来许多困难,因此本文借助SPSS统计分析软件,采用因子分析方法,在众多变量中提取影响各学院科研状况的主要因子对问题进行分析,最后通过因子变量的聚类分析对评价结果进行验证。国内学者目前主要集中对我国体育事业进行科研状况分析,如贾志强、郑岩平对我国1995-2000年篮球科研状况作了分析。张金、夏秀荣对我国1994-2003年排球科研状况作了分析。在高校科研状况分析方面,孟学英、陈春华利用调查问卷方式对我国部分高职院校教师科研状况做了调查分析。同时国内对多元统计方法的应用也主要集中在医疗、经济方面,如孟莹、谢守祥等利用多元统计分析方法对江苏省经济差异化做了分析。王曦、宋剑南利用多元统计分析方法对影响中医症候的主要因素做了研究。利用多元统计分析方法结合高效科研状况评价分析还鲜有研究。本文结合多元统计分析分析方法对某高校科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。
1 因子分析方法简介
因子分析是利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。因子分析的基本思想是根据相关性大小把原始变量分组,使得同组内的变量之间相关性较高,而不同组的变量之间的相关性则较低。每组变量代表一个基本结构,并用一个不可观测的综合变量表示,这个基本结构就称为公共因子。对于所研究问题的某一具体问题,原始变量可以分解成两部分之和的形式,一部分是少数几个不可测的所谓公共因子的线性函数,另一部分是与公共因子无关的特殊因子。进行因子分析的步骤如下:①根据研究问题选取原始变量。②对原始变量进行标准化并求其相关阵,分析变量之间的相关性。③求解初始公共因子及因子载荷矩阵。④因子旋转。⑤因子得分。⑥根据因子得分值进行进一步分析。
2 各学院科研状况的因子分析
2.1 数据分析和指标选取
本文选用的数据来源于某高校2006年至2015年的统计数据。设定数据中8个指标变量分别是X1:2006-2015年横向项目金额人均贡献率(万元/人);X2:2006-2015年市校级项目金额人均贡献率(万元/人);X3:2006-2015年省部级项目金额人均贡献率(万元/人);X4:2006-2015年部级项目金额人均贡献率(万元/人);X5:A类论文人均贡献率(篇/人);X6:B类论文人均贡献率(篇/人);X7:C类论文人均贡献率(篇/人);X8:论著数量人均贡献率(项/人)。数据详情见表1。
在进行数据分析前,进行KMO检验,P值为0.000,检验结果是显著的,同时KMO值达到0.577,结果见表2,表明数据之间具有一定的相关性,可进行因子分析。
从表3变量共同度表中可以看出因子分析的变量共同度均较高,表明变量中的大部分信息均被因子所提取,说明因子分析的结果是有效的。
2.2 因子提取和因子解释
现应用主成分分析法来进行因子提取和因子个数的确定,从表4中可以看出只有前三个因子特征根大于1,并且前三个因子特征值之和接近80%,故提取前三个因子基本包含了全部测评指标的绝大部分信息,因子分析效果较理想。
由于初始载荷阵结构不够清晰,不便于对因子进行解释,因此对因子载荷矩阵实行旋转,达到简化结构的目的,使各变量在某些因子上有较高载荷,而在其余因子上只有小到中等的载荷。这里采用方差最大正交旋转法进行因子旋转。结果见表5。
从旋转后的因子载荷矩阵来看,第一个主因子在省部级项目金额人均贡献率、部级项目金额人均贡献率、A类论文人均贡献率、B类论文人均贡献率上具有较高载荷,第二个主因子在C类论文人均贡献率、论著数量人均贡献率上具有较高载荷,第三个主因子在横向项目金额人均贡献率、市校级项目金额人均贡献率上具有较高载荷。
2.3 因子得分和因子变量
本文采用回归法估计因子得分系数,并输出因子得分系数矩阵见表6。
根据表6可写出以下因子得分函数:F1=-0.014横向项目金额人均贡献率-0.078市校级项目金额人均贡献率+0.263省部级项目金额人均贡献率+0.293部级项目金额人均贡献率+0.178A类论文人均贡献率+0.508B类论文人均贡献率+0.021C类论文人均贡献率+0.174论著人均贡献率(1);F2=-0.159横向项目金额人均贡献率+0.065市校级项目金额人均贡献率+0.00省部级项目金额人均贡献率-0.057部级项目金额人均贡献率-0.235A类论文人均贡献率+0.393B类论文人均贡献率+0.328C类论文人均贡献率+0.570论著人均贡献率(2);F3=0.442横向项目金额人均贡献率+0.582市校级项目金额人均贡献率+0.123省部级项目金额人均贡献率+0.010部级项目金额人均贡献率-0.076A类论文人均贡献率-0.219B类论文人均贡献率+0.384C类论文人均贡献率-0.010论著人均贡献率(3)
通过上述公式(1)、公式(2)和公式(3)可得到各个学院的因子得分。从而获得三个因子变量,由于这三个因子变量是线性无关的。因此,可以利用它们对各个学院的科研状况做统计分析。
3 各学院科研状况的综合评价分析
下面利用三个因子变量对2006年-2015年该高校各学院科研状况做多元统计分析,并对各学院近10年来科研状况进行综合评价。
首先画出三因子变量的散点图,对各学院近10年来科研状况做对比分析。以第一因子变量为横坐标,第二因子变量为纵坐标,第三因子变量为竖坐标的三维散点图如图1所示。
从图1中可以看出P学院、O学院、M学院等的第一因子很高。说明这些学院在部级项目人均贡献率、省部级项目人均贡献率、A类论文人均贡献率、B类论文人均贡献率上成绩突出,但在横向项目人均贡献率上稍显不足,这些学院应该在保持尖端学术科研的前提下,多加强与企业的合作,创造更多产业应用成果。L学院、R学院、N学院等的第二因子很高,说明这些学院在论著人均贡献率、C类论文人均贡献率上成绩突出,这与这些学院的科研性质是密不可分的,第二因子很高的学院可以在保持自己科研特色的前提下,多关注学术前沿的相关信息,争取在尖端科研中有更大的突破。如B学院、I学院等的第三因子很高,说明这些学院在横向项目人均贡献率上成绩突出,这些学院可以在紧密保持与企业的科研联系的基础上,加强自己在学科特色科研中的研究,多出一些基础研究方面的尖端科研学术成果,增强学院在科研创新中的能力。
最后利用系统聚类分析法对各学院科研状况进行聚类分析,即利用三因子变量对20个学院进行聚类,结果如表7所示,M学院、P学院、O学院和J学院为一类,B学院、I学院为一类,其它学院为一类。这个结果与散点图分析的情况基本类似。
4 结束语
本文针对某高校各学院科研状况进行综合评价分析,通过对高校近十年科研指标数据进行因子分析,将八个指标变量分为三个科研因子,分别是高端科研因子、校企合作科研因子、基础科研因子,并给出了因子得分模型,对各学院近十年的科研状况给出了分析,最终的聚类分析结果也对各学院科研状况做了验证说明。论文的研究成果为科学地建立高校科研业绩的管理体系及评价体系提供了理论依据。
从分析结果来看,因学院科研特色不同,导致各个学院在学术科研这个万花筒中所扮演的角色也各不相同,但各学院之间还是应当加强科研合作,取他人之长补己之短,这样才能为该高校向科研大校、科研强校的进军道路上打下坚实的基础。
参考文献:
[1]薛薇。SPSS 统计分析方法及应用[M].二版。北京:电子工业出版社,2006:303-349.
[2]张文彤。SPSS11统计分析教程―高级篇[M].北京:北京希望电子出版社,2002:166-210.
[3]李卫东。应用多元统计分析[M].北京:北京大学出版社,2008:226-240.
[4]阎慈琳。关于主成分分析做综合评价的若干问题[J].数理统计与管理,1998(2):22-24.
[5]胡永宏,贺思辉。综合评价方法[M].北京:经济科学出版社, 2000.
[6]何晓群。现代统计分析方法与应用[M].北京:中国人民大学出版社,2003,8:15-18.
[7]孙静水。计量经济学[M].北京:清华大学出版社,2004.
关键词:对外汉语教材;学术期刊;统计分析
笔者认为,对外汉语教材述评论文的发展趋势在一定程度上反映了对外汉语界总体的教学情况,所以选取一段时期内研究教材的论文进行分析是十分必要的。通过对这个时期内论文的考查,以期初步了解和掌握我国对外汉语教材研究领域状况及发展趋势。
1.研究准备与设计
(1)样本范围。本研究材料来源于2000年至2014年七本对外汉语专业期刊:《世界汉语教学》《语言教学与研究》《语言文字应用》《云南师范大学学报》《华文教学与研究》《汉语学习》《中国语文》。这七本期刊在汉语教学界是较为知名的刊物,对它们进行研究在一定程度上能够探寻出对外汉语教材研究的发展趋势。
(2)研究方法。本文对2000年至2014年以来这七份学术期刊上的所有论文进行了一次梳理,尽可能无遗漏地筛选出研究对外汉语教材的论文,最后进入统计分析的论文共有139篇。在此基础上,二次提取并统计上述论文的教材研究关注点,得出相关数据并进行分析。
通过对新世纪以来这七份期刊的教材研究方面的统计分析,我们尝试寻找对外汉语教材研究论文的关注重点和可以改进的地方。
2.研究结果与分析
(1)教材研究论文主要关注点。通过对论文的归类整理,教材研究论文的关注点基本可以分为三大类。对语言类教材的研究在总体研究中占有很大的比重,在三个时间段研究都保持在88%以上;不同时段对文化类教材及教材中文化意识的研究都有关注,但比重较低,在6%左右;商务类、报刊类、外交类教材研究论文只有3%左右。
(2)语言类教材研究情况。语言类教材的研究论文在所有教材研究论文中所占比重最大,包括了不同的研究类别,论文研究内容基本上可分为教材评估、教材编写设想、教材编写经验总结和教材介绍四大类。下表是自2000年至2014年以来每五年的语言类教材研究类别论文的比重图,从中可以看出,教材评估研究一直以来是研究的重点;教材编写设想类研究论文总体呈上升趋势;教材编写经验总结与教材介绍类研究论文呈现逐渐下降态势。
其中,教材评估论文的研究重点主要有课文话题选择、词汇、课后练习这些问题的研究,大部分是对单本教材的分析,缺乏一个统一的评估标准。
3.存在问题及对策
(1)教材研究论文关注重点是语言类教材,而对文化类教材或教材中的文化意识研究很少。这说明学界对文化教材和语言教材中融入文化意识的编写问题还未真正重视起来,但实际上汉语国际教育的根本任务在于中华文化的推广,让世界认识崛起的中国,所以文化教材的编写与研究是十分迫切的。在今后的教材编写中,编者应有意识地将文化纳入整体编写中,变过去单纯的语言教学教材为语言文化教学综合教材;而对专为文化课编写的教材,要依据对外汉语文化教学大纲编写,内容注重多元性,同时定位要准确,对国内留学生编写的文化教材不应只介绍汉族文化,还应涵盖其他少数民族文化,而对海外文化教材编写也不能单向地传播中国文化,应该以消除文化摩擦为目的的双向文化对话为目的,在体现中国文化时还应该结合当地实际。此外,在编写体例方面还要注意,要符合对外汉语文化教学目标,也要考虑到学生语言接受能力。
(2)其他使用目的类教材研究论文比例很少。该类研究论文少可能与这类教材的专业性较强,学习者需要一定的汉语基础,适用面不是很广有关。但随着经济发展,对商务、外交类汉语教材的需求也日益增大,此类教材编写与研究亟待加强。教材编写要语言与专业知识并重,注重培养学生实际处理问题的思维;教材的内容要不断适应变化发展的国际经济形势。
(3)教材评估类论文占语言类教材研究论文的主导,缺乏一套完整的、科学的、便于操作的对外汉语教材评估系统标准。我们可以从是否符合教学大纲、选材是否有趣味性、词汇量大小是否合适、练习设计是否科学、注释是否全面、文化取向是否多元、语言表达是否易于学生理解、版面设计是否新颖有趣、教材配套是否完善这九个方面进行评估。
1聚类分析在证券投资中的应用
(1)定义:聚类分析是依据研究对象的特征对其进行分类、减少研究对象的数目,也叫分类分析和数值分析,是一种统计分析技术。(2)在证券投资中应用聚类分析,是基于证券投资的各种基本特点而决定的。证券投资中包含着非常多的动态的变化因素,要认真分析证券投资中各种因素的动态变化情况,找出合适的方法对这种动态情况进行把握规范处理,使投资分析更加的准确、精确。1)弥补影响股票价格波动因素的不确定性证券市场受到非常多方面的影响,具有很大的波动性和不稳定性,这种波动性也造成了证券市场极不稳定的发展状态,这些状态的好坏对证券市场投资者和小股民有着非常重要的影响。聚类分析的方法是建立在基础分析之上的,立足基础发展长远,并对股票的基本层面的因素进行量化分析,并认真分析掌握结果再应用于证券投资实践中,从股票的基本特征出发,从深层次挖掘股票的内在价值,并将这些价值发挥到最大的效用。影响证券投资市场波动的因素非常多,通过聚类分析得出的数据更加的全面科学,对于投资者来说这些数据是进行理性投资必不可少的参考依据。2)聚类分析深层次分析了与证券市场相关的行业和公司的成长性聚类分析是一种非常专业的投资分析方法,它善于利用证券投资过程中出现的各种数据来对证券所涉及的各种行业和公司进行具体的行业分析,这些数据所产生额模型是证券投资者进行证券投资必不可少的依据。而所谓成长性是一种是一个行业和一个公司发展的变化趋势,聚类分析通过各种数据总结归纳出某个行业的发展历史和未来发展趋势,并不断的进行自我检测和自我更新。并且,要在实际生活中更好的利用这种分析方法进行分析研究总结,就要有各种准确的数据来和不同成长阶段的不同参数,但是,获取这种参数比较困难,需要在证券市场实际交易和对行业和公司的不断调查研究中才能得出正确的数据。因此,再利用聚类分析法进行行业和公司分析和证券投资分析时要注重选取正确的、关键的指标进行检查,例如主营收入增长率、净利润增长率等指标,这样才有利于正确预测证券市场上股票的发展潜力。3)在实际操作中更加直观实用聚类分析是根据现代证券市场发展水平和特点发展出来的新的分析方法,这种分析方法的出现与现代的基本的投资组合理论形成了比较,突出了聚类分析方法更加贴近实际生活,更加直观、实用的特点,并且由于技术的发展,聚类分析方法在实际应用中所受到的局限较小,而且易操作,因此它的适用范围就比现资理论更加的广泛。
2主成分分析在证券投资中的应用
(1)定义:在统计分析中,主成分分析是一种分析、简化数据集的技术。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。主成分分析由卡尔•皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值。(2)主成分分析的应用非常广泛,判别分析的分析方法就是通过对各种分类数据的研究,分析出自变量各组间存在的差异,并总结出差异性,判断哪一个自变量对组间差异的贡献是否完全,根据这些数据将自变量的转变方法进行样本归类。1)降低影响证券投资市场变动的因素之间的互相影响在证券市场中有非常多的因素在影响着证券市场的稳定,这些因素之间有着非常多的关系,相互影响、相互关联,但相互之间的影响也存在着非常多的影响。而主成分分析方法就是在对影响证券投资相互关系的因素中进行分析,并对原始数据指标变量进行认真分析,将其中重要的主成分因素概括出来,并进行转换形成相互彼此相互独立的成分,而且经过实践证明在影响证券市场投资分析中的指标间相关程度越高,主成分分析效果越好。2)通过主成分分析减少指标选择的工作量主成分分析的目的就是要通过对各种数据、因素的分析总结出相对各种因素的不同影响程度,总结总体因素中的主要影响成分,并总结出不同层次的影响因素梯度,在分析时采取逐级分析的方法,这样既可以抓住主要矛盾进行分析,也可以节省时间,并且提高分析的准确性,减少分析人员的工作量,因此,主成分分析法指标选择上的优势更加的突出。3)由主成分分析法构造回归模型更加的精确、节省时间在进行证券投资因素分析时,为了能够更加清晰准确的对模型中的相关数据进行分析,都要对各种数据进行模型处理,这样的处理方式可以提高整个证券投资分析的准确性,是模型更加易于做出结构分析、控制和进行证券市场变动的预报。
3因子分析
(1)定义:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。(2)应用因子分析最主要的作用是确定证券投资组合的模型。因子分析将影响股票价格的各种因素看成是不同的变量,建立股价因子模型,利用各因子不相关性确定股票的分类,再分析股票的发展潜力的基础上确定出合适的证券投资模型。
4总结
随着经济发展的不断加快,金融证券市场的发展也达到了又一个高度。我国证券市场的发展还不完善,暴露出来的诸多经济问题必须引起政府和社会的广泛关注。证券市场研究着也要积极进行证券市场的各种理论对市场的发展做出合理的预测和控制。多元统计分析方法是近年来应用比较广泛、科学的方法,它为整个证券市场的健康发展做出了辅作用。为了证券市场能够更好发展,多元统计分析方法也要进行积极创新,为将来的发展做出贡献。
多元统计分析法是证券投资中非常重要的分析方法,它的理论内容包含了多个方面的理论方法,每个理论分析方法对证券投资有着不同的分析作用,应该对每个分析方法进行认真研究得出相关的结论,再应用到实际经济生活中。
1.1聚类分析在证券投资中的应用
(1)定义:聚类分析是依据研究对象的特征对其进行分类、减少研究对象的数目,也叫分类分析和数值分析,是一种统计分析技术。
(2)在证券投资中应用聚类分析,是基于证券投资的各种基本特点而决定的。证券投资中包含着非常多的动态的变化因素,要认真分析证券投资中各种因素的动态变化情况,找出合适的方法对这种动态情况进行把握规范处理,使投资分析更加的准确、精确。
1)弥补影响股票价格波动因素的不确定性证券市场受到非常多方面的影响,具有很大的波动性和不稳定性,这种波动性也造成了证券市场极不稳定的发展状态,这些状态的好坏对证券市场投资者和小股民有着非常重要的影响。聚类分析的方法是建立在基础分析之上的,立足基础发展长远,并对股票的基本层面的因素进行量化分析,并认真分析掌握结果再应用于证券投资实践中,从股票的基本特征出发,从深层次挖掘股票的内在价值,并将这些价值发挥到最大的效用。影响证券投资市场波动的因素非常多,通过聚类分析得出的数据更加的全面科学,对于投资者来说这些数据是进行理性投资必不可少的参考依据。
2)聚类分析深层次分析了与证券市场相关的行业和公司的成长性聚类分析是一种非常专业的投资分析方法,它善于利用证券投资过程中出现的各种数据来对证券所涉及的各种行业和公司进行具体的行业分析,这些数据所产生额模型是证券投资者进行证券投资必不可少的依据。而所谓成长性是一种是一个行业和一个公司发展的变化趋势,聚类分析通过各种数据总结归纳出某个行业的发展历史和未来发展趋势,并不断的进行自我检测和自我更新。并且,要在实际生活中更好的利用这种分析方法进行分析研究总结,就要有各种准确的数据来和不同成长阶段的不同参数,但是,获取这种参数比较困难,需要在证券市场实际交易和对行业和公司的不断调查研究中才能得出正确的数据。因此,再利用聚类分析法进行行业和公司分析和证券投资分析时要注重选取正确的、关键的指标进行检查,例如主营收入增长率、净利润增长率等指标,这样才有利于正确预测证券市场上股票的发展潜力。
3)在实际操作中更加直观实用聚类分析是根据现代证券市场发展水平和特点发展出来的新的分析方法,这种分析方法的出现与现代的基本的投资组合理论形成了比较,突出了聚类分析方法更加贴近实际生活,更加直观、实用的特点,并且由于技术的发展,聚类分析方法在实际应用中所受到的局限较小,而且易操作,因此它的适用范围就比现资理论更加的广泛。
1.2主成分分析在证券投资中的应用
(1)定义:在统计分析中,主成分分析是一种分析、简化数据集的技术。主成分分析经常用减少数据集的维数,同时保持数据集的对方差贡献最大的特征。主成分分析由卡尔•皮尔逊于1901年发明,用于分析数据及建立数理模型。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征矢量)与它们的权值。
(2)主成分分析的应用非常广泛,判别分析的分析方法就是通过对各种分类数据的研究,分析出自变量各组间存在的差异,并总结出差异性,判断哪一个自变量对组间差异的贡献是否完全,根据这些数据将自变量的转变方法进行样本归类。
1)降低影响证券投资市场变动的因素之间的互相影响在证券市场中有非常多的因素在影响着证券市场的稳定,这些因素之间有着非常多的关系,相互影响、相互关联,但相互之间的影响也存在着非常多的影响。而主成分分析方法就是在对影响证券投资相互关系的因素中进行分析,并对原始数据指标变量进行认真分析,将其中重要的主成分因素概括出来,并进行转换形成相互彼此相互独立的成分,而且经过实践证明在影响证券市场投资分析中的指标间相关程度越高,主成分分析效果越好。
2)通过主成分分析减少指标选择的工作量主成分分析的目的就是要通过对各种数据、因素的分析总结出相对各种因素的不同影响程度,总结总体因素中的主要影响成分,并总结出不同层次的影响因素梯度,在分析时采取逐级分析的方法,这样既可以抓住主要矛盾进行分析,也可以节省时间,并且提高分析的准确性,减少分析人员的工作量,因此,主成分分析法指标选择上的优势更加的突出。
3)由主成分分析法构造回归模型更加的精确、节省时间在进行证券投资因素分析时,为了能够更加清晰准确的对模型中的相关数据进行分析,都要对各种数据进行模型处理,这样的处理方式可以提高整个证券投资分析的准确性,是模型更加易于做出结构分析、控制和进行证券市场变动的预报。
1.3因子分析
(1)定义:因子分析是指研究从变量群中提取共性因子的统计技术。最早由英国心理学家C.E.斯皮尔曼提出。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子,可减少变量的数目,还可检验变量间关系的假设。
(2)应用因子分析最主要的作用是确定证券投资组合的模型。因子分析将影响股票价格的各种因素看成是不同的变量,建立股价因子模型,利用各因子不相关性确定股票的分类,再分析股票的发展潜力的基础上确定出合适的证券投资模型。
2总结
医学统计学是根据概率论和数理统计的原理, 结合医药卫生工作的实际情况, 研究实验设计和数字资料的搜集、整理、分析和推断的一门科学, 广泛应用于基础医学、临床医学、预防医学、药学和卫生事业管理等诸多领域。它是人们认识客观世界的一种重要手段, 现代科技工作者做科学研究或撰写论文, 很少看到不用统计学。
与此同时,如果统计学方法应用不当,不仅不能准确地反映科研结果,而且还可能带来错误的结沦。Rosenfeld 等比较了不同年表的文章,在20 世纪90年代以后有更多的文章使用了统计推断,而且比较复杂的统计分析方法如多因素分析等也更多的应用于临床研究中,但同时也存在使用统计方法欠妥或叙述不清的情况。
因此本文将对医学科技论文常见统计学方法的正确应用进行讨论,希望加强作者的统计思维,进而提高期刊论文的统计质量及学术水平。
2、统计学方法的内容
统计软件包、统计分析方法及检验水准是统计学方法必须描述的3 方面内容。SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包[6]。检验水准即A,表示组间实际无差别而统计结果判断为有差别,犯这类错误的概率[1]。实际工作中常取 A=0.05,表示本次研究计算所得P 值必须小于0.05,才能认为组间差异有统计学意义。统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括统计描述和组间差异性检验(即:假设检验) 两部分内容。
3、统计学方法的正确选用
统计方法的选择取决于研究设计、数据资料类型和变量值的分布。计量资料常用u检验、t检验(.配对t检验)、 F检验;计数资料用 检验;等级资料、偏态资料或不明分布的资料可用秩和检验等。每种显著性检验方法均有其适用范围, 如方差分析(F检验).要求数据服从正态分布, 且各总体方差齐, 否则不宜作方差分析, 若改用非参数统计方法, 则会降低统计效率, 故常在可能情况下, 通过变量变换(如对数变换、平方根变换、反正弦函数变换、例数变换等)使资料转换为正态分布, 以满足方差分析或t检验的应用条件。医学期刊中最常见的是t检验和 检验, 这两种方法误用也较为多见。
3.1重复t检验
多个样本均数间的两两比较(又称多重比较)不宜用t检验, 因为重复数次,t检验将增加第一类错误的概率, 使检验效率降低。此时宜用方差分析, 并在此基础上用两两比较方法。(如。SNK、LSD、Duncan法等)。对于同一对均数间的差异, 用t检验无显著性, 而两两比较可能有显著性, 可见错误选用统计方法将推出错误结论。
3.2行列标 检验误用
行列表 检验用于2个或多个样本率(或构成比).比较, 它要求行列表中不宜有1/5以上格子的理论频数T
3.3需要注意的统计学问题
3.3.1无足够的统计学信息
论文中未说明统计方法和 取值, 无均数、标准差或率及t值、 值等统计量, 甚至未作假设检验直接下结论。不少临床医学论文作者只在文中提及P值大小并据此推断结果的显著性。实际上, 临床医学研究关心的是各组之间结局(如疗效)的差别大小, 而不单纯是统计学显著性, 因此应同时说明检验方法、 水平、统计量值、P值和可信区间, 以便让读者了解所用的方法和结论是否适当及其临床的实际意义。
3.3.2统计图、表
统计图、表是统计描述的重要工具。统计图宜少而精, 应按资料性质和分析目的选用适合的统计图形, 统计图虽直观但不能代替精确的数据或统计量同。统计表宜简单明了, 层次清楚, 一般采用三线表。常见的统计表运用不当有。 标题复杂或过于简略甚至无标题, 辅助线过多, 标目繁杂, 层次不清。另外, 表内不宜留空格, 暂缺或未记录可用“…” 表示, 无数字用“一”表示, 数字若是“0”则填明“0”。
3.3.3统计软件使用的误区
目前计算机应用已十分普及, 统计软件的使用也非常方便, 但软件只能解决计算问题, 并不能替代人脑的统计思维。根据资料的分布特征和数据特点选择统计方法, 正确地解释分析结果并推导出正确的结论, 这是科研工作者在做统计分析时必须首先掌握的, 计算只是一种工具。有了诸如SASA、SPSS等高级统计软件包, 复杂了多元分析如多重回归、多因素方差分析等已变得十分容易, 于是一些作者片面追求使用高深的多元统计方法且多种方法一起用, 误以为统计方法用得越高级, 文章水平越高。实际上如果使用不当, 多元统计方法使用得越多, 错误可能也越多。一个精心设计的临床研究, 资料可能用简单的t检验或 检验就足以说明问题, 若滥用多元分析、结果会适得其反。
4.结语
通过上面的分析,在医学研究中必须正确运用统计学,这是科研工作的科学性所决定的。搞科研,首先必须尊重科学。借助统计学这个有用的工具,可以去探索未知事物,揭示和阐明客观事物变化的规律性。
参考文献:
[1]于国艺, 周晓彬, 王俊。 医学论文常见统计方法误用分析。编辑学报, 1998;10(3):132.
[2]杨树勤, 主编。卫生统计学。第3版。北京: 人民卫生出版社, 1995;145-147.
[3]王苏星。医学论文中常用显著性检验方法的选择。中华创伤杂志, 1998;14(1):63.
多元统计分析,是指一种综合性质的分析方法,通过对不同研究对象和目标关联性的分析,统计出之间的规律,在现代统计学中被广泛的运用.多元统计分析被分为很多种,包括了多重回归分析、聚类分析、对应分析等等,本文中详细列举的是其中较为重要的几类.MATLAB软件是一种高科技高效能的计算系统,由MATHWORKS公司研制开发,自诞生以来便在众多领域得到广泛运用,它具有丰富的功能,除了最基本的数值分析和计算外,还有绘图和图像处理、仿真与通信等,当然其最大的特点是简单快捷易操作,这就使得其在多元统计分析教学中的应用成为必然.
二、MATLAB软件的应用意义
MATLAB是一款功能十分强大的软件系统,它在多元统计分析中的运用具有十分重要的意义,首先因为其效率极高的计算能力,能够处理海量且关系复杂的数字信息,所以提高了多元统计分析的工作效率,能够更快的完成任务;其次因为其具备图形处理能力,可以实现可视的编程与计算,并通过交互界面使得使用者更容易操作;最后是丰富的辅助工具使得多元系统分析更加快捷方便.
三、具体应用
(一)判别分析教学中的应用判别分析,顾名思义就是对研究目标的类型归属的一种分析法.因为在实际的经济科研活动和日常生产生活中,要根据信息资料分析一种现象或行为的种类问题十分普遍,所以这种分析方法是被广泛运用的,比如在医学领域,要根据身体指标传达的信息来分析是否患病以及患的是什么病;比如在经济领域,地区发展要根据当地的人口、土地和资源等信息来分析发展方向.MATLAB软件在其中的应用,是通过使用命令classify来实现的,其软件调用的格式是classify(sample,group,training)=[err.class],其中输入参数sample为待判样品,training为训练样品;group为训练样本的分类变量,输出参数class为待判样品的分类结果,err为误判率的估计.
(二)聚类分析教学中的应用聚类分析,可以从其字面意思看出,就是对研究目标进行归类集合的一种分析方法,所以这种分析方法又叫作群分析.它通过对信息资料的分析,对各个对象的内在含义和外部联系作出判断,将相似的对象集合为群.在实际生活中,这也是一种常见的分析方法,比如在生物科学中,常常通过对动植物的外部共同特征和内部基因进行分析,划分出物种.在MATLAB软件中,要实现聚类分析,可以采用两种方法,一种是动态聚类,一种是系统聚类.
(三)主成分分析教学中的应用在实际问题研究中,为了全面系统地分析问题,通常需要考虑大量的影响因素.这些因素一般称为指标,在多元统计分析中 培养学生的实践能力,仅从理论授课上下功夫提高学生实践能力是远远不够的,必须在理论授课、实验教学和课程考核等各个教学环节中都不脱离实践能力培养的主线。在理论课上讲授的内容一般包括原理方面的知识和如何分析实际数据两个方面。提高学生实践能力要求教学过程中淡化数学原理方面的知识,而将重点放置在如何分析实际数据上,即该多元统计分析方法使用的前提条件是什么,如何使用该方法以及分析结果如何解读,在具体研究的医学问题中此结果具有什么样的意义。尽管在现代教学方法中有体验式教学的渗入,但相对于实验课的实际体验来讲,学生对于数据何时采用、如何采用某种多元统计分析方法,还是保持在似乎知道,但又不完全明确的模糊阶段。很多原理方面的知识,尽管不是重点,但也需要学生了解一下,才能有助于把握整体脉络、合理应用,通过实验课的亲身体验,能直观观察到相对模糊的原理知识得到验证的过程,从而心服口服地从心底接受没有经过手工计算而呈现的分析结果。并且多元统计分析的实验课本身就是让学生去体验各多元统计分析方法怎样应用于实际数据的过程,从而使学生实践能力大大提高。一般课程考试比较侧重理论原理的考核,而医用多元统计分析授课的目的就是给学生讲授多元统计方法应用于医药卫生领域数据的实践过程,学习课程之后学生必须具备这种实践能力,否则就根本没有实现开设这门课程的初衷,没有达到教学目的。因此,课程考试也应侧重在学生实践能力的考核上。课程考核一般有试卷考核、平时实验成绩和上机考核三种形式,而以试卷考核的形式居多。对于医用多元统计分析课程,平时实验成绩考核和上机考核也应该是必须选择的考核形式,除此以外,在试卷考核中也可通过适当的题型体现对学生实践能力的考查。比如,将多元数据分析的结果展示在试卷上,让学生回答此分析结果对于研究目的反映出什么;或者指出研究目的,让学生回答选用何种多元统计分析方法,为何选用这种方法;或者从展现的结果让学生判断是否适用某种多元统计分析方法等多种题型来考查学生的实践能力。通过考核反馈出实践能力欠缺的部分,从而给予相应的应对措施。
2通过教学软件提高教学效率多元统计分析
建模一般都要经过逆矩阵、相关系数矩阵的计算,求解特征根与特征向量等过程,这些过程没有扎实的数学功底是根本不可能完成的。即便能完成这些运算,但也是相当耗时的过程。就运算相对简单的多元统计分析方法而言,如果采用人工计算器计算的话,也需要大约五个学时的时间才能完成,复杂的多元统计方法需要学时数就更多了。假定学校能够安排充分的学时数,学生也必须有足够的能力和耐心去完成这些运算。可见,统计软件和多元统计分析方法教学的结合是非常必要的。目前,常用的统计分析软件有SAS、SPSS和STATA。对于医学专业本科生和研究生的统计分析要求来讲,简单掌握每个软件基本功能就可以满足数据分析的需求,但对统计学专业的研究生而言,一般需要用到可编写程序的SAS软件,并且要深入学习,进行数据的模型拟合分析。各医学院校可根据自己的办学条件、师资力量、教材的情况、授课对象等因素综合考虑本院校采用医用多元统计分析的软件。借助软件在很短的时间能完成模型的建立、模型拟合检验等分析过程,通过分析结果中呈现的模型建立中间步骤,了解矩阵运算,求解特征根与特征向量的信息,把握前因后果、各步骤间的相互关系,大量时间的节余可用在多元统计分析方法的专业应用上。
3通过适宜教材激发学习兴趣多元统计分析
原理部分的繁琐复杂性对该课程的学习形成很大阻碍,且原理部分又不是医学专业学生学习的重点,这提示了教材选择的重要性。合适的教材不应该花费很大的篇幅在理论推导和模型建立的过程上,否则只会增加学生对该课程的畏惧心理。教材应当侧重于多元统计方法的应用部分,应用部分和学生专业的相关性越强,就越容易激发学生学习兴趣。上文中提到学习医用多元统计分析教学要结合统计分析软件,因此,教材中最好在每个多元统计方法的介绍之后都安排一个章节,说明这种多元统计方法通过统计分析软件如何实现,以及软件运行结果如何解读。医学各专业学生一般都未经过系统的统计软件的学习,因此,教材中软件相关内容的安排就尤其重要,不仅要有这样的章节,而且要通俗易懂,适合医学专业学生的初次统计软件学习,在每一种多元分析方法数据集的录入、软件实现的步骤、一些常用选择项的介绍、软件运行结果的每个部分的解读以及结合专业知识后的结论等各个方面都要有详尽的解释。医学可以划分成很多不同的专业,如公共卫生、医药和临床专业等,就公共卫生专业又可以进一步详细划分成劳动卫生、儿少卫生和营养等专业。目前的医用多元统计分析教材没有具体针对各个专业的多元统计分析教材,能选择到和医学专业接近的教材充其量也就是医用多元分析的教材了,因此,通过教材提高学习的积极性还是存在一定的局限性,但这种局限可以通过案例教学来弥补。在授课过程中,授课教师可能通过案例式教学,选择和授课学生专业休戚相关的例子来进行讲解,就格外能吸引学生的注意力。
4通过教学设计引导学生主动学习多媒体技术
在教学中的应用极大优化了教学过程。随着多媒体技术的发展,教学过程中“传统的PPT教学”逐渐形成新的多媒体教学形式——微课件。微课件是指使用多媒体技术在五分钟内就一个知识点进行针对性讲解的一段视频或音频。基于教学设计,微课件可用于难点讲解、内容小结等各个环节。如在教学导入阶段,教师根据新课知识点设计新颖的问题,通过简短的视频的形式展现。微课件以视频的形式吸引学生的注意力的同时,将教学问题引入,让学生带着问题去听完一堂课,从而起到引导学生主动学习、增强听课效果的作用。布置课后作业也是一种很好的引导学生主动学习的途径。以往教学中教师一般也布置作业,但布置的作业大多是多元分析方法基本思想和原则之类的思考题。笔者在教学实践中,将课后布置作业题目设定为“收集适用本次理论课医用多元分析方法的自己专业相关数据,并预计数据分析后可能的结果”。学生在收集数据的过程中,就必须去主动思考这种多元统计分析方法的基本思想、适用原则等问题,并且会进一步产生通过软件分析此数据的欲望。在实习课上,除了教师规定的实习题目之外,学生一般都会主动完成自己专业数据的分析,和教师探讨此数据分析的结果和对专业的指导意义。
5总结
一 课程体系设计和实践实训设计整体思路
1.遵照教育部对经济统计学专业的要求
严格遵照教育部对经济统计学专业的要求。主干学科为理论经济学、应用经济学、统计学,其中核心课程为西方经济学(微观经济学、宏观经济学),计量经济学,财政学,货币金融学,会计学,经济统计学,国民经济统计学,概率论与数理统计,抽样技术与应用,应用时间序列分析。实践性教学环节包括实验课程(含基本统计分析软件应用、统计实务模拟等),社会实践(含经济社会统计调查、统计工作实习等),科研和论文写作(含毕业论文、学年论文、科研实践等)。专业实验包括计算机基本技能实验、统计分析应用软件实验、经济计量分析软件实验、数据挖掘技术与应用实验。
2.参照其他院校的培养方案和课程设置
它山之石,可以攻玉。我们选择了部分具有代表性的财经院校(如上海财经大学、中央财经大学、东北财经大学、西南财经大学、中南财经政法大学、北京工商大学、上海金融学院、 河南财经大学、浙江财经学院和山东工商学院)和综合类院校(如浙江大学、吉林大学、南京大学和云南大学)以及师范类院校(如北京师范大学、华东师范大学、东北师范大学、南京师范大学)作为参照院校。通过比较分析得出,在统计学经济统计、商务统计、金融统计方向中,财经类院校主要突出经济学课程,招生偏重理科生。综合性院校和师范类院校主要课程为理学类,招生偏重理科生。
综上所述,经济统计学专业应培养适应信息化社会需要,熟练掌握现代统计理论和经济数量分析方法,具有扎实的统计学、经济学和金融学基础,能熟练应用计算机软件处理统计数据的复合型高素质经济管理统计人才。学生毕业后可在政府部门、金融机构、外资企业和大中型公司等从事经济统计分析、管理咨询、市场调研和商务数据分析等管理工作。
3.与学院培养方案形式统一
新制订的培养方案和整个学院的形式保持了统一,以便于教务人员管理工作的开展。
二 经济统计学培养方案专业课的设置
经济统计学的培养目标与基本规格和招收对象为理科生,设置了保险精算、金融统计和商务统计三个方向。学生修满培养方案规定的学分并达到学位授予要求者,授予经济学学士学位。
由于经济统计学对统计学和经济学知识的要求较高,我们提高了课程总学分和总学时,注重主干学科和专业课程的开课顺序和教学周学时分配,强化实训实践课程,实行理论和实践并行。
培养方案确定了5门学科基础课程,分别为宏观经济学、微观经济学、C语言程序设计、概率论与数理统计、管理学。确定了5门专业基础课程,分别为基础会计学、经济统计学、货币金融学、财政学、计量经济学。确定了9门专业核心课程,分别为国民经济统计学、多元统计分析、统计预测与决策、抽样技术与应用、应用时间序列分析、金融统计学、市场调查与分析、投资学、数据挖掘。
分设了三个专业方向,分别 为保险精算(开设保险学、保险统计学、利息理论、寿险精算、非寿险精算5门课程)、金融统计(开设商业银行经营管理、金融市场、金融资产评估、金融工具与金融风险管理、投资组合分析 5门课程)和商务统计(开设信息检索与利用、企业经营统计学、投入产出分析、项目管理、质量控制统计方法5门课程)方向。
开设专业任选课4门。开设实训课程8门,为C语言程序设计实训、SPSS统计软件应用实训、会计软件实训、计量建模与Eviews软件应用实训、市场调查与分析实训、多元统计分析与SAS软件应用实训、时间序列分析实训、数据挖掘(Matlab语言及其应用)实训。专业课合计为36门。
M4层各指标对上一层的重要程度没有明显差异,故对该层采用主成分分析法,但若将M4层的19个指标进行整体主成分分析,则B1,B2,B3,B4所包含的子因素数量将对分析结果产生直接影响。因此本文对B1,B2,B3,B4分别进行主成分分析,抽取其主要信息,以各自标准化后的得分作为M3层对应的综合指标,然后对这4个重要性具有明显差异的综合指标按照层次分析法所确定的权重求和得到区域物资动员总体实力得分。然后将区域物资动员总体实力得分标准化,与标准化后的资产结构A2进行聚类分析,再对31个区域进行分类。文中初始数据来源于《中国统计年鉴2013》和《中国工业统计年鉴2013》,通过SPSS18软件对数据进行标准化处理和主成分、聚类分析。
1主成分分析法主成分分析法旨
在用降维的思想,将具有一定相关性的多指标转化为一组相互无关但包含原有绝大部分信息量的综合指标。采用主成分分析法对数据进行分析处理能够剔除指标间的重叠信息,同时有效减少人为主观因素的影响,客观反映数据间的内部结构关系。
2聚类分析法
聚类分析法是根据数据特征,将研究对象按照一定的规则进行比较,性质相近的归为一类,性质相差较大的归入不同类。其中系统聚类法最为常用,但系统聚类法也分为多种,其区别主要是计算类与类之间距离的方法不同。一般先把n个样本分别作为一类,计算样本之间的距离,然后将距离最小的一对合成一个新的类,进一步计算新的类和其他类的距离,再把距离最小的一对进行合并,直到把全部样本合成为一个新的类,再根据选取的分类数进行分类分析。本文采用系统聚类的离差平方和(Ward)法,其基本思想是对方差进行分析,原理为同类之间的离差平方和较小,而不同类间的离差平方和较大。Ward法使得距离小的类容易合并,距离较大的类则难以合并,这与本研究对聚类的实际需求比较一致。
3指标权重确定指标权重的确定采用层次分析法
其原理为按系统的隶属关系将复杂问题分解,对同一层次的各元素通过两两比较的方式确定其相对重要程度,构造判断矩阵,由判断矩阵计算得出各因素的权重集W=(w)1,w2,⋯,wpT,同时要求判断矩阵的一致性比率CR<0.1。一般而言,采用层次分析法须征集多名专家意见,而专家意见往往具有一定差异性,因此构造这类群决策的判断矩阵时,必须在充分考虑各专家意见的同时保持判断矩阵的一致性特性。本文采用几何平均法对各专家构建的判断矩阵进行综合分析,得到平均判断矩阵。
二主成分分析过程
对B1进行主成分分析,取主成分累计贡献率大于85%以保证不损失过多信息的同时实现较好的降维效果。特征值和方差贡献率,由表可知,提取3个主成分即可满足累计贡献率大于85%。为因子载荷,B1的8个指标中,C1,C2,C3相距较近,C5和C7相距较近,表明其在各区域具有较强的一致性,而C4,C6,C8与其他指标均相距较远,表现出一定的独立性。载荷矩阵和特征向量,在第1主成分上C1,C2,C3的载荷较大,可归类为综合生产力主成分;在第2主成分上C4和C8的载荷较大,可归类为能源基建主成分,其中C4为负,表明其与第2主成分呈负相关;在第3主成分上C5,C6和C7的载荷较大,可归类为轻工业主成分,其中C6为负,表明其与第3主成分呈负相关。
三聚类过程和结果分析
通过SPSS18软件,结合数据对研究样本进行聚类分析,采用Ward系统聚类法,量度标准取平方Euclidean距离。为与国家常规区域分类数相对应,便于统筹协调,同时考虑动员层级需求,聚类数设为单一方案6,得到聚类树状图。,工业产能高、科技先进、交通发达,总体实力很强,而产值结构方面由于经济多元化程度高,国有产值比重很低,为充分调动物资动员力量,须制定相应法规政策,扩大动员计划范围,完善补偿激励机制,同时注意避免虚设过高动员目标;Ⅱ类地区总体实力中等,产值结构偏低,需要有选择性的提高可动员比例结构,能够较好的提升动员效果,充实动员力量;Ⅲ类地区总体实力较弱,而产值结构较高,动员相对容易,但动员扩展空间有限,对于区域内可动员的力量要加以选择,减少因动员产生的经济社会影响;Ⅳ类地区总体实力偏低,产值也偏低,扩大动员范围对于提升整体动员力量效果有限,应以区域内可靠性高的企业为重点开展动员;Ⅴ类地区总体水平很低而产值结构中等,进行动员扩展对整体动员力量贡献不大,且可能严重影响区域正常生产生活秩序,应尽可能减少在本区域内的物资动员;Ⅵ类地区总体实力很弱,而产值比重非常高,动员比较容易,但动员范围扩展空间小,且由于总体实力限制,为保证区域内经济和社会的稳定应采取限制性动员。
四结语
在人口研究中的应用现状在20世纪80年代,我国的人口研究中很少使用多元统计分析技术。进入90年代后,随着各种多元统计分析方法的引入和统计分析软件的使用,统计分析技术在人口研究中得到了广泛的应用。多元统计分析技术能够定量分析经济因素、社会因素和人口因素之间的关系,从而更好地解释人口现象。
1.我国人口研究中多元统计分析的特点
我国人口研究问题中多元统计分析技术的应用呈现出多样化的特点,主要表现在统计方法的多样性和统计分析内容的多样性。前面提到的多元线性回归方法、logistic回归分析方法以及聚类分析等多元统计分析方法在我国人口研究中都有应用。统计分析内容更是涉及生殖健康、居住类型以及人均收入水平等生活的各个方面。
2.我国人口研究中多元统计分析数据特点
我国在人口研究中的多元统计分析数据主要来源于抽样调查和典型调查等,统计分析的单位主要是以个人和家庭等个体单位为主。在数据类型方面,我国人口问题研究中的多元分析数据以横截面数据为主,时间序列数据极少用到。
二、我国人口研究中多元统计分析技术存在的主要问题
由于多元统计分析技术在我国人口研究中的应用时间比较短,很多人口研究人员对多元统计分析技术也没有经过系统的学习,在实际应用中难免会出现一些问题。
1.人口研究中多元统计分析方法
使用错误统计方法主要由研究目的和研究数据决定。但在实际应用中,由于研究人员难以正确区分各个统计方法,从而出现随意选择的现象。通过查阅用多元统计方法研究人口问题的相关文献我们发现,在进行人口问题研究时使用最多的就是多元线性回归模型。虽然多元线性回归模型具有易于理解和分析简便的特点,但它主要是研究一个目标受多个因素影响时的情形。很多文献没有注意到这个问题,从而错误地使用了该方法。
2.多元统计分析
中缺乏评价和检验评价和检验是多元统计分析的一个重要内� 但在人口研究的实际应用中,很多研究人员只是注重对统计结果的分析,而忽略了模型的检验和评价。对模型的评价主要是指模型对观测数据的拟合程度,每一种多元统计方法都有相应的模型评价方法和指标。对模型的检验主要是指显著性检验,从而判断该模型中各变量之间的关系是否存在。因此,模型评价和检验是多元统计分析不可分割的一部分,读者也只有通过这些内容才能更好地理解人口研究报告中所描述的现象。然而通过统计可以发现,很多有关人口研究的统计报告都缺乏模型评价和检验者方面的内容。
三、结束语
[关键词]社会科学 统计方法 应用问题
社会科学的实证研究在应用统计学时,统计分析是其关键环节,资料性质分析、资料类型的判断、统计方法的选择等各个环节都应把握好,否则,其分析结果将是没有意义的。本文拟通过对社会科学实证研究论文中应用统计分析方法出现的问题,从描述性分析、定量资料的统计分析、定性资料的统计分析、相关与回归分析等方面进行解析。
一、描述性分析问题
在社会科学实证研究中,一般首先要对社会调查数据进行描述性统计分析,以发现其内在的规律性,再选择进一步的分析方法。描述性统计分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、集中趋势分析、离散程度分析、分布形态以及一些基本的统计图形。
描述性统计分析虽然较为简单,但如果对某个事件或某种现象的描述不清楚或存在偏差,那么其后的所有分析都将值得怀疑,而描述的偏差可能会引起公众或学术界对某些社会现象的误解,甚至误导政府决策。
1.均值的误用
均值是用于描述样本集中趋势的最常用指标,但应注意,对于正态或近似正态的对称分布样本,它是较好的指标,一般与离散趋势指标中的标准差一起描述数据资料(即形式);而对于偏态分布的样本,则常用中位数来描述集中趋势,一般与离散趋势指标中的四分位数间距一起描述数据资料(即形式),究其原因是均值容易受到极端值的影响。
对于两个分布完全不同的样本,可能会得到相同的均值,因此均值在某种程度上抹杀了样本内部的差异,而往往这种内部差异正是需要进行深入研究或应当引起人们注意的。为了弥补均值的这种缺陷,一般在报告均值的同时,也应该报告标准差,或用直方图或散点图的形式描述分布,以展示群体内部的差异。
2.绝对数的误用
因为社会调查研究比较容易得到大容量的样本,所以对任何小概率事件,用绝对数报告都会出现较大的数字,单纯对绝对数的强调往往会产生误解。比较合理的方式一般是在报告某事件绝对数的同时,给出该事件的发生率或占研究样本的比例。
3.相对数的误用
相对数常用于描述定性资料的内部构成情况或相对比值或某现象的发生强度,一般有比与率两种形式。虽然比与率的计算形式是相同的,即两个绝对数之商乘以100%,但它们的含义是不同的。率用于反映某种事物或现象发生的强度,而比则用于反映部分与整体或某一部分与另一部分之间的关系。当数据的比较基础相差悬殊,用绝对数表述没有可比性时,就要借助于相对数。
应用相对数也容易出现一些问题,如:百分比与百分率的混用;当分母很小时,只计算百分比或百分率,而没有报告样本量;当比较两个或多个总体率时,没有考虑到各总体对应的内部构成情况是否一致,而直接比较等。
例如在报告流动人口犯罪问题时,给人的印象往往是流动人口犯罪率高于常住人口,其实是忽视了流动人口的年龄和性别构成与常住人口完全不同,且青年男性是犯罪率较高的人群,这样对两个不同群体的比较往往会导致错误的结论。
二、定量资料的统计分析问题
定量资料的统计分析是指所观测的结果变量是定量的,而且希望考察定性的影响因素取不同水平时,定量观测结果的均值之间的差别是否有统计学意义。定量资料的统计分析在统计学应用中占有很大的比重,出现的误用也比较多。
正确选择定量资料统计分析方法的关键有两点:一是正确判断统计研究设计的类型;再是检验定量资料是否满足“独立性、正态性及方差齐性”的前提条件[1]。前者要求使用者对统计研究设计的类型较为熟悉,后者则需要进行预分析,可适当借助于统计分析软件。根据前提条件是否满足来决定用参数假设检验或方差分析,还是用非参数检验方法,进而根据对统计研究设计类型的判断,确定采用具体的统计分析方法。
对定量资料作统计分析时,常犯的错误有:
1.不管统计研究设计类型,盲目套用t检验或单因素方差分析;
2.不验证“独立性、正态性及方差齐性”前提条件,而直接应用参数检验法;
3.将多因素设计定量资料人为拆成多个成组设计定量资料,采用t检验法;
4.将多因素设计定量资料用单因素多水平方差分析解决,或用一元分析替代多元分析等。
三、定性资料的统计分析问题
定性资料的统计分析是指观测结果为定性变量的统计处理问题。定性资料的统计分析在社会科学研究中的应用也是很广泛的,通常根据影响观测结果的原因变量性质分为三种情况:
1.原因变量都为定性变量,此类资料就是通常理解的定性资料。常用的统计分析方法有:检验、秩和检验或Ridit分析、Spearman秩相关分析、线性趋势检验、一致性检验(也称Kappa检验)、加权检验、对数线性模型等。
2.原因变量中既有定性变量,又有定量变量。这类资料的统计分析通常有两种处理方法:一是结合专业知识先将定量的原因变量离散化,使其转化为定性变量,然后采用上面3.1的统计方法处理;二是先对定性的原因变量,采用哑变量技术进行处理,转化为多个二值变量,赋予0或1值,然后采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。
3.原因变量全部为定量变量。这类资料的分析可以直接采用Logistic回归分析方法或多值有序变量Logistic回归分析处理。
定性资料的最常用表达形式是列联表,列联表有多种类型,如横断面设计的四格(或称2x2)列联表、队列研究设计的四格列联表、配对研究设计的四格列联表、双向无序的R×C列联表、单向有序的R×C列联表、高维列联表等,不同类型所用统计方法也不同,所以处理这类资料的关键是分辨出列联表的类型,从而选择相应统计分析方法。
在社会科学研究中,定性资料的统计分析常犯的错误主要就是列联表的误判,从而错误的选用统计方法。
四、相关与回归分析问题
相关分析是研究变量之间的相互关系,常局限于统计描述,较难从数量角度对变量之间的联系进行深入研究;回归分析则是研究变量之间的依赖关系,可实现对自变量进行控制,对因变量进行预测,及对随机变化趋势进行适当修匀。
相关分析可用于对定类、定序、定距及定比等尺度的各类资料进行定量描述,但各类资料的计算公式是不同的,所以应用时,需要判明资料的类型;而回归分析则要根据因变量性质的不同,选用不同的回归分析方法,一般可分为两类:一是因变量为连续型变量,具体的,当为非时间性的连续型变量时,可用线性回归分析、多项式回归分析、非线性回归分析等;当为时间变量时,可用COX半参数回归分析、指数分布回归分析及威布尔回归分析等;当为随时间变化的连续型变量时,则需要利用时间序列分析。二是因变量为离散型变量,需要利用Logistic回归分析、对数线性模型分析及多项Logit模型分析等。
在社会科学研究中,相关与回归分析的应用非常广泛。但应用时也经常出现一些错误:
1.没有结合问题的专业背景和实际意义,就进行相关与回归分析。其结果有时可能是莫名奇妙的,可能出现所谓的虚假相关。
2.对于较简单的线性相关与回归分析,不注意应用条件,盲目套用。一般地,Pearson相关分析要求两变量都是随机变量,且都服从或近似服从正态分布,若不满足条件,应采用其它相关分析法,如Spearman相关分析等。而线性回归分析则要求因变量必须是随机变量,且服从或近似服从正态分布,在回归分析前,先要进行统计检验,证实两变量的显著相关性,再进一步进行回归分析才有意义。
3.只求得相关系数或回归方程,而不进行参数假设检验就下统计分析结论。因为相关系数或回归方程都是由样本数据求得的,是否具有统计学意义,必须通过其相关参数的假设检验来判定。
4.多元回归分析策略的错误。在社会科学实证研究中,对多元回归分析的应用,不少人采取的策略是先用单变量分析,得到有统计学意义的多个变量,再将它们引入回归方程进行多变量分析,用逐步回归法进行筛选,从中选出有统计学意义的变量,这种分析策略是不正确的。因为自变量之间可能存在不同程度的交互作用,在单变量分析中无统计学意义的变量并非在多元回归分析中也没有意义。正确的处理方法应该是先综合分析各种变量之间的作用、实际意义及关系,有些可作为控制变量(如性别、年龄等),将经过初步筛选的所有变量代入回归方程进行分析,再采用逐步回归方法,必要时可多用几种筛选变量的方法,同时要注意自变量间的交互作用,进行综合分析,这样才能得到较为可靠的结果。
参考文献:
[1]王在翔:社会统计理论与实践[M].青岛:中国海洋大学出版社,2008
[2]胡良平等。医学统计学基础与典型错误辨析[M].北京:军事医学科学出版社,2003.148-239
[3]柯文泉:统计方法应用中应注意的几个问题[J].时代经贸,2008,6(96):83-86
[4]徐国祥:统计学[M].上海:上海人民出版社,2007.259-292
关键词 体育锻炼 心理健康 统计学问题 对策
身体锻炼对心理健康的影响研究已成为并将继� 虽然许多研究结果表明体育锻炼能对心理健康起到积极作用,但这些研究结果并不完全令人信服。其中的一个重要原因就是因为许多相关研究在设计阶段和结果分析阶段存在大量的统计学缺陷和错误,进而严重影响了研究结果的可靠性和说服力[1]。为了改变这一局面,为今后的相关研究提供借鉴,本研究旨在收集2000-2011年已发表在16种中文体育核心期刊上的关于体育锻炼与心理健康相关研究论文并进行分析总结,从统计学角度和科研设计角度归纳总结目前该领域研究中存在的主要统计学问题和缺陷并提出相应对策,以期为推动体育锻炼与心理健康相关研究在我国的发展起到一定的借鉴作用。
一、研究对象及内容分析
(一)研究对象
本研究旨在分析及探讨目前我国体育锻炼与心理健康相关研究中存在的统计问题,优秀核心期刊中的学术著作正好能满足调查需求。所以,本研究以北京大学图书馆2008年版《中文核心期刊要目总览》中评定的中文体育类16种期刊为研究对象,从其2000-2011年已出版论文中以体育锻炼和心理健康为检索词在中国知网期刊数据库、万方数据库和维普中文科技期刊数据库三个数据库同时进行检索,剔除重复论文后,共收集到相关研究论文75篇。
(二)内容分析
在2000-2011年已发表在16种中文体育核心期刊中的75篇论文中,问卷调查类研究为34篇,占45.3%;实验性研究20篇,占26.7%;综述20篇,占26.7%;关于问卷和量比信度和效度检验方法的方法学研究1篇。
二、存在的主要问题
(一)研究对象和研究项目存在局限性
通过对75篇文献的研究发现,目前我国开展的关于体育锻炼与心理健康的相关研究中,研究对象基本上是在校学生,其中又以在校大学生为主(占85%以上),而关于其他群体体育锻炼与心理健康的相关研究基本处于缺失状态。研究对象的局限性不利于从不同人群和项目多层次探讨体育锻炼与心理健康的因果关系。
(二)调查问卷及量表的不合理及评价的缺失
通过对研究文献调查问卷及量表的分析发现,我国目前关于体育锻炼与心理健康的研究中采用的问卷和量表绝大部分都是借鉴国外已有的量表进行简单地修正,许多量表并不适合我国的实际情况[2]。同时,在使用这些量表前,很少论文提及了问卷和量表信度及效度的评价[3]。在收集的所有文献中,除去1篇关于问卷调查和量表信度和效度检验方法的方法学论文以及在4篇问卷调查类问卷中进行过问卷的信度和效度检验外,其余论文均未进行或是笼统地解释说信度和效度经过检验,达到可接受水平。
(三)样本含量的随意性
在34篇问卷调查类研究和20篇对照实验研究中,样本含量从十几人到几千人不等,且均未提及样本含量的依据。样本含量选择的随意性必然导致两类错误,一种是样本含量过大,造成人力、物力和时间上的浪费,还容易引入混杂因素,导致研究结果的偏倚;另一种是样本含量过少,样本量过少容易把偶然性或巧合的现象当成必然的规律性现象,导致研究结果的不可重复,研究结果失去意义。因此,运用统计学方法对样本含量进行估计是调查类和实验类研究中不可或缺的步骤之一,必须引起高度重视[4-5]。
(四)对照实验缺乏同质性检验
在20篇对照试验中,除1篇文章采用自身对照研究不需要进行同质性检验外,其余19篇文章中只有1篇文章在试验前进行了同质性检验,有5篇文章在对照实验在结果分析中才进行同质性检验,严重违背了实验设计的基本步骤和原则[6]。在干预实施前,不进行同质性检验,无法说明研究指标在实验组和对照组是否一致,进而导致无法判断结果的差异是由于干预导致还是在干预开始前对照组和实验组本来就存在差别。
(五)统计分析方法的错误运用
在54篇进行了统计分析的论文中,统计分析方法的错误运用主要是因为没有考虑方法的适用条件。其中比较常见的错误主要是以下两个。一个是在对计量资料集中趋势和离散趋势进行描述的指标选择上。另一个问题为选择方差分析还是选择协方差分析资料存在较大分歧。因此,在对研究结果进行分析前,充分考虑资料的类型及统计分析的条件及前提,从统计学角度选择适合的方法对数据进行处理是分析前不可缺少的步骤。
三、结论与建议
(一)结论
16种中文体育类核心期刊中关于体育锻炼与心理健康的相关研究中,对实验设计方法和抽样方法重视不够。在所研究的75篇论文中,实验设计方法和抽样方法“无”和“不明确”的比例很高且正确率偏低,影响论文的质量和科学价值。同时,在这些文章中,相当比例的文章存在随意抽样,样本含量存在随意性;缺乏对调查问卷和量表的信度和效度。评价研究结果的统计分析也存在方法运用不当等问题。因此,加强对该领域研究中方法学的研究和探讨,分析目前存在的问题和缺陷,提高体育科研人员的统计学水平是今后研究中需要注意的问题。
(二)建议
1.加强调查问卷和量表的改良
我国目前关于体育锻炼与心理健康研究中的问卷和量表存在大量缺陷和不规范,修订工作刻不容缓。在以后的研究中,如何充分借鉴国外心理健康研究工具优点的基础上,结合已有的研究成果和我国的实际情况, 摸索出一套符合我国关于体育锻炼与心理健康的测量工具是今后该领域专家和学者需要解决的问题[7-8]。
2.在研究设计阶段充分考虑统计学方法和原则
进行体育科研设计时,应该根据研究目的确定合适的实验设计方案、抽样方法和统计分析方法,并且应该在文章中明确地阐述。实验设计方案决定了抽样方法,抽样方法又是确定统计方法时必须考虑的前提。抽样方法不同,统计指标均数、率及其标准误的计算方法就不同;实验设计方法不同,统计方法也不同。
3.加强复杂实验设计和多元统计方法的运用
目前我国在体育锻炼与心理健康的相关研究中,所采用的研究方法多为观察性研究设计和单因素研究设计,这种设计方案和统计分析方法降低了研究的水平。今后,可以采用多因素研究设计对体育锻炼和心理健康加以定量研究;在统计分析时,也可采用协方差结构模型和多元线性回顾和多元逐步回顾等统计方法进行统计分析,使这一领域的研究更加深入。
4.加强学科的交叉和融合
体育本身是一门综合性学科,体育锻炼与心理健康的研究不仅包括了体育学,同时也涉及运动医学、解剖学、教育学、心理学和统计学的相关知识和内容[9]。任何一个体育科研工作者不可能是所有科目的专家,因此,在研究过程中应该加强多学科合作,倡导学科间的关联性和不同研究工作者的相互协作性,达到取长补短,相互优化的目的。在问卷调查法的运用中,从问卷的设计到论文的撰写,都应根据自己所研究的题目向各行的专家请教,认真听取他们的意见和建议;论文撰写的过程中,研究者也要做到不同学科间的交流。
参考文献:
[1]陈及治。体育统计与体育科研方法[J].天津体育学院学报。2001.16(3):42-46.
[2]杨威。我国体育社会学研究中问卷调查方法的回顾与思考[J].体育学刊。2001(3):27-31.
[3]王海军,徐克静。问卷调查中的信度与效度问题[J].中国健康教育。1994(11):21- 23.
[4]李沛良。社会研究的统计分析[M].武汉:湖北人民出版社。1987.
[5] Douglas等,汪仁官等译。实验设计与分析[M].北京:中国统计出版社。1998.
[6]丛湖平。体育统计[M].北京:高等教育出版社。1998:1-7.
[7]殷恒婵,付雪林。对体育锻炼心理健康效应研究的分析与展望[J].体育科学。2004(6):37-39.
[8]季浏,李林,汪晓赞。身体锻炼对心理健康的影响[J].山东体育学院院报。1998(1):37-42.