期刊大全 杂志订阅 SCI期刊 投稿指导 期刊服务 文秘服务 出版社 登录/注册 购物车(0)

首页 > 精品范文 > 统计学变量的分类

统计学变量的分类精品(七篇)

时间:2023-08-10 16:50:29

序论:写作是一种深度的自我表达。它要求我们深入探索自己的思想和情感,挖掘那些隐藏在内心深处的真相,好投稿为您带来了七篇统计学变量的分类范文,愿它们成为您写作过程中的灵感催化剂,助力您的创作。

统计学变量的分类

篇(1)

【摘要】 目的 探讨累积比数logit模型在有序分类资料中的正确应用。方法 利用在陕西某地开展的一项队列研究数据,分别采用累积比数logit模型和偏比例优势模型进行分析,对二者的结果进行比较。结果 在资料不符合比例优势假定的情况下,直接采用累积比数logit模型不一定合适。结论 累积比数logit模型的应用有一定的条件限制,当不符合其应用条件时,最好采用其他相应方法。

【关键词】 累积比数logit模型; 比例优势假定; 偏比例优势模型

Abstract: Objective To investigate the correct application of cumulative odds logit model on the ordinal data. Methods The cumulative odds logit model and partial proportional odds model were used for the data from a cohort study in Shaanxi Province, and the results were compared. Results The cumulative odds logit model might not be appropriate when the proportional odds assumption was violated. Conclusion The application of cumulative odds logit model is dependent on certain conditions. It is advisable to adopt other methods when the condition of cumulative odds logit model were violated.

Key words: cumulative odds logit model; proportional odds assumption; partial proportional odds model

累积比数logit模型是二分类logit模型的扩展[1-2],主要用于处理反应变量为有序分类变量的资料。该模型对资料要求不严,解释变量既可以是连续型变量,也可以是无序分类变量或有序分类变量。Amstrong等[3]经模拟实验发现,对于多分类有序反应资料,如果采用一般的二分类logit模型而不是累积比数logit模型,则只能获得50%~70%的检验效能。说明在处理有序分类数据方面,累积比数logit模型要优于二分类logit模型。但目前对该模型的使用条件、拟合优度等内容极少有探讨。最近几年已有不少文章对二分类logit模型的正确应用进行了探讨[4-8],而对累积比数logit模型的研究却不多见。本文通过实例对累积比数logit模型的使用条件和拟合优度评价进行了探讨,为其正确应用提供借鉴。

1 材料和方法

1. 1 资料来源 资料来自于陕西某地开展的胃黏膜病变与幽门螺杆菌关系的队列研究。为探讨幽门螺杆菌与胃黏膜病变进展的关系,对400例浅表性胃炎患者检测幽门螺杆菌感染状态,将其分为感染阳性和阴性2组,同时调查了2组患者的吸烟、饮酒情况,并对所有患者进行随访。

1.2 胃黏膜病理诊断 用胃内镜观察胃黏膜病变,并在胃体大小弯、胃角、胃窦大小弯、前后壁各取胃黏膜活检组织1块。病理切片按照全国胃、十二指肠活检、病理诊断标准进行诊断。每个受检对象以最严重病变为第一诊断。病变严重程度由轻到重依次为浅表性胃炎(superficial gastritis, SG)、慢性萎缩性胃炎(chronic atrophic gastritis, CAG)、肠上皮化生(intestinal metaplasia, IM)和异型增生(dysplasia, DYS)。

1.3 统计学处理 本研究中的反应变量为病变的不同严重程度,为有序分类资料。分析方法分别采用累积比数logit模型和偏比例优势模型进行拟合。数据分析采用SAS 8.1统计软件。P

2 结 果

2.1 累积比数logit模型分析 病例随访5年后,共失访26例,剩余的374例中,135例仍为正常或SG,139例进展成为CAG,59例进展为IM,41例进展为DYS。多因素分析结果显示,校正性别、年龄、吸烟、饮酒等因素后,幽门螺杆菌对胃黏膜进展的影响无统计学意义(χ2=2.7439,P=0.0976)。见表1。

对该资料的比例优势假定条件进行检验,结果发现该资料不满足比例优势假定条件(χ2=38.85,P=0.0004),说明该资料采用累积比数logit模型分析可能并不合适。对模型的拟合优度进行分析,结果显示,Deviance值和Pearson χ2值对应的P值均小于0.05,说明模型拟合欠佳。表1 累积比数logit模型的参数估计

2.2 偏比例优势模型分析 偏比例优势模型也是基于累积logit的一种方法,但是它放宽了比例优势假定条件[9-11]。采用偏比例优势模型分析结果显示(表2),幽门螺杆菌对胃黏膜进展的影响有统计学意义(P=0.0113),这一结果与目前临床和流行病学研究结果是一致的。而且从参数估计的标准误来看,表2中的标准误均小于表1中的标准误。表2 偏比例优势模型的参数估计

3 讨 论

本次研究分别采用累积比数logit模型和偏比例优势模型对同一组数据进行分析,结果发现,在数据违反比例优势假定条件的情况下,2种模型拟合结果差别较大。累积比数logit模型结果显示幽门螺杆菌对胃黏膜病变的影响无统计学意义,而偏比例优势模型则表明幽门螺杆菌的影响有统计学意义。从统计学角度和实际角度综合考虑,偏比例优势模型的误差更小,且结果更为符合实际,提示本研究数据采用累积比数logit模型不合理。

实际中应用累积比数logit模型时,主要注意的使用条件就是比例优势假定条件,即自变量的回归系数应与分割点k无关[12]。换句话说,无论从哪一点分类,对所有的累积logit,变量χk都有一个相同的βk估计。对于一个自变量χk而言,不同累积比数发生比的回归线相互平行,只是截距参数有所差别。以前有研究认为,累积比数logit模型对这一条件并不敏感,但本次研究发现,当这一基本假设条件不满足时,结果的检验效率会降低,容易产生假阴性错误。

对于累积比数logit模型的拟合效果,可通过Pearson χ2和Deviance值来判断。Pearson χ2通过比较模型预测的和观测的事件发生和不发生的频数检验模型成立的假设,其自由度为自变量不同水平的组合数目与参数数目之差,χ2统计量小就意味着预测值与观测值之间没有显著性差别,可认为模型较好地拟合了数据。Deviance通常称为偏差,它是通过似然函数来测量所设模型与饱和模型之间的差异程度。当Deviance值较小时,可认为所设模型与饱和模型之间的差异小,即所设模型拟合较好。这2个指标值在多数情况下是一致的,如果存在不一致,一般认为,当用最大似然值拟合logit模型时,Deviance值比Pearson χ2值更适用于测量拟合优度[13]。需注意的是,当模型中含有连续变量时,Pearson χ2和Deviance指标将不再近似于χ2分布,从而也不再适用于拟合优度评价。Bender等[14]建议,如果累积比数logit模型含有连续变量时,最好采用单独的二分类logit模型利用Homser-Lemeshow指标进行评价。Pulksteins等[15]则提出了一种修正Pearson χ2和Deviance值,用于含连续变量的累积比数logit模型的拟合优度评价等。

总之,累积比数logit模型的应用不仅仅是参数求解,而是包含了一系列过程,如变量正确赋值、变量的初步描述、图示检查、变量选择、参数求解、拟合优度评价、结果的合理解释等。它需要对专业和统计学知识的全面了解,也需要一个实事求是的态度。只有准确掌握应用条件,恰当地对模型进行评价,并结合专业知识进行合理的解释,才能得出可靠的结论。

参考文献

[1] Bender R,Gruven U.Ordinal logistic regression in medical research[J].J R Coll Physic Lond,1997,31(5):546-551.

[2] McCullagh P.Regression models for ordinal data [J].J R Stat Soc(B),1980,42(2):109-142.

[3] Amstrong BG,Sloan M.Ordinal Regression models for epidemiologic data[J].Am J Epidemiol,1989,129(1):191-204.

[4] 冯国双,陈景武,周春莲.logistic回归应用中容易忽视的几个问题[J].中华流行病学杂志,2004:25(6):544-545

[5] 赵宇东,刘嵘,刘延龄,等.多元logistic回归的共线性分析[J].中国卫生统计,2001,17(5):259-261.

[6] 罗登发,余松林.条件logistic回归模型的残差分析和影响诊断[J].中国卫生统计,1997:14(1):13-15.

[7] 魏朝晖.logistic回归诊断[J].中国卫生统计,2001, 18(2):112-113.

[8] 赵清波,徐勇勇,夏结来.logistic回归中高杠杆点的检测[J].中国卫生统计,1997,14(2):17-20.

[9] Bender R,Benner A.Calculating ordinal regression models in SAS and S-Plus[J]. Biom J,2000,42(6):677-699.

[10] Peterson B, Harrell F.Partial proportional ordinal model for ordinal response variables[J].Appl Statist,1990,39(2):205-217.

[11] Lall R,Campbell MJ,Walters SJ,et al.A review of ordinal regression models applied to health-related quality of life assessments[J].Stat Methods Med Res,2002,11(1):49-67.

[12] Fahrmeir L, Tutz G.Multivariate statistical modeling based on generalized linear models [M].2nd ed. Berlin:Springer-Verlag,1998:75-79.

[13] 王济川, 郭志刚.Logistic回归模型——方法与应用[M].北京:高等教育出版社,2001:58-65.

篇(2)

【关键词】高龄老年人;生命质量评价;总体健康状况自评

【中图分类号】R195 【文献标识码】A 【文章编号】1004-7484(2012)13-0449-02

1947 年世界卫生组织给健康下的定义为: “健康不仅仅是没有疾病和病痛, 而且还包括身体、心理和社会方面的完好状态[1] ”。1990 年WHO提出了“健康老龄化”,1993 年第15 届国际老年学会提出了“科学为健康老龄化服务”[2]的人口老龄化应对目标。国内外对老年人生命质量进行了大量研究,取得了较多的研究成果。本研究以SF-36量表为测量工具,在山东省选择70岁及以上老年人进行生命质量状况的调查,以了解其生命质量的总体状况及影响因素,为提高老年人生活质量,促进健康老龄化的制度安排提供参考。

1 对象与方法

1.1 研究对象 本次调查的对象是山东省居家养老和机构养老的70岁及以上老年人。采用分层方法把山东省的老年人划分为沿海、中部、西部3种地区类型,每个类型随机抽取3个地级市,在被抽取的地级市中以市(县)为单位进行随机抽样。

1.2 调查方法 调查问卷包括一般情况表(养老方式、性别、年龄、受教育程度、婚姻状况、过去从事的职业、目前的收入来源、生活状况等)和健康状况调查问卷(SF-36),分为居家养老卷与机构养老卷,调查者是通过专门培训的研究生及本科生采用统一导语入户对老年人进行调查,能独立填写问卷的由其独立填写,对于没有阅读能力或不能填写问卷的老年人,由调查人员朗读问卷内容,请其作答,由调查人员代为填写问卷。共发放问卷590份,回收有效问卷558份,回收率94.6%。

1.3 统计学方法 应用Epidata3.1数据库双机录入,SPSS16.0软件包进行数据处理,对一般人口学特征等进行统计描述;单因素分析应用?2检验,多因素分析应用有序分类变量的Logistic回归分析。

2 结果与分析

2.1 人口社会学特征的描述分析

居家养老老人324人,机构养老老人234人,共558人,其中男288人(51.6%),女270人(48.4%)。年龄70~79岁393人(70.4%),80岁及以上的高龄老人165人(29.6%)。婚姻状况:有配偶234人(41.9%),丧偶306人(54.8%),离异4人(0.8%),未婚14人(2.5%)。文化程度:未受过教育269人(48.2%),小学174人(31.2),初中48人(8.6%),高中、中专及技校36人(6.5%),大专及以上31人(5.5%)。居家养老老人和机构养老老人年龄、性别,受教育程度分布差异无统计学意义,过去从事的职业、婚姻状况、生活状况差异有统计学意义(P

2.2总体健康状况自评及相关因素差异性分析

本研究将老年人的总体健康状况分为5个等级,分别是“1=差、2=一般、3=好、4=很好、5=非常好”。总体健康状况自评的居家养老老人与机构养老老人差异无统计学意义(P>0.05)。“性别”在老年人总体健康状况之间的差异性无统计学意义(p>0.05),可以认为老年人总体健康状况在性别分布上无差异。“年龄”、“受教育程度”、“婚姻状况”与老年人总体健康状况之间的差异性有统计学意义(P

2.3总体健康状况自评影响因素的Logistic回归结果及分析

单因素分析仅对总体健康状况自评的差异性进行检验,而没有对影响因素进行归因分析,因此需要进一步做多因素分析。以总体健康状况自评为因变量,运用SPSS16.0统计软件中的有序分类变量回归方法进行分析,纳入模型中的自变量有年龄、性别、受教育程度、目前婚姻状况、职业、养老方式以及生活状况7个自变量。模型检验及回归结果如下。

2.3.1 模型检验

表2为对模型中是否所有自变量偏回归系数全为0进行似然比检验,结果P

2.3.2 方程中的有效变量及参数检验

在纳入模型的7个变量中有年龄、养老方式及生活状况3个自变量对总体健康状况自评的影响具有统计学意义(P

3 讨论

3.1 年龄与总体健康状况评价的程度呈负相关关系。“年龄”因素在老年人对生命质量总体满意度评价的回归分析中具有统计学意义。可以认为老人的年龄越大,对生命质量的总体满意度越低,本结论与景睿、刘晓东等[3]的研究结果一致。原因在于,年龄越高,身体机能越低,日常活动能力下降。同时对死亡的恐惧加大,故自我健康的评价较低。可见,年龄是健康状况的风险因素,不仅表现在日常活动能力,而且投射出心理状况的变化。

3.2 经济条件对总体健康状况评价具有积极作用。“生活状况与当地一般家庭的比较”对70岁及以上老人总体满意度影响因素的回归分析中,生活状况“很富裕”“比较富裕”“一般”的老年人,对生命质量的总体满意度更高。原因可能出于以下几个方面:一是生活状况水平高,老年人就可能有更大的选择空间和余地,不为经济所累,过自己想要的生活,生活比较自由[4]。二是生活状况较好的老年人有更好的条件享受医疗保健,更多地参加社交活动,在心理上能够获得更多的满足感,因此对生命质量的总体满意度会较高。

3.3 居家养老老人的健康自评好于机构养老老人。 “养老方式” 因素在老人对生命质量总体满意度评价的的回归分析中,居家养老模式下的老人对自我生命质量评价的总体满意度高于机构养老老人。首先,老年人观念相对保守,接受新事物的能力较弱。居家养老是我国传统的养老方式,在这种环境中老年人往往具有更高的归宿感。其次,老年人年龄大,易产生孤独感与陌生感。居家养老模式能使老年人更容易获得子女以及邻里生活照料、精神慰藉的家庭和社会支持,从而减少孤独感与陌生感[5],因此对生命质量的总体满意度高。

3.4 受教育程度与总体健康状况自评之间的差异性有待于进一步研究。在描述性分析的差异性检验中,受教育程度在总体健康状况自评的差异有统计学意义。受教育程度较高的老年人对生命质量的总体满意度高于教育程度较低的老年人。然而在“受教育程度”对总体满意度自评的影响因素的回归结果显示无统计学意义(见表3),可能的原因在于混杂因素的影响,此问题有待于进一步研究。

参考文献

[1] Velarde-Jurado E et al.Salud Publica Mex,2002,44:349-361.

[2] 李秀燕, 郭继志. 老年人生命质量评价的现状及展望[J]. 国外医学・社会医学分册, 2003,20(4):154-158.

[3] 景睿,刘晓冬等.山东省农村老年人生命质量评价及影响因素分析[J].中国农村卫生事业管理,2008-8 ,8(28)

[4] 林江,杨继峰,刘强. 健康状态认知理论的概述[R]. 广西中医学院院报 2010,13(1):74-75

[5] 王生锋,齐玉梅.中等城市社区人群生命质量评价及影响因素调查[J].山西医药杂志,2008-10,10(37).

作者简介:

(1973.03-)硕士研究生,潍坊医学院讲师,研究方向:老年社会学

篇(3)

关键词 地统计学;生态学;尺度;时空特征;应用

中图分类号 S153 文献标识码 A 文章编号 1007-5739(2014)13-0245-01

Application of Geostatistics in Ecology

LI Xiu-mei 1 ZHOU Shi-xue 2 LUO Sheng-jun 2 LI Chang-zhou 2 LIU Li-ping 2 *

(1 Forestry Ecology Department,Hubei Ecology Vocational College,Wuhan Hubei 430200; 2 Macheng Forestry Bureau)

Abstract Natural phenomena has spatial variability and autocorrelation characteristics.As the theory and methods in researching space distribution,goestatistics became an effective method for quantitative analysis of spatial characteristics,and gradually introduced to ecology.Based on the basic theory and method,the paper introduced the application of geostatistics in ecology.

Key words geostatistics;ecology;scale;temporal and spatial characteristics;application

地统计学起源于20世纪60年代,是以区域化变量为理论基础,以半变异函数和插值分析为主要工具的一种地质统计学方法;是通过分析空间数据探索空间过程的信息分析技术[1]。与传统生态学方法相比,地统计学变异函数中的变程(a)包含了距离和方向2种含义,即量化的空间尺度信息,比依靠经验直接确定空间取样尺度更合理;比通过尺度推绎方式间接获得目标现象的特征更精确;修正了传统景观格局研究方法中小尺度生态学现象在区域内均质性的不合理假设。

由于该理论充分考虑了样点的位置、方向和彼此间距离等空间结构信息,为实现参数的离散化与空间化提供了一种有效工具,可以定量化区域变量的空间特征,进而对未知样点进行无偏最优估值,以直接反映自然现象的随机性和结构性,广泛用于地理学、环境科学、土壤学等诸多研究领域[2-3]。揭示了经典统计方法难以发现的规律,有利于融合格局、尺度、过程关系,完善生态学理论与方法。

1 地统计学的基本理论与方法

1.1 区域化变量理论

地统计学处理的对象为区域化变量,区域化变量的两大特点是随机性和结构性。基于此,地统计学引入随机函数及其概率分布模型为理论基础,对区域化变量加以研究[4]。

1.2 变异函数

变异函数是地统计学方法的基础,根据已知样本点来确定变量在空间上的变化规律,推算未知点的属性。其优点在于根据已知样本点计算某未知点的属性值时,考虑了不同距离、不同方向空间点位间的相关性,使估计值更精确。

1.3 空间插值

与传统的插值方法不同,地统计学考虑样点的方向、位置和彼此间的距离,可以研究既有一定随机性又有一定结构性的各种变量的空间分布规律[5]。克里格(Kriging)插值是一种最优、无偏的估值方法,在生态学中的应用最广泛,可以给出每一估计样点的不确定性(即产生误差的几率和大小),并利用多种附属信息填补采样不足的缺陷。这种在误差允许范围内的空间差值既节省工作量,又弥补因资料不足带来的困难[6]。

1.4 空间模拟

空间模拟方法是当今地统计领域中由已知推断未知的最活跃的一种方法。由于Kriging方法具有平滑作用,不适宜用于获取变量极值的空间分布,例如通过重金属含量的极值来寻找湖泊水体污染源;而空间模拟方法即能模拟变量的空间变化趋势又能保留变量的极值;此外,空间模拟通过多种实现(realization)系统的表现,进行各种情况下的模拟,具有较好的统计效用[1]。

2 地统计学在生态学中的应用

地统计学检验、模拟和估计空间特征的作用,对认识不同尺度生态学功能与过程具有重要意义[7]。20世纪80年代初,引起生态学者关注,广泛应用于描述生态因子的空间自相关性、绘制生态因子分布图以及设计抽样方案,分析自然因子普遍存在的空间相关程度、距离和方向等。利用其对可信程度和误差的评价,解决了定量地测度空间尺度和更精确地绘制自然因子的空间分布[8]。生态现象所涉及的任何属性,如植被类型、生物量、土壤化学元素含量、污染物浓度等,均可以作为地统计模型的变量。

地统计学方法可以用于研究离散现象的空间特征(群落、种群的格局分布),在处理具有空间连续性特征的变量(土壤性质)更占优势。20世纪80年代初,区域化变量理论和地统计方法成为量化土壤物理化参数空间变异的有效方法[9]。尤其是地统计学方法中半方差图和Kriging插值法适合于土壤特性的空间预测[8]。目前广泛用于土壤养分[10]、水分[11]等的分布、污染物扩散、土壤肥力质量评价[12]、土壤分类制图、试验设计和采样方法探讨等[13]。

地统计学在生态学的应用主要集中在生态系统尺度以下,弥补了景观生态学在处理物种、种群和群落空间信息的不足。区域化随机变量耦合了地形(海拔、坡度、坡向)、土壤、水分等环境因子,是分析种群、群落的空间异质性与环境因子关系的有力工具[14];既是对生态系统尺度空间异质性和格局问题的研究,也从生态系统的组成成分入手,同样是对生态系统功能过程的细化[7]。

3 结语

地统计学无论是空间异质性分析法还是空间模拟差值法,通常都是对因子的静态研究,对处理时间变化问题存在缺陷。有学者尝试建立基于地统计学原理的时间动态模型[15]。鉴于地统计学方法侧重于空间分析,而传统统计学方法注重于时序分析,二者相结合,将时间因子融入空间变异中是今后需要解决的问题[6]。非线性多维时间序列分析预测模型(GS-SVR)就是半变异函数基础上,结合SVR和新的定阶方法发展的一种新的多维时间序列最优阶数判断法[16]。

地统计学与其他格局分析方法相结合,将有助于解决现象的时空发展过程与机理问题。近期“3S”技术与地统计学相结合,通过地理数据确定样点之间的距离,通过属性数据计算出变量之间的差异,二者结合得到地统计学所需要的步长和半方差函数关系,强化了大尺度空间信息的分析[10,17]。但目前地统计学应用于景观尺度的研究较少,并且尚未形成较成熟的定量化研究方法。

4 参考文献

[1] 王劲峰,武继磊,孙英君,等.空间信息分析技术[J].地理研究,2005,24(3):464-472.

[2] 唐涛,蔡庆华,潘文斌.地统计学在淡水生态学中的应用[J].湖泊科学,2000,12(3):280-288.

[3] 张坤,洪伟,吴承祯,等.基于地统计学和GIS的福建省降雨侵蚀力空间格局[J].山地学报,2009,27(5):538-540.

[4] 孙英君,王劲峰,柏延臣.地统计学方法进展研究[J].地球科学进展,2004,19(2):268-274.

[5] 王景雷,孙景生,张寄阳,等.基于GIS和地统计学的作物需水量等值线图[J].农业工程学报,2004,20(5):51-54.

[6] 王正军,李典谟,商晗武,等.地质统计学理论与方法及其在昆虫生态学中的应用[J].昆虫知识,2002,39(6):405-411.

[7] 王政,王庆成,李哈滨.红松老龄林主要树种的空间异质性特征与比较的定量研究[J].植物生态学报,2000,24(6):718-723.

[8] 葛剑平,郭海燕,仲莉娜.地统计学在生态学中的应用(Ⅰ)―基本理论和方法[J].东北林业大学学报,1995,23(2):88-94.

[9] 廖桂堂,李廷轩,王永东,等.基于GIS和地统计学的低山茶园土壤肥力质量评价[J].生态学报,2007,27(5):1978-1986.

[10] 祝锦霞,许红卫,王珂,等.基于GIS和地统计学的低丘红壤地区三种土壤性质空间变异性研究[J].土壤,2008,40(6):960-965.

[11] 张继光,陈洪松,苏以荣.喀斯特山区洼地表层土壤水分的时空变异[J].生态学报,2008,28(12):6334-6343.

[12] 王晓春,韩士杰,邹春静,等.长白山岳桦种群格局的地统计学分析[J].应用生态学报,2002(7):781-784.

[13] 李艳,史舟,徐建明,等.地统计学在土壤科学中的应用及展望[J].水土保持学报,2003,17(1):178-183.

[14] 尚占环,姚爱兴,龙瑞军.干旱地区山地荒漠草原阴坡植物群落空间异质性[J].生态学报,2005,25(2):312-318.

[15] 夏敏,赵小敏,张佳宝,等.基于GIS和地统计学的土壤养分时空变异分析[J].江西农业大学学报,2007,29(2):312-317.

篇(4)

关键词:冠心病心绞痛 蒙医证型 诊断标准 临床研究

心血管疾病已成为影响人类健康的头号杀手,其中绝大多数是由冠状动脉粥样硬化所致。随着人们生活水平的迅速提高,本病近年来呈增长趋势。冠心病心绞痛属于蒙医学“心刺痛”范畴,目前对冠心病心绞痛蒙医证型的诊断尚未完全一致。本研究收集410例包含蒙医信息的冠心病心绞痛患者的临床资料进行统计学分析,并结合专家意见,初步建立了冠心病心绞痛蒙医证型的诊断标准。

一、临床资料

1、病例入选标准

冠心病心绞痛入选标准依据这几年中西医结合冠心病心绞痛会议制定的诊断标准。

2、病例来源

本研究对象为2009年10月-2011年6月期间在本所蒙医心病科、中医心病科及CCU住院诊治的部分患者。

二、研究方法

1、制定病例观察表

通过回顾文献,确定本研究的病例入选标准和观察指标(包括西医和蒙医内容),并据此制定统一的病例观察表。病例观察表包括与冠心病心绞痛患者蒙医诊断相关信息的指标。

2、总体方法

按照西医冠心病心绞痛诊断标准确定入选病例并进行临床观察,填写病例观察表,请蒙西医结合专家对每份观察表信息进行辨证并做出相应的证型诊断;根据证型分组,进行统计学分析,筛选对证型诊断有意义的指标;再请蒙西医结合专家对指标进行讨论,最后制定冠心病心绞痛蒙医证型的诊断标准。

3、观察项目及方法

按照入选标准入选冠心病心绞痛病例,应用统一的病例观察表前瞻性地收集临床资料。主要观察指标包括:性别、年龄、住院转归、冠心病心绞痛发病诱因、既往健康状况、发生冠心病心绞痛的持续时间及发作次数、住院天数,入组72 h内每12 h及心绞痛发作时的心电图、心肌酶[肌酸激酶同工酶(CK-MB)、肌红蛋白(Mb)、肌钙蛋白(cTnT)]、血常规、血生化及血脂[总胆固醇(TC)、三酰甘油(TG)、高密度脂蛋白胆固醇(HDL-C)、低密度脂蛋白胆固醇(LDL-C)]。记录72 h内各指标的值。蒙医指标包括症状、舌象、脉象、体态、根源及因素、疼痛、累及部位等。研究终点为患者在住院期间死亡或放弃治疗。

4、统计学分析

所有观察资料应用SPSS13.0统计软件进行统计分析。对计量资料进行两独立样本t检验,结果以x±s表示;对分类变量资料采用卡方检验。

5、质控措施

采取参研人员培训;研究过程中抽查一定数量(观察病例总例数的10%)病例观察表与原始住院病历进行核对,复印一定数量(观察病例总例数的5%)的原始病历予以存档等方法控制研究质量。

6、数据分析方法

进行统计分析后,找出各证型中对证型诊断有意义的指标。请蒙西医结合专家进行讨论,确定诊断指标。

三、结果

冠心病心绞痛蒙医证型分布经专家对部分包含蒙医信息的冠心病心绞痛患者资料进行分析。

1、粘邪型的指标筛选

分析比较粘邪型和非粘邪型的计量资料及两证型间的分类变量资料,结果见表1、表2。表1 粘邪型与非粘邪型血脂比较(略) 表2 粘邪型与非粘邪型分类变量资料统计结果(略)注:症状:1=无,2=有;持续时间:1≥5 min,2≥10 min,3≥15 min,4≥30 min;郝衣希拉体态:1=无,2=有;疼痛程度:1=轻度,2=中度,3=重度; CK-MB、Mb、cTnT:1=正常,2=升高。

2、楚斯型的指标筛选

分析比较楚斯型和非楚斯型的计量资料及两证型间的分类变量指标,结果见表3、表4。表3 楚斯型与非楚斯型血脂比较(略)表4 楚斯型与非楚斯型分类变量资料统计结果(略)注:症状:1=无,2=有;持续时间:1≥5 min,2≥10 min,3≥15 min,4≥30 min;CK-MB、Mb、cTnT:1=正常,2=升高;单纯T波改变:1=正常, 2=单纯T波改变。

3、胃痧型的指标筛选

分析比较胃痧型组和非胃痧型组的计量资料及两证型间的分类变量资料,结果见表5、表6。表5 胃痧型与非胃痧型分类变量资料统计结果(略)注:症状:1=无,2=有;CK-MB、Mb、cTnT:1=正常,2=升高;心电图下壁ST-T改变:1=无,2=有;体态:1=巴达干赫依,2=非巴达干赫依表6 胃痧型与非胃痧型血脂比较(略)。

篇(5)

关键词:独立性检验;假设检验;临界值

中图分类号:G632 文献标识码:A 文章编号:1002-7661(2012)12-178-02

本文将就以下几个问题展开阐述:

一、独立性检验的形成

独立性检验的基本过程是根据客观实践情况和经验,提出原假设,选好统计量,进行抽样、试验、计算、检验,进行判断.也就是说,整个过程贯穿着通过实践提出假设理论,再通过实践进行检验.假设的过程其实就是类似与数学证明中的反证法,其基本步骤如下:

假设: :两分类变量没有关系,用A、B表示两个分类变量,若 成立 事件A与事件B独立 .这单纯是从概率的角度衡量两个分类变量的是否有关.我们需要更进一步对相关程度进行检验,就是在假设 下,如果出现一个与 相矛盾的小概率事件,就可以推断 不成立,且该推断犯错误的概率不超过这个小概率.

二、独立性检验的基本思想

在新课程标准数学2-3第三章第二节对独立性检验进行了明确的阐述,课本首先通过对分类变量进行定义,分类变量也称属性变量或定性变量,它们的不同取值仅表示个体所属的类别,其取值是离散的.如性别变量,只能取男、女两个值,商品的等级变量只取一级、二级……,是否吸烟,,国籍等等都是分类变量.分类变量的均值和方差没有实际意义,所以不做研究.接着定义列联表:一般为两个或两个以上分类变量的汇总统计表.在我们的教材中仅限于两个分类变量的列联表,并且每个分类变量只取两个值,这样的列联表称为2×2列联表,如下:

总计

c

总计

在假设 成立的条件下,A表示 ,B表示 ,可以通过求分类变量 占总数与分类变量 占的总数的概率(用频率估计概率), 恰好为事件AB发生的频数; 和 恰好分别为事件A和B发生的频数.由于我们可以利用频率估计概率,所以在 成立的条件下应该有:

, ,可得:

.

即: .

因此, 越小,说明常上网与不及格之间的关系越弱,否则,关系越强.从这个角度这能说明两个变量间关系的强弱,而不能判断它们具体有多大程度上有关,在此基础上为了使不同样本的数据有一个统一而又合理的评判标准,统计学家们经过研究后构造了一个随机变量(卡方) = ,并且统计学家们通过实践还得到了如下的卡方临界值表:

P(K2≥k0) 0.50 0.40 0.25 0.15 0.10

k0 0.455 0.708 1.323 2.072 2.706

P(K2≥k0) 0.05 0.025 0.010 0.005 0.001

k0 3.841 5.024 6.635 7.879 10.828

在表格中的数字与上述式子能够说明一个什么问题呢?上面的表格中的第一行是作为检验的犯错的上界(上界也是我们要找的

那个小概率),下面的 是取值的临界值,接下来我们就从一个具体实例中做以分析:

例 1为了考察高中生的性别与是否喜欢数学课程之间的关系,在我校学生中随机抽取300名学生,得到如下列联表:

喜欢数学课程 不喜欢数学课程 总计

男 37 85 122

女 35 143 178

总计 72 228 300

由表中数据计算 的观测值.能够以95%的把握认为高中生的性别与是否喜欢数学课程之间有关系吗?

解:可以有95%以上的把握认为“性别与喜欢数学课程之间有关系”.

= 4.514

因此应该断定“性别与喜欢数学课程之间有关系”成立,并且这种判断结果出错的可能性约为5%,所以,约有95%的把握认为“性别与喜欢数学课程之间有关系”。

这种利用随机变量 来确定是否能以一定的把握认为“两个分类变量之间有关系”的方法,称为两个分类变量的独立性检验。

在上述题目做判断两分类变量是否有关时出现了“断定”一词,“断定”一词在独立性检验中的含义是指检验判断,“断定为A,B有关系”就是检验判断为A,B有关系,也就是拒绝A,B无关系,即拒绝原假设 (接受假设 的对立面)。“约有95%的把握”中“把握”一词在独立性检验中的含义是指不犯错误的可信度,“有95%的把握”就是有95%可信度(可能性)。换而言之,应该是在原假设 成立的条件下,检验判断接受原假设 犯错误的概率不超过5%,而不犯错误的概率超过95%。换句话说,就是在原假设 成立的条件下,不犯错误接受对立假设 错误的概率超过95%。对与求出的 的观测值 越大说明可信度越高,犯错误的概率就越小

三、独立性检验的做题步骤

通过以上的分析我们可以知道对于独立性检验问题如何去分析,接下来我们就要从实际操作中研究怎么去处理这部分问题。首先我们知道从2×2列联表的角度来说,我们对列联表的中概率的分析可以在直观上看出它们的概率关系,而这种直观判断不足之处在于不能给出推断“两个分类变量有关系”犯错概率,但是独立性检验就可以弥补这个不足.即首先直观上判断两分类变量是否有关系,然后独立性检验主要从是否有关和有多大的把握认为它们有关这两个方面来考查,这样以来就可以比较清晰的看出变量关系以及相关程度。那么这时候就需要借助随机变量 来求值,进而判断,即要推断“X与Y有关系”,可以通过频率估计概率进行直观判断,再按下面的步骤进行:

1.根据实际需要确定容许推断“两个分类变量有关系”犯错概率的上界 ,然后查表确定临界值 ;

2.根据2×2列联表与公式计算 的观测值K;

3.如果 ,就可以推断“两个分类变量有关系”,这种推断犯错误的概率不超过 ;否则就犯错误的概率不超过 的前提下不能推断“两个分类变量有关系”,最后做出判断。

例2在500人身上试验某种血清预防感冒的作用,把他们一年中的感冒记录与另外500名未用血清的人的感冒记录作比较,结果如表所示。问:该种血清能否起到预防感冒的作用?

未感冒 感冒 总计

使用血清 258 242 500

未使用血清 216 284 500

总计 474 526 1000

分析:在使用该种血清的人中,有 的人患过感冒;在没有使用该种血清的人中,有 的人患过感冒,使用过血清的人与没有使用过血清的人的患病率相差较大。从直观上来看,使用过血清的人与没有使用过血清的人的患感冒的可能性存在差异。

解:提出假设 :感冒与是否使用该种血清没有关系。由列联表中的数据,求得:

当 成立时, 的概率约为0.01,

我们有99%的把握认为:该种血清能起到预防感冒的作用。

篇(6)

关键词:计量统计模型;向量自回归模型;经济增长;脉冲响应函数;方差分析

中图分类号:F224 文献识别码:A 文章编号:1001-828X(2016)033-0000-01

随着计量统计学与经济学知识的相互融合,各种计量统计模型在经济增长问题中的应用越来越广泛,这里主要通过向量自回归模型来探讨计量统计模型在其中的应用。

一、VAR模型在经济增长问题中的应用

首先抽取统计数据,确定相关变量,然后建立向量自回归VAR[1]模型,并用Johansen协整检验、脉冲响应函数与方差分解[2]等方法对多个自变量的相关性进行了实证研究。VAR模型是进行多个自变量的分析时最易操作的计量统计模型,经常用于预测相关时间序列,并分析随机扰动项对变量的影响,进而说明各种因素对变量造成的影响。此外运用VAR 模型的优势在于可合理地描述变量间的互动关系,而无需事先对变量的外生性和内生性进行辨别。本文以高等教育的投入和教育规模与经济增长之间的关系为例进行说明。

1.自变量选择、数据处理

通常以地区生产总值(GDP)来代表经济增长,而收集到的数据是绝对数据,因此会受通货膨胀等因素的影响。将数据换算成某年的不变价格,然后以某年为基期来计算,用以剔除通货膨胀等因素的影响。为了消除异方差,从而更好的分析某省教育投入(EDU)、教育规模(SCA)、地区生产总值(GDP)之间的关系,对EDU、SCA、GDP取自然对数,分别用InEDU、LnSCA和InGDP[3]表示。

2.平稳性检验

在估计VAR 回归模型之前,因为现实中的经济时间序列一般均为非平稳的,采用传统的计量统计学知识去建立模型,较容易产生虚假回归[3]的现象。因此我们需要对各个变量进行ADF检验,若各个变量存在单整阶数,而且阶数相等时,这样才可以有效地确定多个变量间的相互关系。

3.VAR模型建立

运用通过平稳性检验的变量建立VAR模型。传统的计量统计方法不足以说明变量之间的动态关系,同时内生变量在方程两端均有出现,将会使判断和估计变得特别复杂。为了解决这些问题,Christopher Sims[1]于1980年提出了VAR模型,并运用到经济学中,使经济系统动态性分析加速发展,进而解释各种自变量对经济增长形成的影响。

VAR(p)模型的数学表达式[1]是:

Yt=a+p1Yt-1+p2Yt-2+…+ppYt-p+Ut

其中,Yt是包含多个内生变量的列向量,这里内生变量就是指教育投入、教育规模和经济增长,p是滞后阶数,t是样本个数。pj是n行n列的系数矩阵。Ut是随机扰动项,j=1,2,…,n。

4.VAR模型的稳定性检验

对上述建立的VAR模型进行稳定性检验,如果模型中AR特征多项式的全部根的倒数值都在单位圆内[4],说明VAR模型是稳定的,则可以说这个VAR模型是有效可靠的,能够进行接下来的脉冲响应和方差分解分析。

5.Johansen协整检验

Juselius与Johansen [1]共同提出了以VAR模型为基础的检验回归系数的方法。进行多个变量协整检验采用这种方法更为合适。此方法是为了说明各变量之间是否存在长期稳定的均衡关系。运用Johansen检验法对各变量进行协整检验,建立标准化的协整方程,通过系数看出各变量间的均衡关系。

6.Granger因果关系检验

由Johansen协整检验可得,某自变量与经济增长存在长期的协整关系,但这种关系是否是一种因果关系,需要进行Granger因果关系检验。Granger因果关系检验[1]是检验一个变量的滞后变量是否能够引入到其他变量中。若某个变量受到其他变量的滞后影响,则称它们具有Granger因果关系[5]。

7.脉冲响应函数与方差分解

为了更加明确多个自变量与经济增长之间的动态关系,在分析VAR模型时,实际上是考虑一个脉冲项发生变化进而对整个系统的影响程度,这就是脉冲响应函数分析法。方差分解帮助我们了解每一个结构冲击对内生变量变化的贡献度[6],用以分析不同结构冲击的重要程度。

二、小结

本文以计量统计学中典型的VAR模型为例,说明了计量统计模型应用在经济增长问题中的具体步骤。在计量统计学中,还有很多的统计方法适用于经济问题,比如主成分分析法、层次分析法等等,大家都可以此为例进行展开学习与应用。运用计量统计学分析各因素如何影响经济增长,为制定经济政策的参与者提供好的建议,提升计量统计学的现实意义。

参考文献:

[1]王少平.计量经济学[M]高等教育出版社,2011:1-992.

[2]张晓峒.Eviews使用指南与案例[M].北京:机械工业出版社.2007:84-87,121-122

[3]邓媛,李瑞光.VAR模型实证分析云南省教育投入与经济增长的关系[J].2009(2):1-6.

[4]马鹏媛,米红.高等教育规模与经济增长关系演变的实证研究[J].2012(2):1-5.

[5]蔡文伯,程璐.新疆教育增L与高等教育规模VAR模型[J].2012(12):1-3.

篇(7)

中图分类号:B844.2 文献标识码:A 文章编号:1000-6729(2008)008-0628-02

焦虑是青少年最常见的心理问题之一,其发病率甚至高于成人[1],但对青少年群体不同亚组的焦虑分布研究少见。本文以高中学生为样本,调查其焦虑水平与一些人口学资料之间的关系。

1 对象与方法

1.1 对象

采用分层随机整群抽样方法,调查长沙和岳阳各一所中学(城市)、浏阳一所中学(农村)的高一至高三年级学生。发放问卷1612份,收回有效问卷1561份,其中长沙中学558人,岳阳中学41人,浏阳中学592人;男生755人,女 生779 人,缺失27人;独生子女 726 人,非独生子女 791 人,缺失44人;父亲受教育程度:文盲60人,小学359人,初中371人,高中516人,大学或以上139人,缺失116人;母亲受教育程度:文盲89人,小学410人,初中424人,高中458人,大学或以上66人,缺失114人;家庭月收入:< 1000 元249 人, 1000-1500元386 人,1500-2000元294 人,2000-3000元245 人,3000-4000元119 人,4000-5000元46 人,> 5000元42 人,缺失180人。

1.2 工具

儿童多维焦虑量表中文版(The Multidimensional Anxiety Scale for Children-Chinese Version,MASC-C)[2]为自评量表。共包括39个条目,分为4个因子:躯体症状、躲避伤害、社交焦虑、分离焦虑/恐怖。要求受试者说明最近一周内焦虑症状或感觉出现的频度,采用0-3级评分。

1.3统计方法

进行独立样本t检验、单因素协方差分析、Logistic 回归分析。

2 结 果

2.1 不同人口学特征学生儿童多维焦虑量表中文版的评分比较

农村组的焦虑症状总分、躯体症状及躲避伤害因子分均高于城市组(47.1±15.9/44.7±16.5、11.0±6.5/9.5±6.7、15.3±3.9/14.8±4.3,t=2.819、4.091、2.243,P=0.005、0.000、0.025)。女性组的焦虑症状总分、躯体症状、躲避伤害、社交焦虑及分离焦虑因子分均高于男性组(49.9±16.1/41.5±15.4、11.3±6.9/8.8±6.2、15.5±4.1/14.4±4.2、15.0±5.2/13.4±5.5、8.1±4.4/4.9±3.8,t=10.470、7.315、5.257、5.727、15.272,均P

父亲受教育水平较低的高中生的焦虑症状总分及4个因子分均较高,母亲受教育水平较低的高中生的焦虑症状总分及躯体症状、社交焦虑、分离焦虑因子分均较高(见表1);按家庭月收入分组的各组被试在焦虑症状总分及各因子分上的差异均未达到统计学显著水平。单因素协方差分析结果显示:控制其他人口学变量后,不同父亲教育程度组别之间的焦虑症状总分及各因子分差异均未达到统计学显著水平,不同母亲教育程度组别之间在社交焦虑因子分上仍存在显著差异(F=2.942,P=0.019)。

2.2 焦虑影响因素的多分类有序变量Logistic回归分析

将被试的MAS-C焦虑症状总分为因变量,按百分等级分为3组:57分为3组(百分等级75以上)。将居住地、性别、同胞状况、父母受教育水平引入多分类有序反应变量Logistic 逐步回归模型,最终仅性别进入Logistic 回归方程(OR 值为0.436,P

3 讨 论

本研究结果显示女性是青少年产生焦虑症状的危险因素,与Twenge JM、王芳芳等的研究一致[3-4]。居住地为农村、非独生子女以及父母受教育程度低的高中生,其焦虑水平较高,但进行协方差分析后上述差异就消失了。提示居住地、同胞状况及社会经济状况等变量并不是独立对焦虑水平起作用的,可能相互间存在作用的重叠。

参考文献

[1] 刘贤臣,孙良民,唐茂芹,等. 2462名青少年焦虑自评量表测查结果分析. 中国心理卫生杂志,1997,11(2): 75-77.

[2] 邹涛, 姚树桥, 朱熊兆,等. MASC 中文版信效度的分析及与西方样本的比较. 中国临床心理学杂志,2007, 15(5): 452-455.

[3] Twenge JM, Nolen-Hoeksema S.Age, gender, race, socioecono-mic status, and birth cohort diffe-rences on the Children's Depression Inventory: A meta-analysis. J Abnorm Psychol,2002, 111 (4): 578-588.