【知识干货】2020公卫执业医师卫生统计学考点汇总。为帮助大家了解,医学教育网编辑搜集相关资料如下:
T检验背景及应用介绍
t检验是用t分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。它与f检验、卡方检验并列。t检验是戈斯特为了观测酿酒质量而发明的。戈斯特在位于都柏林的健力士酿酒厂担任统计学家,基于Claude Guinness聘用从牛津大学和剑桥大学出来的最好的毕业生以将生物化学及统计学应用到健力士工业程序的创新政策。戈斯特于1908年在Biometrika上公布t检验,但因其老板认为其为商业机密而被迫使用笔名(学生)。实际上,跟他合作过的统计学家是知道“学生”的真实身份是戈斯特的。
生存分析的概念
将事件的结果和出现此结果所经历的时间结合起来分析的统计分析方法。 研究生存现象和响应时间数据及其统计规律的一门学科。
对一个或多个非负随机变量(生存时间)进行统计分析研究。 对生存时间进行分析和推断,研究生存时间和结局与众多影响因素间关系及其程度的统计分析方法。 在综合考虑相关因素(内因和外因)的基础上,对涉及生物学、医学(临床、流行病)、工程(可靠性)、保险精算学、公共卫生学、社会学和人口学(老龄问题、犯罪、婚姻)、经济学(市场学)等领域中,与事件(死亡,疾病发生、发展和缓解,失效,状态持续)发生的时间(也叫寿命、存活时间或失效时间,统称生存时间)有关的问题提供相关的统计规律的分析与推断方法的学科。
应用标准化法注意事项:
①标准化法的应用范围很广。当某个分类变量在两组中分布不同时,这两个分类变量就成为两组频率比较的混杂因素,标准化的目的是消除混杂因素。
②标准化后的标准化率,已经不再反映当时当地的实际水平,只表示相互比较的资料间的相对水平。
③标准化法实质是找一个标准,使两组得意在一个共同的平台上进行比较。选择不同的标准,算出的标准化率也会不同,比较的结果也未必相同,因此报告比较结果时必须说明所选用的标准和理由。
④两样本标准化率是样本值,存在抽样误差。比较两样本标准化率,当样本含量较小时,还应作假设检验。
频数表与频数分布图
(一)基本概念:
频数 ( frequency ) : 指在一个抽样资料中,某变量值出现的次数。
频数分布表( frequency distribution table ): 将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率为100%或1。
频数分布图( frequency distribution figure ) : 根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。
(二)连续型变量频数表的编制方法:
⒈求全距( Range ,简记 R ): 是一组资料中最大值(Xmax)与最小值(Xmin)之差,亦称极差。
2.定组距: 将全距分为若干段,称为组段。组与组之间的距离,称为组距;用小写i 表示。
原则:(1)“组段”数一般为10-15个;
(2)“组距”一般为R/10取整;
(3)为计算方便根据组距采取取整数方法
3.写组段: 即将全距分为若干段的过程。
原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ;
(2)每组段均用下限值加 “~ ”表示,最终组段同时注明上下限。
4.列表划记: 根据预定的组段和组距,用划记的方法整理原始资料。
(三)频数表的用途:
1.揭示频数的分布特征:集中趋势与离散趋势结合能全面反映频数的分布特征
2.揭示频数的分布类型
对称分布 : 集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。
正偏 : 集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。
负偏 :集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。
3.便于发现某些特大或特小的可疑值。
4.样本含量足够大时,以频率作为概率的估计值。
5.作为陈述资料的形式。
实验设计的基本要素(Elements of experimental design)
n 处理因素 (treatment factor)、受试对象 (subject)和实验效应(experimental effect)是实验设计的3个基本要素.
n 例如,用两种药物治疗糖尿病病人,观察比较两组病人血糖、尿糖的下降情况,这里所用的药物为处理因素、糖尿病病人为受试对象,血糖值、尿糖值为实验效应。它们始终贯穿于整个实验研究过程中,从各方面影响着实验研究的结果,在实验设计中必须予以足够重视。
一、受试对象(subject)
n 受试对象是处理因素作用的客体,实质上就是根据研究目的确定的观察目标总体。医学研究的受试对象有人和动物,在实验进行前必须对研究对象的条件作严格的规定,以保证同质性。
n 选择受试对象应遵循的基本原则:对处理因素敏感;反应必须稳定。
(一)动物的选择
实验研究中,动物的选择比较灵活,但要紧紧围绕着实验目的选择动物。
如SARS疫苗的动物实验,普遍采用的动物模型是恒河猴。
(二)病例的选择
临床试验中,由于受试对象是人,病例的选择不像动物选择那样灵活,在选择时必须遵循医德要求,还必须明确病例的纳入标准(inclusion criteria)和排除标准(exclusion criteria )。如对于病人必须有明确的诊断标准,对具体病程、病型、病情、年龄、性别等应有统一的文字规定,以便执行和检查。
二、处理因素
在实验过程中,影响实验结果的因素是多方面的,根据研究目的可分为处理因素和非处理因素两类。
(一)处理因素:
根据研究目的确定的欲施加或欲观察的、并能引起受试对象直接或间接效应的因素。
这种干预可以是主动施加的,如药物的种类、剂量、浓度、作用时间等;也可以是客观存在的,如观察培养基在空气中的污染程度与季节的关系。
(二)非处理因素:
是指除处理因素外的其它对结果有影响或干扰,但研究者并不想通过实验考察其作用大小的因素。
(三)选择处理因素应遵循的基本原则
1.要分清处理因素和非处理因素
n 处理因素是根据研究目的确定的主要因素,一般为研究者所重视,但不能忽略非处理因素的存在,应找出并加以控制,否则会使实验结果产生混杂效应。
n 例如,研究药物治疗加饮食疗法治疗糖尿病的效果时,处理因素为药物治疗加饮食疗法;而合理的作息时间、运动和其它辅助治疗措施也能缓解症状,有助于康复,但不是本次研究的处理因素,而是非处理因素。研究者应采取各种措施,尽可能使非处理因素在所比较的各组中基本相同,以便充分显示处理因素的作用。
2.保持处理因素恒定不变
n 如在进行药物疗效的试验观察中,所使用药物的生产厂家、批号、药品标准等在整个试验过程中必须一致。
n 又如欲观察某种手术的效果,其手术的操作程序应规格化,主刀医师的熟练程度也应尽量接近。
三、实验效应(experimental effect)
n 实验效应 是处理因素作用于受试对象的反应和结局,它是通过实验观察指标定量或定性地来表达。如果指标选择不当,未能准确地反应处理因素的作用,那么获得的研究结果就缺乏科学性,因此选择好实验指标是关系研究成败的重要环节。
(一)选择观察指标的基本原则
1.客观性 观察指标有主观指标和客观指标之分。
n 主观指标 是指由病人回答或医生判断来描述观察结果,易受心理因素影响,如“疼痛”的观察。
n 客观指标 是借助仪器或试验等进行测量和检验来反映客观结果。尽可能选择客观的、定量的指标。
2.准确度和精密度
n 准确度是指所观察结果的真实程度,即观测值与真值的接近程度,属系统误差
n 精密度是指所观察结果的深度,即重复观测时,观测值与平均值的接近程度,属随机误差。
实验效应指标既要准确又要精密,而首先是准确可靠。
3.灵敏性
应尽量选择高灵敏性的指标,即选择高灵敏性的方法对观察指标进行测量。灵敏度高的方法,往往费用昂贵,应根据实验经费,选择既相对廉价,灵敏度又高的测量方法。
4.特异性
为了更好地揭示研究问题的本质,观察指标还应具备一定的特异性。例如,在诊断糖尿病时,测定血糖的特异性就比测定尿糖的特异性要高。
实验效应指标应当同时兼顾其灵敏性和特异性,尽量使灵敏性和特异性都高。
5.指标的观察
在临床试验过程中,由于对某些非处理因素未加严格控制,使这些非处理因素对试验效应产生干扰,这种干扰所造成的系统误差叫偏倚(bias),偏倚歪曲了处理因素的真实效应。
队列研究意义:
大多数慢性病都是历时多年的一个过程所形成。在此期间发生的许多事件都可能起致病作用。对一群人在某种病尚未明显发生前,对某个(或某些)可能起病因作用或保护作用的事件的后果进行随访监测,是一种从“困”观“果”的研究方法。
队列研究(又译为定群研究、群组研究)就是这样研究病因的一种流行病学方法。研究对象是加入研究时未患所研究疾病的一群人,根据是否暴露于所研究的病因(或保护因子)或暴露程度而划分为不同组别,然后在一定期间内随访观察不同组别的该病(或多种疾病)的发病率或死亡率。如果暴露组(或大剂量组)的率显著高于未暴露组(或小剂量组)的率,则可认为这种暴露与疾病存在联系,并在符合一些条件时有可能是因果联系。
各组除了暴露有无或程度不同之外,其他可能影响患病或死亡的重要因素应具有可比性(均衡性)。但并不要求除暴露状况外一切方面都可比,这在观察性研究中实际上是做不到的。有些因素可在数据分析中得到控制。
队列研究所观察的结局是可疑病因引起的效应(发病或死亡),除了所研究的一种病,还可能与其他多种疾病也有联系,这样就可观察一个因素的多种效应,而这正是队列法不可取代的用途。
根据作为观察终点的事件在研究开始时是否已经发生,可把队列研究分为前瞻性与回顾性两类。
另有一种双向型的队列研究,适于研究对人体兼有短期与长期效应的因素,可用回顾性队列法研究前者而用前瞻性队列法研究后者。
还有一种把病例对照法与前瞻法结合起来的设计。其特点是用队列法建起队列(研究对象)并随访发现其中发生的病例,然后用病例对照法调查病例及队列中适于作对照的一部分人的暴露史。这里,病例与对照都来自一个界定明确、有基线资料记录的队列,暴露史的质量较高,还可以有病例尚未发病时的实验室检验记录,而且可以省去对占绝对多数的未发病成员的暴露史调查。
队列研究从方法上来说并不比病例对照法复杂,但实际进行起来却问题较多,因为观察人数多、期限长,组织工作复杂,开支庞大。但是,队列法是一种重要的医学观察方法,已经为解决现代医学的一些迫切问题(例如癌症和心血管病)做出重要贡献,所以作为临床医生也应该对其原理有所了解,而且这对于科学思维能力和批判地阅读能力的培养,也是大有裨益的。
病例|对照匹配
匹配(matching)或称配比,即要求对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时排除匹配因素的干扰。如以年龄做匹配因素,使两组在年龄构成上类似或一样,在分析比较两组资料时,可避免由于两组年龄构成的差别对疾病和因素关系的影响,从而更真实地反映研究因素与疾病的关系。匹配分为频数匹配与个体匹配。
(1)频数匹配(frequency matching):
明确或估计出匹配变量每一层的病例数,然后从备选对照中选择对照,直至达到每层所要求的数目,不一定要求绝对数相等,重要的是比例相同。例如,病例组中男女各半,则对照组中也应一样。
(2)个体匹配(individual matching):
即以病例和对照个体为单位进行匹配。1:1匹配,为每一个病例配一名对照,又称配对(pair matching),1:2、1:3、…、1:R匹配时,直接称为匹配。
定量指标一般要求在一定范围内匹配。例如年龄匹配,病例为50~59岁组,则对照亦应为50~59岁组。或者要求对照在±2岁、±3岁或±5岁等范围内匹配,如要求对照与病例的年龄之差在±3岁之内,则一个39岁的病例,其对照的年龄应当在36~42岁之间。
在病例对照研究中采用匹配的目的,首先在于提高研究效率,增加分析指标的精确度(即可信区间变窄)。其次在于控制混杂因素的作用。匹配的特征或变量必须是已知的混杂因子,或有充分的理由怀疑为混杂因子,否则不应匹配。
匹配的同时也增加了选择对照的难度。而且一旦对某个因素做了匹配,我们将不能再分析该因素与疾病的关系,也不能充分分析它与其他因素的交互作用。把不必要的项目列入匹配,企图使病例与对照尽量一致,就可能徒然丢失信息,增加工作难度,结果反而降低了研究效率。这种情况称为匹配过头(over-matching),应当注意避免。一般除性别、年龄之外,对其他因素是否进行匹配,须持慎重态度,以防止匹配过头,徒增费用和难度。
应用直线回归注意:
1、作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途。另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论。
2、直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值。若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性。
3、进行回归分析时,应先绘制散点图(scatter plot)。若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决。一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析。
4、绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除。否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响。
5、回归直线不要外延。直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapolation)。若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延
定量资料频数分布简介:
将数据按照某种标准(标志)划分成不同的组别,每个组别称为一个组段。组段之间的距离称为组距,一般为等距。各组段的观察值个数称为频数,将分组标志和相应的频数列表,即得到频数分布表,简称频数表。
从频数表便于观察离群值和异常值,还可以看出频数分布的两个重要特征:集中趋势和离散趋势。集中趋势是指观察值向中央部分集中的倾向;离散趋势是指观察值的分散情况。
频数表还可以揭示频数分布的类型,即对称分布和偏态分布。对称分布是指集中位置在中间,左右两侧的频数基本对称。偏态分布,又称不对称型分布,指频数分布不对称,集中位置偏向一侧。若集中位置偏向数值较小的一侧,称为正偏态;若集中位置偏向数值较大的一侧,称为负偏态。
频数表可以较直观地揭示数据分布的集中趋势和离散趋势,而统计指标可从数量上较准确地描述其集中位置和离散程度。定量资料的频数分布类型不同,描述其集中位置和离散程度的指标也不同。
“【知识干货】2020公卫执业医师卫生统计学考点汇总”的内容由医学教育网编辑搜集整理,供大家参考,更多有关公共卫生知识的内容,敬请关注医学教育网公共卫生知识栏目。