三、现况调查
现况调查(prevalence survey)又称现患调查或横断面调查(cross-sectional survey),是在一个确定的人群中,在某一时点或短时期内,同时评价暴露与疾病的状况,或在某特定时点(如参加工作前,入学或退休时)所做的体检等调查。现况调查是通过完成某特定时间该人群健康经历的一个“快照”,提供某病频率和特征的信息。
(一)目的和用途
1.查明当前某地区某种疾病的流行强度和该病在该地区的分布特点 以便分析患病频率与哪些环境因素、人群特征以及防病措施的质量等因素有关,有何关系。这些资料对公共卫生管理人员估价某人群健康状况和卫生保健的需求有很大价值。
2.现况调查的结果 可以提供某病的病因线索,供分析流行病学研究;还可用于提供某些职业中疾病的患病或其他健康结局的信息。现况调查适宜于对不会发生改变的暴露因素如血型、肤色、种族、性别等的研究;也适宜于对能发挥长期、慢性累积影响的暴露因素的研究,如高血压与冠心病的关系,糖尿病与动脉粥样硬化的关系等。对于这样一些因素,现况调查可以提供真实的暴露与疾病联系的证据。
3.早期发现病人 利用普查、筛检等手段,可以早期发现病人,利于早期治疗。例如高血压普查。
4.评价疾病的防治效果 如果定期地在某一人群中进行横断面研究,收集有关暴露与疾病的资料,该研究结果类似于前瞻性研究结果。将现况研究的结果与同一地区几年以前或几年以后的同类调查结果进行比较,则可评价某些疾病的防治效果。
(二)局限性
1.由于是在同一时点估价暴露和疾病状况,很多情况下难以判断孰前孰后、孰因孰果这是横断面研究作为病因研究的一个主要弱点。例如人们多次发现低社会阶层的人比高社会阶层的人精神紊乱患病率高。然而,到底是低社会阶层的人易发生精神疾患,还是患精神疾患的人易于落入低社会阶层呢,还值得研究。
同时,横断面研究的病人是“现存”病人,而不是新发病例,因此获得的资料不仅反映了病因学的因素,同时还有决定存活的因素。很快痊愈或死亡的病例包括在病例组的机会较少。如果病程短或很快致死的病例与病程长的病例的特征有所不同,则现况调查中观察到的联系不能代表实际的联系。例如,美国Evans县研究资料表明,黑人比白人冠心病(CHD)患病率低。由于这只反映了调查时人群的现况,它不意味着黑人中发生CHD低。因为如果黑人CHD的发生和死亡均高于白人,与某一时点上黑人患病率低并不矛盾,而横断面调查不能区分这种现象。
2.许多慢性病都有相对恶化和缓解期,现况研究可能把缓解期的病例错划为无病。此外,必须注意经过治疗或正在治疗的病例。这些病例在调查时可能没有疾病的表现,但是如果不治疗,则大部分可能归为病人。应当根据研究的目的对这部分人进行分类。一般在研究过程中,对这部分人应有所标明,以便分析中能适当地对待他们。
总之,现况调查对于病程短的病不能充分发现,对于急性非致死性或迅速致死的疾病都难以提供正确的分布情况。所以现况调查主要用于慢性病的研究。评价那些不会发生改变的暴露因素与疾病的联系,横断面研究并不亚于分析性研究。有时也可利用血清学检验、生化实验等进行感染率、带菌状况或免疫水平等的调查,以及生理、解剖、生化等指标的调查。
(三)研究设计要点
1.明确调查目的 是考核预防、治疗措施的效果,还是探索病因或危险因素;描述疾病的分布为社区诊断提供基线资料,为卫生保健工作决策提供参考,还是确定高危人群,等等。
2.掌握有关的背景资料 只有充分地掌握背景资料,了解该问题现有的知识水平,国内、外进展情况,才能阐明该研究的科学性、创新性和可行性,才能估价其社会效益和经济效益。掌握背景资料有三种途径:①自己经验的总结;②向有关专家请教;③查阅文献资料。这项工作不仅是制订计划时的工作,而且应当贯穿于研究的全过程,是一个十分重要的环节。
3.确定研究人群 调查者往往是在抽样后才测量暴露。这时可在一个确定的地理区域内的人口、家庭或其他单位抽取样本。有时根据暴露状态选择人群,特别是暴露容易识别时。例如,想比较天津市不同区的精神紊乱患病率,则可从不同区抽样。如果对某职业暴露有兴趣,可选择有暴露的工厂的工人与无暴露的工厂的工人,比较其患病率;或选择工厂中有暴露的部分工人与另一部分无暴露的工人比较。如果是相对小的人群,则可包括全部人群;如果不实际或花费太大,则可选择暴露组与非暴露组。
在横断面研究中,抽样过程使调查者有可能得到最有效的研究设计,以能代表将结果推及的目标人群为原则。
4.暴露的测量 暴露即我们所研究的因素,研究对象所具有的特征,所发生的事件。暴露并不仅限于与研究对象有关的外界因素,同时也包括机体内部的因素如遗传因素、内分泌因素和精神因素等。暴露又称变量。暴露必须有明确的定义和测量尺度。应尽量采用定量或半定量尺度和客观的指标。用调查表、记录、实验室检查、体检和其他手段来测量暴露。知道暴露于这些因素多长时间,什么时候暴露很重要。例如调查者常想知道是否吸烟时间越长,疾病患病率越高。
5.疾病发生的测量 在人群中进行现况调查时,应尽量采用简单、易行的技术和灵敏度高的方法。同时需注意检验结果中的假阳性,特别在患病率较低的疾病的现况研究中尤为重要。例如,某项方法检出肺癌,其假阳性率为1%。假定调查人群肺癌患病率为5/10万,也即调查10万人有5名病人,而同时在其余99995名中检出假阳性病人999.95人,即1000人。这时,如不能鉴别5例病人和1000名假阳性病人,就会误认为患病率为1000/10万或1%。由此可见,在人群中通过现况调查研究发现病人与在医院中诊断一例病人是性质不同的两件事。
对疾病必须提前建立严格的诊断标准,标准要利于不同地区的比较。调查表、体检或一些特殊检查常联合应用。如果可能,应测定疾病首次症状发作的时间。有时由于疾病系逐渐发生难于确定发作时点,或直到现况调查时才知道疾病存在。
对有恶化期或缓解期的疾病,重要的是询问没有症状或体征的人过去是否曾有过症状。虽然调查者或许不能据此肯定他们是否有病,但可以考虑他们可能有病或分析时将他们分开分析。
6.拟定调查表 调查表又称问卷(questionnaise),是流行病学调查的主要工具。调查表设计的好坏,对调查结果有着举足轻重的影响。调查表没有固定的格式,内容的繁简、提问和回答的方式应服从于调查的目的,并适应于整理和分析资料的要求。现在普遍采用的格式是把拟收集的数据项目用恰当的措词构成一系列的问题。
调查表的主要内容分为两类。一是一般性项目或叫识别项目,包括姓名、性别、年龄、出生年月、出生地、文化程度、民族、职业、工作单位、现住址等。另一部分即调查研究项目或叫研究变量。这是调查研究的实质部分。编写这部分内容时应注意以下几项原则:
(1)措词要准确、简练、通俗易懂、易于回答,尽可能不用专业术语,避免引起被调查者的误解或不同理解。
(2)与本次调查有关的项目一项也不能缺,而与本次调查无关的项目一项也不应有。
(3)问题按逻辑顺序和心理反应排列,先易后难,先一般后隐私。不能遗漏可能的答案。例如询问“你爱吃酸还是爱吃辣”,如果供选择的答案只有“爱吃酸”和“爱吃辣”两项,则漏了“酸辣都爱吃”“和酸辣都不爱吃”两种答案。正确的设计应列出全部四种答案。
(4)尽量获取客观和定量的指标。例如询问“你吃水果是经常吃、不常吃还是偶尔吃”,不如问“你每月吃多少水果?21斤以上,11~20斤,10斤及以下”更好些。
调查表中提问的方式主要分“封闭式”和“开放式”两种。“封闭式”即在问题后列出若干互斥的备选答案,供被调查者选定其中的一个。答案的范围相当于测量的尺度。“开放式”指年龄、出生日期、吸烟支数等一些不能明确限定答案尺度的问题。有时也可将两种方式结合起来提问。
准备用计算机处理的调查表,常在每项数据后留出编码用方框以便于编码输机。
一般说,一个完善的调查表并不是一次就可以拟就的。如有可能,最好做几次包括设计人员参加的预调查,须几经试用和修改方可臻完善。
7.对调查员的要求 对调查员的最基本要求是实事求是的科学工作态度和高度的责任心。调查员要有一定的文化水平,但是并非医学水平越高的人越适于做调查工作。相反,有医学知识的人易于掺入自己的假设和看法,调查时易于诱导性地提问题而产生信息上的偏倚。从这个意义上讲,倒不如非医务人员调查更客观。对调查员应经过严格的培训和考核再决定取舍。
(四)普查、筛检及抽样调查
1.普查和筛检 现况调查若是为了早期诊断、治疗病人,在特定时间、特定范围内进行全面调查称为普查(censns)。特定时间应当较短,甚至指某时点。特定范围指某个地区或具有某种特征的人群。
普查的目的除了早期发现和治疗病人之外(如各地开展宫颈癌的普查),有时还是为了了解疾病和健康状况的分布而进行的。前者如了解血吸虫病、高血压病、冠心病等的分布;后者如对儿童发育、营养的调查等。
普查不适用于发病率很低或无简易诊断手段的疾病。因是横断面调查,故一般只能获得阳性率或现患率而得不到发病率资料。同时,还应注意普查的成本和收益问题。如过去用拍胸部小于X线片来普查肺结核,成本高、收益少,现已不再使用。
筛检(screening)的目的主要是为了早期发现可疑患者,以便能进一步确诊,达到早期治疗的目的。筛检实际可看做普查过程中一个较早的组成部分。其方法及评价见第五章。
2.抽样调查 如果现况调查的目的是为了查明现患情况或当前某病的流行强度,则可用抽样办法进行调查,即抽样调查。例如我们要研究某个地区某病现患率,该目标地区的总体人群即目标人群(target population)或叫抽样框架(sampling frame),按统计学原则从其中抽取部分人作为调查对象,即样本人群或研究人群(study population)。然后,可根据样本人群的结果推断目标人群的现患率。
抽样调查比普查费用少、速度快、覆盖面大、正确性高。
抽样调查的缺点是不适用于患病率低的疾病,不适用于个体间变异过大的资料,并且设计、实施和资料的分析均较复杂。
抽样必须随机化,样本必须足够大,这两点是抽样调查的基本原则。
(1)抽样方法:目前在流行病学调查中使用的抽样方法有单纯随机抽样、系统抽样、分层抽样、整群抽样和多级抽样。在现况调查中,后三种方法较常用。
1)单纯随机抽样(simple random sampling):这种方法的基本原则是每个抽样单元被抽中选入样本的机会是相等的。简便、易行的科学分组方法是利用随机数字表。抽签、抓阄的方法严格地说不能达到完全随机化,但因其简单、实用,小范围的抽样仍可使用。简单随机抽样首先要有一份所有研究对象排列成序的编号名单,再用随机的方法选出进入样本的号码,已经入选的号码一般不能再次列入,直至达到预定的样本含量为止。
单纯随机抽样的优点是简便易行。其缺点是在抽样范围较大时,工作量太大难以采用;以及抽样比例较小而样本含量较小时,所得样本代表性差。
2)系统抽样(systematic sampling):此法是按照一定顺序,机械地每隔一定数量的单位抽取一个单位进入样本。每次抽样的起点必须是随机的,这样系统抽样才是一种随机抽样的方法。例如,拟选一个5%的样本(即抽样比为1/20),可先从1~20间随机选一个数,设为14,这就是选出的起点,再加上20,得34,34加20得54,……。这样,14,34,54,74,94就是第一个100号中入选的数字,以后依次类推。
系统抽样代表性较好,但必须事先对总体的结构有所了解才能恰当地应用。
3)分层抽样(stratified sampling):这是从分布不均匀的研究人群中抽取有代表性样本的方法。先按照某些人口学特征或某些标志(如年龄、性别、住址、职业、教育程度、民族等)将研究人群分为若干组(统计学上称为层),然后从每层抽取一个随机样本。分层抽样又分为两类:一类叫按比例分配分层随机抽样,即各层内抽样比例相同;另一类叫最优分配分层随机抽样,即各层抽样比例不同,内部变异小的层抽样比例小,内部变异大的层抽样比例大,此时获得的样本均数或样本率的方差最小。
分层抽样要求层内变异越小越好,层间变异越大越好,因而可以提高每层的精确度,而且便于层间进行比较。
4)整群抽样(cluster sampling):抽样单位不是个体而是群体,如居民区、班级、连队、乡、村、县、工厂、学校等。然后用以上几种方法从相同类型的群体中随机抽样。抽到的样本包括若干个群体,对群体内所有个体均给以调查。群内个体数可以相等,也可以不等。
这种方法的优点是,在实际工作中易为群众所接受,抽样和调查均比较方便,还可节约人力、物力和时间,因而适于大规模调查。但整群抽样要求群间的变异越小越好,否则抽样误差较大,不能提供总体的可靠信息。
5)两级或多级抽样(two-stage or multi-stage sampling):这是大型调查时常用的一种抽样方法。从总体中先抽取范围较大的单元,称为一级抽样单元(例如县、市),再从抽中的一级单元中抽取范围较小的二级单元(如区、街),这就是两级抽样。还可依次再抽取范围更小的单元,即为多级抽样。
多级抽样常与上述各种基本抽样方法结合使用。
(2)样本含量
1)对均数做抽样调查时的样本含量公式:
n=(uaσ/δ)2
(式3-1)
式中n为样本含量,uα为正态分布中自左至右的累积概率为σ/2时的u值(如u0.05=1.960,u0.01=2.576),σ是标准差,δ是允许误差。也可用如下公式:
n= (tas/δ)2
(式3-2)
式中s为样本标准差代替总体标准差σ,以t分布中的tα代替正态分布中的uα。当样本含量n<30时,用后一个公式更合适。
例:欲调查某病病人血红蛋白含量,据以往的经验,σ=3.0g/100ml,要求误差不超过0.5g/100ml,并定α=0.05,则该调查样本大小为:
n=(tas/δ)2=1.960×3.0/0.5)2≈139(人)
2)对率做抽样调查时的样本含量公式:
N=K×Q/P
(式3-3)
N为调查例数,P为预期阳性率,Q=1-P。当容许误差为10%时,k=400;容许误差为15%时,k=178;容许误差为20%时,k=100。(见表3-2)。
表3-2 按不同预期阳性率和容许误差时现况调查样本大小
预期阳性率 |
容 许 误 差 | ||
0.1P | 0.15P | 0.2P | |
0.05 | 7600 | 3382 | 1900 |
0.075 | 4933 | 2193 | 1328 |
0.10 | 3600 | 1602 | 900 |
0.15 | 2264 | 1000 | 566 |
0.20 | 1600 | 712 | 400 |
0.25 | 1200 | 533 | 300 |
0.30 | 930 | 415 | 233 |
0.35 | 743 | 330 | 186 |
表3-2是用上式计算出来的样本大小,可参考使用。但须注意,当流行率或阳性率明显小于1%时,此式不适用。