400-050-6600

高致病性禽流感H5N1病毒在职业人群感染的数据研究

来源:北京中辉智诚数据分析师事务所 史景红 / 作者: / 时间:2019-12-16

首先我和大家简单介绍一下我的背景,我在北京中辉智诚数据分析师事务所从事数据研究工作,具有医学背景,专业是流病与统计,我们这个专业主要从事的就是医药卫生方面的项目研究、数据分析、疾病控制等等。我现在将与大家分享的一个项目,是我们曾经做的一个调查研究的项目。通过分享,我希望可以达到一个目的:就是对卫生健康领域方面的研究的某个方面有个初步了解。


首先说一下我们这个项目的背景。2003年年底—2013年年初,高致病性禽流感H5N1感染人类,在中国的病死率是68%,发病时间多集中在冬春季,大多数病例有直接或者间接接触病死禽的暴露史。在中国禽类养殖的这些职业人群中,他们感染高致病性禽流感的情况研究尚少,我们想了解高致病性禽流感H5N1病毒在职业人群的感染情况,以及家鸭感染高致病性H5N1病毒的情况。


为了达到这个目的,我们是怎么做的呢?通过什么方法解决这个问题呢?通过现况调查研究,根据我们的研究目的,我们查阅了大量文献,组织专家研讨会,制定调研方案等。这里,重点说一下数据获取和分析部分。


一、数据获取和处理

1、调查问卷

数据获取有多种方式,譬如互联网现在比较流行的八爪鱼抓取,或者查阅统计年鉴。我们这个项目用的数据获取办法是调查问卷。根据我们的项目目的,我们设计了2份调查问卷,一份是针对养殖人员的,包括基本信息、病死家禽接触史、病死野禽接触史、接种疫苗等情况,另一份是针对养殖户的,包括基本信息、养殖方式、死禽等信息的获取。在设计调查问卷的时候,注意编码的唯一性,这就像我们的身份证号一样,我们都用的是打印的条形码,有号码可以扫也有数字可以录入。关联几个数据库利用的就是编码的唯一性。


2、调研安排




3、数据处理

调查问卷数据录入:利用epidate建立数据模型,在建库的时候就设置一些逻辑判断,然后录入数据,同时所有数据进行双录入,进行一致性检验,质控。导出excel格式,备用。


标本数据录入:因为数据格式比较简单,所以我们就利用excel建立数据模板,录入数据,抽查进行质控,备用。


调查问卷的数据库与标本数据库关联:利用血清标本条形码是唯一的且两个数据库均有,进行数据库关联。


数据清洗:

1)数据筛选:在我们的调查问卷中,第一个问题被调查者调查时工作或者生活是否至少2周?如果是,我们经过筛选就纳入进来,作为我们的准备分析的数据。


2)数据缺失值处理:我们通常有四种方法:第一种是通过被调查者电话进行回访,补充缺失数据。第二种删除缺失值个案、但是这种方法会导致样本量减少,以及样本结果发生变化。第三种,保留缺失值个案,仅在相应的分析中进行必要的排除。第四种,是用统计值来代替缺失值,如平均值、或者前后平均值,这种方法适用于数值型数据。至于选择用平均值还是前后平均值,这个要根据具体变量的特点,不一定就是前后均值优于平均值,譬如年龄,可能用整体平均值更适合,如果用前后平均值可能代表性要差异性。



二、数据分析

    利用不同的统计方法,从以下几个方面分析数据:

1、整体情况,如年龄、性别、学历等信息。

2、暴露史:接触病死家禽、接触病死野禽情况等。

3、发热情况

4、接种疫苗情况:流感疫情、其他疫苗

5、感染情况(阳性率)

6、环境标本中检出H5N1病毒。养殖人员未检出H5N1病毒。

7、风险因素分析


三、得出结论

禽类暴露人群感染高致病性禽流感H5N1的感染率很低。从家鸭分离的禽流感病毒有可能传播给野禽,也很可能扩散到其他陆地家禽。完成整个项目,对于数据分析有几点体会:


1、如何解决问题?保持勿骄勿躁、沉稳有序的心态,心急手稳,查阅资料,撰写研究方案。

2、数据分析作为整个项目的一部分工作,是服务于项目的。

3、数据质量是保障数据分析准确完美的关键基础。

对于我们数据分析师来说,数据质量是至关重要的,因为不同数据质量导致不同的结果。在调研过程中,加强培训、及时沟通、态度认真,是保障数据质量的关键。

4、数据分析方法的选择,基于我们的项目需求,根据项目需求,利用excel制作简单图表更加快捷美观,利用SPSS进行统计分析。我认为,选择什么统计工具都没有关系,只要熟练运用就可以,不要在选择方法或者设定操作的时候出现错误就可以。数据分析过程中,除了本身计划的设计分析,有时也可以大开脑洞,也许会有意外收获。即使现在是大数据时代,但对于常用的统计方法来说,没有太大变化。原来我还拿过SASSPSSexcel做过同一批数据,结果没有什么太大差别。

5、最后一点,不同领域方法是相通的,不要担心没有涉猎的领域,我们就不能做。但是,也一定要注意:在进行数据分析的时候,一定要详细了解本行业领域的背景资料,这样才会更好的出具数据分析报告。


另外,我个人认为,随着大数据行业的发展,数据量足够大的时候,我们可能不在考虑什么影响因素,可能更多的关注更多的是趋势和预测未来。

Prev article

空调机组报价预测——基于线性回归的数据分析案例

Next article

用Python语言做数据分析基本思路和流程

课程服务

认证服务

在线咨询