当前位置 > CPDA数据分析师 > “数”业专攻 > 特定领域如何进行数据分析

特定领域如何进行数据分析

来源:数据分析师 CPDA | 时间:2018-12-25 | 作者:admin

数据组织1 - 特定领域如何进行数据分析

 

数据分析是回答、决策及实验问题的重要步骤。通过数据分析得出的结果,可以得出进一步研究的结论,并为将来做出贡献。在收集过程中保持良好的组织数据将有助于使分析步骤更容易。

 

1、组织数据:

 

使用电子数据库来组织数据

 

将数据复制到新文件中进行编辑。如果在分析过程中出现问题,那就永远也处理不了主数据文件了。Excel等程序可以将所有数据组织到易于搜索的表格中。可以向数据添加过滤器,以便更轻松地在文件之间复制和粘贴离散数据集。

 

Ps:将数据传输到主电子表格时要小心。很容易意外地复制并粘贴到错误的列或行中。

 

如果数据发生了某些情况,可以随时返回原始主文件。

 

将文本响应编码为数字形式

 

如果正在处理具有书面回复的调查数据,则需要先将数据编码为数字形式,然后才能进行分析。可能必须根据收到的信息以及尝试使用数据回答的问题开发自己的响应编码系统。

 

Ps:如代码“否”响应为“0”,“是”响应为“1”.

 

开发一个系统来分组数据

 

开始收集数据时,就需要开始考虑将所有内容分组的方法。如果正在处理主题或回复,则需要为每个人提供数字或字母代码以保护机密性。

 

最简单的方法是将所有组保留在一个文档中的单独工作表中,完全单独的文档或同一工作表中的不同列/行。

 

与进行过类似数据分析的其他人交谈,以了解如何最好地组织数据。

 

Ps:如果想了解男性和女性之间的差异,需要确保将所有男性数据组合在一起,并将所有女性数据组合在一起。

 

检查数据是否有错误

 

组织数据时,文件之间可能会有很多复制和粘贴。根据组织的数据定期检查主文件,以确保数字没有混淆或放在错误的列中。

 

Ps:如果必须手动输入数据,请务必仔细检查输入的所有内容。

 

2、选择统计测试

 

 

运行t检验以便比较两组

 

在一些领域中t检验是一种非常常见的统计检验,用于比较样本的均值(平均值)。单样本t检验用于测试平均样本从已知值是统计学显着的。甲双样本t检验用来测试两个组具有统计学上不同的装置。

 

一个样本t检验通常用于物理和产品制造:知道样本应具有的价值,以便将获得的平均值与该已知值进行比较。

 

Ps:平均值两个样本t检验通常用于生物医学和临床领域。

 

大数据之医疗 1 - 特定领域如何进行数据分析

 

使用ANOVA分析群体的方式

 

ANOVA(方差分析)在医学领域中非常常用于比较多组的平均值。当查看许多比较时,ANOVA是一种非常强大的工具,可用于查找差异。

 

单向ANOVA可用于将多个组的平均值与一个对照组进行比较。例如,如果有一个控制组和三个测试组,则可以使用单向ANOVA来比较所有均值并查看是否有任何不同。

 

双向ANOVA用于比较多个组与多个变量的平均值。

 

Ps:例如,如果想知道生物体的基因型和性别是否会影响数据,将对照组进行双向ANOVA。

 

运行线性回归以测试变量效果

 

线性回归测试关注的是自变量的变化,并测试该变化是否导致因变量中出现的变化,当想要测量两个变量之间的关联强度时,可以使用该测试方式。

 

Ps:例如,如果想测试心率和在跑步机上运动的速度之间的关系,可以使用线性回归。

 

使用ANCOVA比较两条回归线

 

如果要将两个不同组的关系与同一变量进行比较,可以使用ANCOVA(协方差分析)。ANCOVA允许控制从两组之间的自变量中看到的变化。

 

Ps:如果想测试男性和女性在不同温度下是否有不同的静息心率,可以使用ANCOVA。将为心率与温度制作两条回归线(一条用于女性,一条用于男性)。然后,将使用ANCOVA来比较两条线,看它们是否不同。

 

自己探索更多统计测试

 

所提供的测试并非详尽无遗的测试列表。这些只是一些比较常见的测试,但有许多变体和更复杂的测试可能对数据更好。在规划实验时,请进行彻底搜索以确定要使用的测试。

 

Ps:网上有很多有用的图表和文章可以借鉴,根据收集的数据选择测试。

 

3、分析数据

 

明确定义研究问题

 

永远不要失去研究的重点,坚持研究设计和定义变量。一个好的研究策略包括运行设计良好的实验并收集适量的数据来回答研究问题。

 

在开始收集数据之前,应该确切地知道要在每个组中收集多少样本以及将运行哪些统计测试。

 

咨询统计学

 

统计数据可以非常快速地变复杂,尤其是对于大型数据集 在开始实验之前,尽量与统计学家讨论所有内容。他们可以帮助确定哪些测试适合分析的数据,以及每组中需要多少样本才能拥有运行测试的正确功能。

 

在收集数据后再次与统计学专家咨询。可以帮助分析数据并确保一切都已正确完成。

 

Ps:请记住,统计测试只是告知结果发生或未发生的概率。必须小心,不要将统计学意义与临床意义或生理相关性混淆。

 

运行所选的统计测试

 

收集并准备好数据后,可以开始运行之前决定运行的所有测试。应该使用特定于分析数据的程序进行此过程。这些测试很复杂,使用SAS,R,Stata或GraphPad Prism等程序运行它们要容易得多。

 

SAS,Stata和R需要一些编程经验。可能需要咨询经过CPDA数据分析师培训课程的人员或参与数据分析工作的分析师以及更附经验数据科学家。

 

最后就是制作图表了,而这些工作是由数据分析师来完成。