怎样利用CPDA数据分析提高系统可用性的标准

Q&AQ&A问答

怎样利用CPDA数据分析提高系统可用性的标准

来源：CPDA数据分析师网 / 作者：数据君 / 时间：2020-07-01

在当今快节奏和竞争激烈的业务环境中，业务应用程序正常运行时间的延迟即使延迟几秒钟，也可能对组织产生明显影响

这些问题不仅减慢了战略决策，提高了生产率并造成了经济和竞争损失，而且还可能导致客户不满意，以前有关系统和应用程序可用性的标准曾经是IT行业称为“五个九”的标准，或者说应用程序在99.999％的时间内运行。这种期望不再适用于现代IT基础架构。组织必须采用一种新标准来保持竞争力：六种可用性（即99.9999％的正常运行时间）。

对于金融、医疗保健和服务提供商等高风险行业而言，关键业务系统的正常运行时间尤为重要

这些行业的成功取决于快速满足客户需求，随着可用性标准的提高，IT组织满足要求的能力正在下降，期望他们事半功倍，更糟的是应用程序和IT基础架构变得越来越复杂，即使预算允许，也很难找到熟练的人员。

反应性的挑战传统的可用性方法不足以满足这些高标准

它是反应性的效率低下，此外一旦可用性中断，恢复系统（所有非常珍贵的商品）可能需要花费大量时间，精力和技能它甚至可能导致应用程序堆栈不同层的所有者之间的非生产性责备游戏。

如今确保可用性涉及在应用程序堆栈的各个部分（通常是硬件和软件基础结构，数据库层，中间件层和顶层）中设计冗余

从理论上讲，如果某个软件或硬件出现故障，则其他部分将接管，某些系统（例如存储）采用RAID和类似方法，在这里有关故障组件的数据是使用存储在其他类似组件上的信息构建的，此外通常使用单独的监视系统，使用原始的运行状况和性能数据监视堆栈的每一层，当检测到问题时，将发送警报，而不会影响应用程序及其可用性。

现在IT管理员开始进行消防演习–这是一项艰巨且耗时的故障排除任务典型步骤为：

1、确定警报是错误警报还是确实存在问题。

2、确定问题的严重性，例如它是否破坏了应用程序的可用性，或者它是否位于给定层的本地并由冗余设计吸收。

3、确定问题的根本原因，通常这需要跨可能属于不同团队的每个堆栈的专家之间进行协作。

4、通常供应商会介入其中，并且开始收集系统数据–向他们的技术支持发送无数的日志文件，诊断命令的输出甚至是配置文件。

5、所有这些都需要在非常压缩的时间内进行。

预测方法为了达到新的可用性标准，仅凭现状是不够的

相反IT管理员需要能够在问题发生之前进行预测，该系统应该能够自行修复，以防止应用程序停机。如果系统无法自我修复问题，则应向管理员提供准确的建议，以主动实施修复。对于那些难以预测的问题，系统应立即进行故障排除。此外，在需要的数据可用性的世界中，虚假警报已无处可寻。

机器学习和良好的数据科学使所有这一切成为可能

现代数据中心产品配备了数百万个传感器，从堆栈的每一层实时收集大量遥测信息，遥测包含有关性能，运行状况，配置，事件，资源利用率和各种系统状态的数据。这是在庞大的安装基础上完成的，从而获得了各种环境和实际配置的知识，然后数据将在功能强大的分析引擎中进行处理。开发了对整个堆栈的深入了解，该系统了解堆栈的每一层中的复杂模式，以及随着时间的推移这些模式如何在各层之间交互，模型已创建，然后使用来自安装基础的数据以及产品供应商提供的新信息连续进行精炼，建立了对正常与异常行为的清晰和高度置信的理解。

结果是能够预测可能导致应用程序停机的问题，并具有很高的置信度

此外这种预测引擎确定了如何预防该问题。系统设计为自动采取这些预防措施，或者服从IT管理员，内置了此功能的新一代数据中心产品–从仪器仪表到遥测和分析收集再到预测和预防，甚至在一类产品中，传感器都是基本产品设计的一部分，并且是在编写行代码时创建的。

这种预测性方法与机器学习技术相结合，使人们曾经认为不可能实现可用性水平成为可能

IT管理员收到的警报更少，更有意义，他们可以自行在整个应用程序堆栈中立即确定根本原因，无需了解堆栈的每一层的内部工作原理，并与多个团队合作，当管理员确实需要供应商技术支持时，体验与传统方式大不相同，技术支持人员已经对客户环境有很深的了解，可以在极短的时间内开始提出修复建议。

这使IT人员可以腾出时间专注于更有意义的活动，例如规划和执行解决业务问题的创新方法。

Prev article

为什么小企业不应该害怕大数据？

返回列表

Next article

零售商如何利用大数据发挥优势？