var _hmt = _hmt || []; (function() {   var hm = document.createElement("script");   hm.src = "https://hm.baidu.com/hm.js?8c9c5a8618dc4aea3be27b32962e5871";   var s = document.getElementsByTagName("script")[0];    s.parentNode.insertBefore(hm, s); })();
400 050 6600
数据分析师

手机号

验证码

30天自动登录

数据保护的三个步骤–以及结构化数据与非结构化数据的区别

来源:CPDA数据分析师网 / 作者:数据君 / 时间:2021-04-14

在比平常紧急的维修工作中需要一部分
希望从当地的电器配件商店获得更直接的满足感,因此我来到了离我家不远的一家大型购物中心,如果可以拍摄非结构化的数据,那将看起来像是一家商店,每种设备零件的零件随意堆放在架子上,延伸到建筑物的后凹处,看不到零件号标签或条形码阅读器,柜台上的那只旧手问我需要什么,消失在后面一两分钟,然后出现了闪亮的新火柴,匹配了我手中的折断部分,如果仅是非结构化数据发现就那么容易,对于需要保护隐私权的IT团队而言,数据发现是一个真正的问题-对于非结构化数据和结构化数据均如此,通用数据保护法规(GDPR)和加利福尼亚消费者隐私法案(CCPA)等法规概述了处理个人身份信息(PII)的期望,遵从性和数据保护是目标,但是要用于数百万个终用户文件与数据库中数百万条记录的策略却大不相同。

如果找不到它,则无法保护它
PII保护从发现PII开始,对于数据库,发现可能是一次性任务,可以在组织的结构化数据集合中定位PII,对于非结构化数据,发现是一个持续的过程。无论哪种方式,发现都是不可跳过的步骤,很容易理解,为什么很难在非结构化数据中找到PII,一个典型的组织管理着超过1000万个文件,其中包含从营销信息到客户合同到公司野餐邀请的所有内容,在非结构化文件中发现PII仍然是目前棘手的数据安全挑战之一。

很难理解为什么结构化数据发现可能很难
结构化数据应该提供到PII的简便映射,但是数据库设计通常早于现代隐私法规,因此,很少有数据库在设计时就考虑到了隐私。敏感信息通常散布在不同的数据库,不同的表和不同的字段中,有时PII在表或数据库之间重复。找到所有内容可能比您想象的要难,在这两种情况下,自动PII发现都可以帮助IT专业人员确保他们已经找到了需要保护的PII数据,在非结构化数据世界中,长期以来一直使用规则和终用户分类程序来尝试识别PII,但它们并不有效或不可管理,近的人工智能创新显示出在自动化两种数据类型的数据发现任务方面的希望。

找到私有数据后,您必须对其进行评估
了解风险所在始于对谁可以访问PII的清晰,完整的评估,同样在评估结构化和非结构化数据中的风险时,差异是明显的,在评估结构化数据库中PII访问的“对象和方式”时,需要牢记一些注意事项,支持Web应用程序的大型数据库(例如支持电子商务操作的数据库)通常使用少数几个服务帐户将这些应用程序连接到数据,跟踪谁有权访问通常不是问题,
与数据库的API连接越来越多地扩展了访问权限,有时扩展到组织本身之外,毋庸置疑,这些连接需要仔细的监督,当用户创建包含来自数据库的数据的报告时,PII可以从结构化世界“逃脱”到非结构化世界,这是一个经常被忽视的数据公开途径。

评估非结构化数据的风险要困难得多
幸运的是如果您成功发现了哪些文档包含PII,则风险评估将更易于管理。知道PII在哪里后,您将需要寻找以下风险指标:
与外部或个人电子邮件共享不当
链接共享,尤其是未受保护或未过期的链接
文件存储在指定位置之外
未分类的文件可能会被数据丢失防护服务所遗漏
这可能是一项艰巨的任务。同样,人工智能的创新可以为您的团队提供巨大帮助,因为它们可以为终用户的文件建立访问控制。

评估私有数据后,就该保护它了
与发现和评估任务一样,保护结构化和非结构化数据的策略也大不相同,这是一些减轻结构化数据风险的建议:
重构数据库以消除重复,澄清数据结构,并使无论您去了哪里的人都更容易发现PII。
对访问敏感的字段进行标记和/或加密,以在访问控制实践的基础上增加一层额外的安全保护。
删除不需要的内容。直截了当地说,大量不需要的使用多年的PII数据都是非强制性的错误。别那样
探索用于API安全性和精细数据库访问控制的新兴技术。当前,大多数服务帐户都具有非常广泛的访问权限,不良的API设计或实现可能是薄弱的一环。看看您可以采取什么措施来收紧事情。

力争在文件级别上对所有关键业务数据进行小特权的访问控制
文件夹级别的安全性还不够好,不断监测情况用户每年创建数千个新文件,并且一次性审核不会减少该文件,寻找在PII风险管理工作中招募整个安全堆栈的方法,例如您现在可以自主评估风险并自动将文件标记为敏感文件,这些标签可帮助防止数据丢失的解决方案更快,更准确地工作,请注意如何交流情况使用安全公告充斥您的终用户将导致警报疲劳并破坏目的。您需要高保真,可操作的信息。

法规遵从性是一个复杂的主题

本文仅概述了特定数据和法规环境所需的内容,清楚了解如何发现,评估和保护结构化和非结构化数据及其差异,为您提供了一个有效且可管理的程序来保护您管理的PII所需的基础。


Prev article

患者生成的健康数据,分析可提高组织的投资回报率

Next article

解决数据科学家短缺的前瞻性思维方法

数据分析师

报名咨询

数据分析师

报名缴费

数据分析师

客服中心

数据分析师

课程服务

数据分析师

认证服务