数据脱敏产品应用价值区别与选型指标建议

发布时间：2022-07-11 15:41:38 所属栏目：安全来源：互联网

导读：数据安全正处于安全产业的风口，同时也是用户和市场关注的焦点。数据脱敏，看似一个简单易用千人一面的技术领域。但不同产品技术的性能表现和应用价值其实存在巨大差异。面对大规模数据脱敏场景，无论客户选择快速搭建1：1仿真测试环境，还是长期维持备份或

　　数据安全正处于安全产业的风口，同时也是用户和市场关注的焦点。数据脱敏，看似一个简单易用千人一面的技术领域。但不同产品技术的性能表现和应用价值其实存在巨大差异。

　　面对大规模数据脱敏场景，无论客户选择快速搭建1：1仿真测试环境，还是长期维持备份或开发、测试环境所需的实时数据，都对数据脱敏性能提出了较高的要求与挑战。换言之，无论是全量脱敏还是增量脱敏，都可能需要产品能够在数小时内处理完TB级别的数据，而且数据处理过程应尽量自动化、减少人工干预，以便融入真实场景的整个分发流程。
　　如果单纯从“使用效果”来看，数据脱敏所要实现的不过是将用户真实数据迁移至新环境中，并对敏感数据进行变形、遮蔽等处理，达到数据“敏感性降低、标识化消除”的目的。然而，上述貌似简单明确的需求，如果没有数据安全厂商专业、复杂的技术支撑，非但无法将安全和便捷带给客户，还会在项目交付实施等环节造成一系列问题和麻烦!下面，就让我们针对那些貌似简单的需求，看清其背后的产品、技术需求差异：

　　一、数据“敏感性识别”能力

　　针对目标环境中的敏感数据进行发现，是进行数据脱敏公认的前提。然而，对这项技术的应用除必须考察数据脱敏产品的“发现性能和准确度”外，在实际使用过程中还隐藏着对产品更多“深度能力”的要求，这些能力也将决定一款数据脱敏产品能否真正适用于真实复杂的场景：

　　1. 多种内容混合的字段脱敏

　　对于“由多种内容混合在一起”的字段，数据脱敏产品能否准确辨别其中每种数据的类型，同时给出类型占比以供使用者参考抉择?

　　以个人信息收集场景为例，其中一个典型的内容就是需要有人填写“联系方式”字段。但是由于填写人员对采集需求的理解不同，导致所填写的信息可能会由手机号、座机号、地址等五花八门的“个人信息”构成。而这些信息会存储在同一列中，如果单从数据特征入手，处理不善的话很容易将此字段当做非敏感字段被忽略掉。因此，一款成熟的数据脱敏产品的发现机制，不仅要能将上述字段准确识别为敏感数据字段，还要能根据采样数据给出各类数据在此字段中的发现占比;此外，在之后的数据脱敏运算环节中，还应能够根据每行数据的真正类型，对应地产生高度仿真的数据。

　　2. 无法判别敏感属性的字段脱敏

　　对于“从数据特征上无法判别敏感属性”的字段，在传统数据脱敏产品的发现逻辑中往往容易被忽略，从而导致敏感数据的泄露;其实处理得当的话，此类数据是能够进行识别的，可通过以下两种方式进行：

　　其一，对属于某种集合范围内、能够被枚举概括的数据，可将这些集合全部列出作为数据字典保存;当遇到这类“落到字典中”的数据时，即可以此辨别其是否为敏感数据。例如：中国的省市区划、企业和机构的行政部门、股票证券行业的上市公司代码等，均可通过此类逻辑进行敏感数据发现。

　　二、数据脱敏“高度仿真”能力

　　“数据脱敏”，看上去是描述数据脱敏产品“最基础能力”的词语，但在差异化的使用场景下却有着对其不同能力的要求;比如客户对于脱敏后数据的“仿真”质量的要求，就会伴随脱敏后数据的真实使用得以验证，从而对数据脱敏产品的“高度仿真”能力提出了更多、更高的要求，往往由以下几个难度层级构成：

　　1. 内容仿真

　　基础的内容仿真，要求脱敏后数据从“数据类型、长度、格式、内在逻辑和语义”等特性上均与原始数据保持一致，不会对脱敏后数据的使用场景造成无法识别或产生歧义等问题。通常来说，市面上多数脱敏产品通过内置规则，针对身份证、姓名、银行卡、手机号、地址等常见字段都能较好地满足上述最基础的仿真要求。但是，当客户面对的是五花八门的使用场景时，想要实现脱敏后数据的“高度仿真”，就需要更加灵活的产品技术能力提供支撑。

（编辑：PHP编程网 - 黄冈站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

浅析信息安全风险评估	几个机器身份管理的优
Kubernetes的零信任基	常用恶意软件剖析方法