加入收藏 | 设为首页 | 会员中心 | 我要投稿 PHP编程网 - 黄冈站长网 (http://www.0713zz.com/)- 数据应用、建站、人体识别、智能机器人、语音技术!
当前位置: 首页 > 服务器 > 安全 > 正文

数据脱敏产品应用价值差别与选型指标建议

发布时间:2022-08-04 11:17:19 所属栏目:安全 来源:互联网
导读:数据安全正处于安全产业的风口,同时也是用户和市场关注的焦点。数据脱敏,看似一个简单易用千人一面的技术领域。但不同产品技术的性能表现和应用价值其实存在巨大差异。 一、数据敏感性识别能力 针对目标环境中的敏感数据进行发现,是进行数据脱敏公认的前
  数据安全正处于安全产业的风口,同时也是用户和市场关注的焦点。数据脱敏,看似一个简单易用千人一面的技术领域。但不同产品技术的性能表现和应用价值其实存在巨大差异。
 
  一、数据“敏感性识别”能力
 
  针对目标环境中的敏感数据进行发现,是进行数据脱敏公认的前提。然而,对这项技术的应用除必须考察数据脱敏产品的“发现性能和准确度”外,在实际使用过程中还隐藏着对产品更多“深度能力”的要求,这些能力也将决定一款数据脱敏产品能否真正适用于真实复杂的场景:
 
  1. 多种内容混合的字段脱敏
 
  对于“由多种内容混合在一起”的字段,数据脱敏产品能否准确辨别其中每种数据的类型,同时给出类型占比以供使用者参考抉择?
 
  以个人信息收集场景为例,其中一个典型的内容就是需要有人填写“联系方式”字段。但是由于填写人员对采集需求的理解不同,导致所填写的信息可能会由手机号、座机号、地址等五花八门的“个人信息”构成。而这些信息会存储在同一列中,如果单从数据特征入手,处理不善的话很容易将此字段当做非敏感字段被忽略掉。因此,一款成熟的数据脱敏产品的发现机制,不仅要能将上述字段准确识别为敏感数据字段,还要能根据采样数据给出各类数据在此字段中的发现占比;此外,在之后的数据脱敏运算环节中,还应能够根据每行数据的真正类型,对应地产生高度仿真的数据。
 
  2. 无法判别敏感属性的字段脱敏
 
  对于“从数据特征上无法判别敏感属性”的字段,在传统数据脱敏产品的发现逻辑中往往容易被忽略,从而导致敏感数据的泄露;其实处理得当的话,此类数据是能够进行识别的,可通过以下两种方式进行:
 
  其一,对属于某种集合范围内、能够被枚举概括的数据,可将这些集合全部列出作为数据字典保存;当遇到这类“落到字典中”的数据时,即可以此辨别其是否为敏感数据。例如:中国的省市区划、企业和机构的行政部门、股票证券行业的上市公司代码等,均可通过此类逻辑进行敏感数据发现。
 
  其二,对字段命名具有特征的数据,可根据字段名称特征尝试进行敏感数据发现;通过这种发现方式得出的结果虽是基于猜测,但却能缩减客户大海捞针般的工作量。例如:保存有密码的字段,单从数据内容特征上是很难辨别其敏感性的,但若根据字段的名称,却可利用一条“包含了PWD或PASSWORD等字符串的列名”作为此类数据的疑似判别依据。
 
  此外,在实际使用场景中,敏感数据的载体除了常见的数据库、结构化文件之外,还包含了保险行业大规模使用的xml保单文件;医疗行业常见的以html结构保存的病例、诊疗记录以及用于临床医学的DICOM图像格式文件。对这类文件中敏感信息的分析识别不仅要求产品能够适应不同种类的文件格式,还要有更智能的词法语义拆分、非结构化信息识别等能力。
 
  二、数据脱敏“高度仿真”能力
 
  “数据脱敏”,看上去是描述数据脱敏产品“最基础能力”的词语,但在差异化的使用场景下却有着对其不同能力的要求;比如客户对于脱敏后数据的“仿真”质量的要求,就会伴随脱敏后数据的真实使用得以验证,从而对数据脱敏产品的“高度仿真”能力提出了更多、更高的要求,往往由以下几个难度层级构成:
 
  1. 内容仿真
 
  基础的内容仿真,要求脱敏后数据从“数据类型、长度、格式、内在逻辑和语义”等特性上均与原始数据保持一致,不会对脱敏后数据的使用场景造成无法识别或产生歧义等问题。通常来说,市面上多数脱敏产品通过内置规则,针对身份证、姓名、银行卡、手机号、地址等常见字段都能较好地满足上述最基础的仿真要求。但是,当客户面对的是五花八门的使用场景时,想要实现脱敏后数据的“高度仿真”,就需要更加灵活的产品技术能力提供支撑。
 
  例如:在某制造行业中,对于制成品的批次号需要进行脱敏,但批次号是由生产日期、车间号、流水线号和操作者相关信息共同组成的,这种行业级的数据显然已超出一般数据脱敏产品内置规则的默认范围,这时就需要安全厂商的数据脱敏产品能够对数据按位数进行切分,并基于切分的结果对各段配置脱敏规则。比如:对于日期段,可采用标准的日期脱敏规则;对于车间号、流水线号这种有范围的数据,要能基于数据字典进行脱敏;最终还要将各段组合成完整的脱敏后数据。
 
  2. 区间、比例仿真
 
  进阶一步的数据仿真,除对内容进行仿真外,还要求脱敏后的整列数据能够满足某些特征,以避免这些脱敏后数据被分发到分析统计场景后,因为失真降低其实用性。
 
  例如:金融行业客户需要对储户的储蓄金额进行分析,但若拿到的脱敏后数据与原始数据相差过大,将会导致统计分析结果大大失真,因而需要脱敏产品的算法能够将金额数据划分区间不长,并能以“就近随机”的方式完成脱敏;而高校客户在统计生源分布比例时,即便拿到的已是将“北京市脱敏成上海市,天津市脱敏成江西省”这样的非真实数据,也还是希望“同一省市生源数据的比例”是不变的等等。

(编辑:PHP编程网 - 黄冈站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读