数据分类分级方法、标准及应用实践

随着“十四五”规划推行，数据要素概念与意识全面铺开，国家、政府机构、企业数据安全意识愈发强烈。2021年9月1号，《数据安全法》正式生效，数据资产安全进入“有法可依”时代。

如何基于数据安全五大原则（数据隔离、风险识别、数据生命周期保护、维持合规、事件响应），构建安全领域“三道防线”（技术防线、管理防线、法律防线），是国家、政府机构、企业的关注重点。而数据分类分级是数据安全的必由之路，也是让数据真正用起来的首要前提。

01 数据分类分级管理概述

大数据时代，数据呈现多源异构的特点，价值各不相同，企业应根据数据的重要性、价值指数等方面予以区分，便于采取不同的数据保护措施，防止数据泄露。因此，数据分类分级管理是数据安全保护中的重要环节之一。

1.数据分类

数据分类是指根据组织数据的属性或特征，将其按照一定的原则和方法进行区分和归类，并建立起一定的分类体系和排列顺序，以便更好地管理和使用组织数据的过程。

数据分类是数据保护工作中的关键部分之一，是建立统一、准确、完善的数据架构的基础，是实现集中化、专业化、标准化数据管理的基础。

2.数据分级
数据分级是指按照公共数据遭到破坏(包括攻击、泄露、篡改、非法使用等)后对受侵害各体合法权益(国家安全、社会秩序、公共利益以及公民、法人和其他组织)的危害程度，对公共数据进行定级，为数据全生命周期管理进行的安全策略制定。

数据分级分类框架

02 数据分类分级方法及细则

数据分类的常用方法：按关系分类，基于业务（来源）、基于内容、基于监管等。

数据分级的常用方法：按特性分级，基于价值（公开、内部、重要核心等）、基于敏感程度（公开、秘密、机密、绝密等）、基于司法影响范围（大陆境内、跨区、跨境等）。

公用数据分类的常用方法：重要数据、个人及企业信息、业务数据。下面就来具体说明这三类公用数据。

重要数据：指一旦泄露则可导致危害国家安全，或危害公共利益、生命、财产安全，或危害国家关键基础设施，或扰乱市场秩序，或可推论出国家秘密等的数据。

个人及企业信息：包含直接个人信息，以电子或其他方式记录的、能够单独或与其他信息结合识别的自然人个人身份或企业的各种信息。

业务数据：包含企业或公共组织从事经营活动或例行社会管理功能、事务处理等一系列活动所产生的可存储的数据。

根据上述公用数据的分类，重要数据分级、个人及企业信息分级和业务数据分级的方法分别如图1、图2和图3所示。

图1 重要数据分级方法示意图

图2 个人及企业信息分级方法示意图

图3 业务数据分级方法示意图

企业可基于上述公用数据分类分级策略，结合自身业务和合规需求实际情况，规划出适合企业自身的数据分类分级方法，建立适合组织自身的数据分类分级原则和方法，将数据按照重要程度进行分类。

然后在数据分类的基础上，根据数据安全在受到破坏后对组织造成的影响和损失进行分级，如果组织层面已经具有相关的分类分级标准，则可酌情进行参考。在实际执行时，如果一次性做不到完全细粒度区分，则可以多步实现，循序渐进，不要设计过度复杂的方案。

企业自主分类分级可参考如图4所示的思路，基于非敏感、敏感、涉密三个等级，对应上述重要数据的五个等级进行分级。

图4 企业自主分类分级参考示意图

03 常见数据分类分级标准

1.数据分类分级框架

来源：全国信息安全标准化技术委员会秘书处

2.分类标准

数据分类具有多种视角和维度，其主要目的是便于数据管理和使用。数据处理者进行数据分类时，应优先遵循国家、行业的数据分类要求，如果所在行业没有行业数据分类规则，也可从组织经营维度进行数据分类。常见的数据分类维度，包括但不限于：

▪ 公民个人维度：将数据分为个人信息、非个人信息。

▪ 公共管理维度：将数据分为公共数据、社会数据。

▪ 信息传播维度：将数据分为公共传播信息、非公共传播信息。

▪ 行业领域维度：将数据分为工业数据、电信数据、金融数据、交通数据、自然资源数据、卫生健康数据、教育数据、科技数据等。

▪ 组织经营维度：将数据分为用户数据、业务数据、经营管理数据、系统运行和安全数据。

3.分级标准

从国家数据安全角度出发，数据分级基本框架分为一般数据、重要数据、核心数据三个级别。数据处理者可在基本框架定级的基础上，结合行业数据分类分级规则或组织生产经营需求，考虑影响对象、影响程度两个要素进行分级。各级别与影响对象、影响程度对应关系如下表所示：

来源：全国信息安全标准化技术委员会秘书处

下面列举了几种行业分级标准，影响程度从低到高：

▪ 政府数据：公开、内部、涉密。

▪ 金融数据：1级、2级、3级、4级、5级。

▪ 证券期货数据：低、中、高、超高。

附参考标准：

金融行业

▪ 《金融数据安全数据安全分级指南》

▪ 《证券期货业数据分类分级指引》

电信行业

▪ 《基础电信企业重要数据识别指南》

▪ 《基础电信企业数据分类分级方法》

医疗行业

▪ 《健康医疗大数据安全管控分类分级指南》

工业

▪ 《工业数据分类分级指南（试行）》

▪ 《工业和信息化领域数据安全管理办法（试行）》

地方标准

▪ 《广东省医疗健康数据安全分级分类管理技术规范》

▪ 《上海市数据条例》

▪ 《重庆市公共数据分类分级指南》

▪ 《北京政务数据分级与安全保护规范》

▪ 《贵州省政府数据分类分级指南》

其他标准

▪ 《网络安全标准实践指南——网络数据分类分级指引》

▪ 《重要数据识别指南 (征求意见稿)》

▪ 《网络数据安全管理条例（征求意见稿）》

▪ 《网络安全审查办法》

04 基于实际应用场景的分类技术

基于实际应用场景的数据分类主要包含以下几种手段，其中，实际运用的技术手段可能涵盖内容感知分类方法和情景感知分类方法中的多种方法。

标签库：根据分类分级规则建立标签库；既可以单独成一个静态库，也可以直接在打标工具或系统后台进行自定义配置。我们可以根据不同的文件格式类型建立标签库。比如，对于数据库文件（.mdf），我们可以根据业务类型由大类到小类定义多个标签。再比如，对于旅游业，我们可以建立（商业、旅游、用户信息）的标签库。除了文件后缀名之外，我们还可以通过关键字、正则表达式等方式设定标签规则。

结构化数据打标：用户在建表时可以对字段标签直接进行设置，基于数据库的权限模型，对底层数据表的列权限进行控制。遍历读取数据库的表名、列名，甚至是列的内容，结合标签库中设定的规则，或者自定义规则，对发现的表名、列名以更细的粒度对数据进行分类划分。

非结构化数据打标：引入自然语言处理、数据挖掘和机器学习等技术，对内容进行识别，并与标签库相关的特征进行匹配，从而对非结构化的数据进行分类。

标注：首先，对一批文档进行人工分类，以作为训练集，然后利用机器学习算法，经过一段时间的学习之后，依据学习结果，对其他数据进行大批量打标。

训练：计算机从这些文档中挖掘出一些能够有效分类的规则，生成分类器（即总结出来的规则集合）。

分类：将生成的分类器应用在有待分类的文档集合中，获取文档的分类结果。由于机器学习方法在文本分类领域有着良好的实际表现，因此该方法已经成为该领域的主流。