前言
从去年10月到今年年初,我花了大约4个月时间,做了一件看似枯燥的事:数据分类分级。
任务不复杂,就是把公司业务数据库里的元数据,按照一定的标准进行分类和定级。但做下来,我发现了一些有意思的事情——也产生了一些疑问。
这篇文章想聊聊这件事本身,以及我对「分类分级做完之后,然后呢?」这个问题的思考。
为什么要做这件事?
数据分类分级,在网络安全领域里,属于管理层面的标配。
很多企业做这件事,并不是源于企业自驱的动力,而是合规要求——监管来了,审计来了,需要拿出一份「我们做了分类分级」的证明。所以,这件事往往从合规部门落到安全部门,再从安全部门落到具体的人头上——也就是我。
为什么会选择「手动分类」?
有人可能会问,为什么不搞个自动化工具?或者用AI来做?
坦白说,我也想过。但后来发现:
- 业务太复杂 —— 我们的元数据非常庞杂,普通软件和程序很难理解业务逻辑,更别提准确分类了。
- AI成本高 —— 即便有AI,也需要长时间学习业务知识。而分类分级这件事,第一次做是全量,后续增量就没那么多,为了这么一个一次性任务专门培养一个AI,不太划算。
- 准确率更重要 —— 自动化快是快,但误判率高,回头返工更麻烦。
所以,手动分类成了最务实的选择。
任务规模:一个人,几万张表
这件事的工作量有多大?
- 时间: 去年10月到今年年初,大约4个月
- 人员: 我一个人
- 对象: 几万张表,四五十万个字段
好在,元数据早就通过一个系统整理好了,大部分也做了中文化。我要做的事情,就是:
- 打开多维表,看字段或表的中文解释
- 根据分类标准,判断它属于哪个类别、哪个级别
- 记录下来
听起来很简单,对吧?
工作过程:从陌生到熟练
两套标准
我们有两套分类标准:
- 一张表格,针对表级别的分类定级
- 另一张表格,针对字段级别的分类定级
两者是独立的。也就是说,我需要给每一张表定一个类,再给这张表里的每一个字段定一个类。
前期:熟悉标准
分类标准里有大概百来个类别——比如「个人隐私数据」、「业务经营数据」、「系统管理数据」等等。
刚开始,我需要花时间理解这些类别的含义、边界、区别。遇到模棱两可的,还得反复对照标准文件。
中期:机械式操作
大概熟悉之后,工作就变成了机械式操作:
- 看字段名 → 看中文说明 → 脑里反应出对应的类 → 填进去
熟练之后,速度就快了。无非就是重复重复再重复。
一个具体的例子:单字段 vs 组合数据
做这件事的过程中,我遇到一个挺有意思的问题:
某些字段,单独看没什么意义,也不敏感。
比如财务数据里的一些字段,单独拿出来,你很难看出什么。
但如果这些字段出现在同一个表里,或者若干关键数据组合在一起,就能产生联想和推断,涉及更敏感的信息。
这就引出了一个问题:
分类分级标准,是按「单个字段」来定义敏感性的?
还是应该考虑「字段组合」后的敏感性?
目前的标准,更多是前者。但在实际应用中,后者可能更复杂,也更难处理。
核心观点:分类分级做完了,然后呢?
这是我最想聊的部分。
观点一:基础工作,往往是枯燥的事
很多企业安全治理的基础工作,就是这些看起来不太性感、但又不得不做的事情。
数据分类分级就是这样——它不像攻防演练那样刺激,也不像漏洞挖掘那样有技术含量,但它是后续很多安全工作的前提。
先有「分清楚」,才谈得上「保护起来」。
观点二:分类分级做完了,然后呢?
做完这件事,我脑子里冒出一个问题:这些分类分级的结果,真的用起来了吗?
根据我的观察,很多企业都会遇到这种情况:
情况一:为了做而做
满足监管要求,所以要做一份分类分级文档——但做完之后,就放在抽屉里,没人看,也没人用。
情况二:做好了,但不知道怎么用
这种情况更常见。分类分级做完了,但:
① 技术支撑不到位
市场上真能对接「细致分类分级标准」的安全设备不多。即便有,功能也很粗粒度,接不上这么细的标准。
比如,你把某个字段定为「L3敏感」,但安全系统可能只支持按表级别拦截——这就对不上了。
② 使用成本问题
分类分得太细,会带来实实在在的技术复杂度和运营成本。
举个简单的例子:
- 某个字段定了「L3敏感」,按照标准,数据流转需要审批、脱敏、访问控制……
- 但如果分类分级做得很细致,意味着成千上万个字段都有自己的敏感性定义
- 这会导致:每一次数据流转,都要走更复杂的审批流、更多的校验环节
而开发这些审批流、应用这些规则、维护这套系统——背后都是成本。
分类越细,规则越多,系统越复杂,维护成本越高。
这是一道平衡题:标准细了,保护更精准,但系统成本也上来了;标准粗了,系统简单了,但保护又不够。
情况三:单字段 vs 组合数据的敏感性
就像我前面说的例子,某些字段单独不敏感,但组合起来就敏感了——这种情况下,分类分级标准如何定义?安全系统如何处理?
这不是一个技术问题,而是一个「标准」和「业务」的平衡问题。
思考与疑问
做这件事,我有几个疑问,也想抛出来和大家讨论:
-
这种「为了做而做」的状态,是不是行业常态?
- 还是说,有企业已经把分类分级真正用起来了?怎么用的?
-
分类分级如何从「文档里的东西」变成「系统里的规则」?
- 需要什么样的技术支撑?
- 需要什么样的标准对接?
-
后续如果真要接系统,现在的分类标准够不够用?
- 要不要调整?
- 调整到什么程度?
-
单字段 vs 组合数据的敏感性,这个问题怎么解?
- 还是说,这本身就是分类分级标准无法覆盖的领域?
写在最后
数据分类分级这件事,很多人做过,很多人在做,很多人也会继续做。
但我希望,除了「做了」,我们也能聊聊「用了」。
因为前者是完成任务,后者才是真正产生价值。
如果你也在做类似的工作,或者有相关的实践经验,欢迎聊聊——毕竟,安全这条路,一个人走挺孤独的。
2026年3月