做了4个月的数据分类分级，我发现了几个问题

简介：从去年10月到今年年初，我花了大约4个月时间，做了一件看似枯燥的事：数据分类分级。任务不复杂，就是把公司业务数据库里的元数据，按照一定的标准进行分类和定级。但做下来，我发现了一些有意思的事情——也产生了一些疑问。这篇文章想聊聊这件事本身，以及我对「分类分级做完之后，然后呢？」这个问题的思考。

2026.3.22 2026.3.23 安全笔记 2235 5 分钟

前言

从去年10月到今年年初，我花了大约4个月时间，做了一件看似枯燥的事：数据分类分级。

任务不复杂，就是把公司业务数据库里的元数据，按照一定的标准进行分类和定级。但做下来，我发现了一些有意思的事情——也产生了一些疑问。

这篇文章想聊聊这件事本身，以及我对「分类分级做完之后，然后呢？」这个问题的思考。

为什么要做这件事？

数据分类分级，在网络安全领域里，属于管理层面的标配。

很多企业做这件事，并不是源于企业自驱的动力，而是合规要求——监管来了，审计来了，需要拿出一份「我们做了分类分级」的证明。所以，这件事往往从合规部门落到安全部门，再从安全部门落到具体的人头上——也就是我。

为什么会选择「手动分类」？

有人可能会问，为什么不搞个自动化工具？或者用AI来做？

坦白说，我也想过。但后来发现：

业务太复杂 —— 我们的元数据非常庞杂，普通软件和程序很难理解业务逻辑，更别提准确分类了。
AI成本高 —— 即便有AI，也需要长时间学习业务知识。而分类分级这件事，第一次做是全量，后续增量就没那么多，为了这么一个一次性任务专门培养一个AI，不太划算。
准确率更重要 —— 自动化快是快，但误判率高，回头返工更麻烦。

所以，手动分类成了最务实的选择。

任务规模：一个人，几万张表

这件事的工作量有多大？

时间： 去年10月到今年年初，大约4个月
人员： 我一个人
对象： 几万张表，四五十万个字段

好在，元数据早就通过一个系统整理好了，大部分也做了中文化。我要做的事情，就是：

打开多维表，看字段或表的中文解释
根据分类标准，判断它属于哪个类别、哪个级别
记录下来

听起来很简单，对吧？

工作过程：从陌生到熟练

两套标准

我们有两套分类标准：

一张表格，针对表级别的分类定级
另一张表格，针对字段级别的分类定级

两者是独立的。也就是说，我需要给每一张表定一个类，再给这张表里的每一个字段定一个类。

前期：熟悉标准

分类标准里有大概百来个类别——比如「个人隐私数据」、「业务经营数据」、「系统管理数据」等等。

刚开始，我需要花时间理解这些类别的含义、边界、区别。遇到模棱两可的，还得反复对照标准文件。

中期：机械式操作

大概熟悉之后，工作就变成了机械式操作：

看字段名 → 看中文说明 → 脑里反应出对应的类 → 填进去

熟练之后，速度就快了。无非就是重复重复再重复。

一个具体的例子：单字段 vs 组合数据

做这件事的过程中，我遇到一个挺有意思的问题：

某些字段，单独看没什么意义，也不敏感。

比如财务数据里的一些字段，单独拿出来，你很难看出什么。

但如果这些字段出现在同一个表里，或者若干关键数据组合在一起，就能产生联想和推断，涉及更敏感的信息。

这就引出了一个问题：

分类分级标准，是按「单个字段」来定义敏感性的？

还是应该考虑「字段组合」后的敏感性？

目前的标准，更多是前者。但在实际应用中，后者可能更复杂，也更难处理。

核心观点：分类分级做完了，然后呢？

这是我最想聊的部分。

观点一：基础工作，往往是枯燥的事

很多企业安全治理的基础工作，就是这些看起来不太性感、但又不得不做的事情。

数据分类分级就是这样——它不像攻防演练那样刺激，也不像漏洞挖掘那样有技术含量，但它是后续很多安全工作的前提。

先有「分清楚」，才谈得上「保护起来」。

观点二：分类分级做完了，然后呢？

做完这件事，我脑子里冒出一个问题：这些分类分级的结果，真的用起来了吗？

根据我的观察，很多企业都会遇到这种情况：

情况一：为了做而做

满足监管要求，所以要做一份分类分级文档——但做完之后，就放在抽屉里，没人看，也没人用。

情况二：做好了，但不知道怎么用

这种情况更常见。分类分级做完了，但：

① 技术支撑不到位

市场上真能对接「细致分类分级标准」的安全设备不多。即便有，功能也很粗粒度，接不上这么细的标准。

比如，你把某个字段定为「L3敏感」，但安全系统可能只支持按表级别拦截——这就对不上了。

② 使用成本问题

分类分得太细，会带来实实在在的技术复杂度和运营成本。

举个简单的例子：

某个字段定了「L3敏感」，按照标准，数据流转需要审批、脱敏、访问控制……
但如果分类分级做得很细致，意味着成千上万个字段都有自己的敏感性定义
这会导致：每一次数据流转，都要走更复杂的审批流、更多的校验环节

而开发这些审批流、应用这些规则、维护这套系统——背后都是成本。

分类越细，规则越多，系统越复杂，维护成本越高。

这是一道平衡题：标准细了，保护更精准，但系统成本也上来了；标准粗了，系统简单了，但保护又不够。

情况三：单字段 vs 组合数据的敏感性

就像我前面说的例子，某些字段单独不敏感，但组合起来就敏感了——这种情况下，分类分级标准如何定义？安全系统如何处理？

这不是一个技术问题，而是一个「标准」和「业务」的平衡问题。

思考与疑问

做这件事，我有几个疑问，也想抛出来和大家讨论：

这种「为了做而做」的状态，是不是行业常态？
- 还是说，有企业已经把分类分级真正用起来了？怎么用的？
分类分级如何从「文档里的东西」变成「系统里的规则」？
- 需要什么样的技术支撑？
- 需要什么样的标准对接？
后续如果真要接系统，现在的分类标准够不够用？
- 要不要调整？
- 调整到什么程度？
单字段 vs 组合数据的敏感性，这个问题怎么解？
- 还是说，这本身就是分类分级标准无法覆盖的领域？

写在最后

数据分类分级这件事，很多人做过，很多人在做，很多人也会继续做。

但我希望，除了「做了」，我们也能聊聊「用了」。

因为前者是完成任务，后者才是真正产生价值。

如果你也在做类似的工作，或者有相关的实践经验，欢迎聊聊——毕竟，安全这条路，一个人走挺孤独的。

2026年3月

数据分类分级数据安全合规