数据流动有多种视角,在传统安全的体系里,往往用数据生命周期阶段如采集、存储、传输、使用来描述数据流动,在《数据安全法》里定义了一个新的概念叫“数据处理活动”,提出“数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等”,采用了数据生命周期阶段再加上一个等字,而国外数据安全对数据处理活动的定义,更偏向业务活动的定义,例如把“征信报告查询”视为一个数据处理活动。
随着《数据安全法》《个人信息保护法》的出台,对数据的所有权、处理权等权益以及法律责任进行了相应的划分。例如公司通过同一业务采集的张三和李四的数据,和公司通过不同业务采集的同一人的数据,可能承担的法律责任是不一样的。而同一公司的不同业务部门,同一公司处于不同国家的分支机构,公司的外包人员和正式员工,即使处理同样的数据,承担的法律责任也可能有所不同。因此,可以定义安全与合规领域的数据流动,是由于业务的需要,导致数据在不同的责任域主体之间的流转,即数据安全语境下的数据流动。
数字化是组织通过数字技术改变商业模式,提供新的营收点与价值创造机会。一个组织数字化程度越高,组织的业务就越依赖于数字化系统,数字化系统把组织的客户、不同部门和区域员工、生态链上关联的厂商紧密的链接起来,以更有效率的商业模式和合作流程来提升业务的效率,而链接他们的核心就是组织业务所采集、处理、使用和共享的数据。这些数据通过数字化系统网络,在客户、部门、员工、关联厂商之间进行大量高频复杂的流动。
如前所述,这些主体之间,可能都是不同的法律责任主体,甚至可能是不同的法律受管辖主体,而处理的同一类型的数据也可能来自不同的数据主体和授权。因此这种跨数据主体、责任主体和法律管辖主体的数据流动,不仅带来的是从组织自身视角的数据安全问题,还带来了个人隐私风险、国家数据安全风险。所以,随着整个社会的数字化进程日益深入,全球大多数国家都对这种数据流动带来的个人隐私和国家数据安全问题表示出强烈的关注,并纷纷通过立法来推动解决相关问题。
但是,这些国家也意识到,未来的数字化发展进程不可逆转,而数据也将是未来数字化时代里的重要生产要素。在高度数字化的组织或社会,数据流动的受阻,就意味着依赖这些数据流动的业务和生产,以及利用数据推动的新型产业如人工智能,都会受到影响。
二、传统信息安全和网络安全面临的数据流动风险与挑战
既有的网络安全体系下的数据安全保护体系,一般是资产保护视角,是从 IT 资产的边界,从威胁视角看待数据安全,不介入业务活动中,因此往往是在数据存储点上来提供安全保护措施。但是数字化本身让数据和业务高度融合在一起,从而让数据流动风险更加突出。这种风险,不仅和外部的威胁相关,更和内部的数据状态、操作方式、主体授权、数据流向有关。传统的网络安全以及信息安全体系,对这类风险的识别能力非常有限。
因此,打造一个适应数据流动的动态风控感知的体系,兼顾业务可用性与数据流动风险可控性之间的平衡,就成为数字化背景下数据安全的关键任务。
传统的数据安全保护体系,强调数据是一个受保护免受外部威胁的对象,因此很少关注数据被内部操作和相关环境变化带来的风险。
数据流动风控体系,强调的是确保受控对象处于风险可接受的状态,因此风控体系不仅需要关注外部威胁,更需要关注受控对象自身的状态变化,以及相关环境变化带来的风险。例如数据的跨境存储、跨境传输、内部的过量数据访问和下载等。
传统数据安全保护体系虽然也强调风险,但保护体系的核心还是外部威胁视角,更多是从外部威胁行为出发,延展到可以被威胁利用的相关脆弱性风险。例如业界的网络安全风险评估,目前基本就演变成挖掘可以被威胁利用的漏洞和渗透测试攻击的代名词。
而风控体系,强调更全面的风险类别。不仅是外部的威胁,还包括内部的威胁、数据处理合规类的风险,并延展到所有的资产和数据处理活动管理脆弱性的风险上。
从保护视角到受控视角,在技术上带来的一个显著区别是,传统网络安全往往只从网络请求流量报文上分析威胁行为,但风控体系则需要尽可能地识别受控对象,追踪受控对象,也就是不仅要从网络请求流量报文分析威胁行为,更要从返回流量报文里分析并关联分析受控对象的轨迹,识别数据和相关环境的状态。主要包括两个环节。
在数据存储环节,识别数据资产的分类分级信息。《数据安全法》里明确了相关责任主体对数据分类分级的要求和全流程映射的要求。数据的分类分级能让数据责任主体清晰自己需要保护的数据资产和需要保护的级别。
有了数据分类分级,还需要实现对分类分级数据的流动刻画能力。主要包括以下四种。
数据映射,本质而言数据映射就是回答每一种敏感数据,都用于哪些用途/业务当中,这是数据合规风险和数据管理视角上非常关键的一个要求。
数据暴露面,指数据形成了哪些可以被其他责任主体获取的访问点/暴露面。数据的暴露面是分析数据各种脆弱性风险的关键环节,特别是业务应用层面上的数据暴露面,往往是数字化程度较高企业的主要数据泄露点。
数据权限,指账户通过数据访问点/暴露面,获得相关数据访问的权限。通过数据权限的梳理,可以更好地管理内外部人员对数据的访问,减少数据泄露。
数据流,指账号通过访问点/暴露面,采用何种数据访问行为,最终获得了哪些数据。通过对这些行为的分析,可以发现外部威胁、内部威胁,以及违反合规性要求的行为。
传统数据安全保护体系更强调事前和事中的防御,而事后主要是应急响应。数据流动风控系统因为要平衡对业务的影响和实际风险,在事中防御时的策略会更保守一些,会导致不可避免的遗漏风险。针对遗漏风险,需要建立起全程的数据可溯源分析系统,进行二次防控和改进,将风险控制在可接受的范围内。
目前我国采用的新冠疫情防控体系,就是一个很好的平衡人员流动带来疫情风险的可控,与避免过度限制人员流动导致对经济重大影响的流动风控体系。
首先,需要有一个全面的人员户籍数据。其次,在各个关键流动的节点上(如火车站、飞机场、地铁、大厦入口)通过扫场所码、人脸识别等技术,建立人员流动的数据感知能力,结合各类出行、就诊、确诊相关的大数据,实现刻画人员流动、人员轨迹留痕的能力。在各个关键流动的节点上,通过风险感知模型,如红外感温、中高风险地区行程码、核酸筛查等技术,建立起事中风险感知能力。当发现遗漏的确诊信息后,通过大数据留痕快速寻找密接人员进行二次防控,同时通过对中高风险地区进行有限的流动控制、核酸筛查作为补救措施,防止风险的外溢和扩大。
通过这样的人员流动风控体系,我国政府很好地实现了人员流动的疫情防控风险和经济发展需要之间的平衡。
借鉴人口流动风控体系,数据流动风控主要的框架包括以下环节。
通过数据分类分级的实施,建立敏感数据的底账(构建户籍体系);通过梳理数据应用和数据处理活动,掌握敏感数据暴露面的底账(人员流动关键节点和人员聚焦场所信息)。
2. 针对敏感数据实施数据风险评估并采取风险预防措施
发现高风险数据资产(发现高危人群),针对高风险数据资产采取预防性保护措施如脱敏(疫苗接种)。
对敏感数据暴露面实施数据风险评估和数据风险监测(在人员流动关键节点和人员聚焦的场所上实施人员流动风险监控)并采取相关的风险控制措施。
识别敏感数据暴露面相关风险,如遗漏的敏感暴露面、敏感暴露面自身的脆弱性问题(如未受控人员聚焦的高风险场所、高风险场所的空气内循环系统等)。
针对敏感数据暴露面的风险进行提前消除或安全加固处理等如修复脆弱性、下线未受许可的敏感数据暴露面(加固高风险场所的防护措施或控制或暂停高风险场所的活动等)。
实时识别敏感数据流动状态和相关环境信息、内外部访问行为等,分析敏感数据流动风险,如数据爬虫、内部人员的敏感数据异常访问等(通过人脸识别/身份识别系统识别每个个体,结合个体相关的数据如体温、旅居地、就诊数据等分析个体流动风险)。
针对敏感数据流动风险,采用相关的控制措施,如限流、访问控制等(如限制高体温人员进入场所、进一步核酸筛查)。
建立起敏感数据留痕系统,支持敏感数据的轨迹关联分析,结合数据风险事件进行二次防控。
通过在监测系统留痕或采用相关水印技术,实现对敏感数据的留痕能力(如采用扫场所码等方式进行人员留痕)。
通过多个不同场景的留痕数据进行关联分析,可以绘制敏感数据的流动轨迹(结合人员流动监测数据、行程数据,可以绘制每个人流动的轨迹)。
获取数据遗漏风险事件,如通过受害人电话反馈、分析暗网数据泄露情报等(通过核酸筛查以及医院确诊信息,掌握确认人员)。
利用敏感数据的留痕和轨迹信息,对数据遗漏风险事件进行调查,发现更多的可能已经遭受风险的数据,进行二次防控(通过人员留痕和轨迹数据,识别密接,并对密接人员进行隔离观察和进一步确诊,同时对中高风险地区的人员流动进行一定的管控)。
利用敏感数据的留痕和轨迹信息,分析数据遗漏风险事件产生的原因,对脆弱性进行补救,对责任人进行处理(对确诊进行流调,分析病例原因,从根源上做进一步的处理)。
(本文刊登于《中国信息安全》杂志2022年第4期)