2020年,在王希勤校长的带领下,我们开始建设清华大学的数据资源治理体系,现在也在持续推进中。数据资源治理体系旨在实现对数据的全方位管理,包含数据采集、传输、存储、使用、管理等一系列环节。
在治理体系建设过程中,比较棘手的是不同部门间的标准不同,如何将不同标准、形式的数据统一起来,是一个关键挑战。
以合同数据的整合为例,各部门都在对外签署各类合同,但合同上同一含义的字段,表述方式往往并不统一,比如收款方账户字段,有“乙方收款人”、“开户名”、“收支标记”、“银行账户户名”等多种表述,因此合同数据整合起来难度很大。同理,各种不同的业务系统数据打通并实现流通困难重重。因此,只有各部门、各系统遵从同一个标准体系,才能做到可互操作、可兼容和可联通,数据也才能真正地“流动”起来。目前,清华大学正逐步推进数据标准的统一,前文提到的合同数据正是刚刚完成的一部分,我们把全校历史上所有合同的字段做了标准化的统一,并全部汇总到数据库中,这样所有对合同数据有需求的单位都可以来申请查阅过往各部门的合同信息。
当然难度最大的还是身份数据的处理。一个人可以有多种身份,也可以同时担当不止一种角色。那我们如何确定某个人的身份?如果使用身份证来定义个体身份,那么外籍人士只有护照,不同国家的护照格式也不尽相同,那我们如何统一护照格式?如果健康宝上的证件不同于校内使用证件,疫情防控中两处数据可能就无法打通,后续一系列工作就无法推进,所以如何处理人的身份数据是一个难度较大、堵点较多的问题。
在统一身份认证基础之上,就是基于电子身份的资源配置问题。如果一个人的校内角色有所变化,那我们如何更改其资源配置的设定?以清华学生为例,如果是本科生本校读研,他的身份没有变化,但是他的角色却发生了转变,那么他的信息资源配置和相关访问权限就从本科生变为了研究生。这就产生了新的问题——如何去继承之前系统中的内容?以邮箱为例,清华本科生本校读研,有学生希望研究生邮箱将本科邮箱内容继承过来,但是目前邮箱中正缺乏这个功能。类似的问题还有很多,同一个人的身份未变,但校内角色发生了改变,那么如何基于他的角色去做相应的信息资源的统筹?这也是一个尚待解决的痛点和难点。