公务员期刊网 论文中心 正文

大数据挖掘下用户隐私数据保护浅析

前言:想要写出一篇引人入胜的文章?我们特意为您整理了大数据挖掘下用户隐私数据保护浅析范文,希望能给你带来灵感和参考,敬请阅读。

大数据挖掘下用户隐私数据保护浅析

随着人工智能技术的发展,基于大数据的预测分析技术被广泛应用于各个领域。尤其是近年来新冠肺炎疫情防控过程中,基于大数据的疫情数据分析挖掘技术对排查疫情防控风险点带来了极大的便利,大数据为人们编织了严密的数字网络的同时也把个人信息置于开放式的环境中,使得出现很多起个人隐私泄露的事件,因此,如何在大数据挖掘过程中进行用户隐私或敏感数据的保护成为亟待解决的问题。本文主要针对在大数据挖掘过程中用户隐私数据的保护技术热点方向的专利进行分析,通过六个技术分支来对基于大数据挖掘的用户隐私数据保护方法的技术进行全面的归纳和总结。

一、主要技术分支和数量

通过对检索出的国内外专利申请进行分析,得出国内外基于大数据挖掘的用户隐私数据保护的方法的主要技术分支如图1所示。根据对大数据挖掘过程中隐私数据防护的策略,重点关注了主流的技术,其中,技术分支二的专利申请量最大,技术分支一的专利申请量最小,具体分析结果如下:基于对敏感/隐私数据监控和追踪保护用户隐私数据的技术,其申请量较少,总共有6件,分析存在上述情况的主要原因在于对数据追踪的成本较高,随着不同平台数据共享需求越来越大,用户隐私数据在各大平台上使用的数量和次数也越来越多,这样会导致需要监控和追踪的数据量也越来越大,付出的硬件成本太高。基于对敏感/隐私数据处理保护用户隐私数据的技术在2015来之后呈现明显的增长,2021年申请量呈下降趋势,主要是由于笔者在获取数据时2021年数据量不全导致。根据笔者对该领域专利申请趋势的判断,2021年以后该技术分支的专利申请应当有更大的增大率。分析存在这种情况的原因主要是随着隐私数据处理相关算法逐渐成熟,能够满足不同场景下的个性化需求,因此,该技术方向是创新主体研究的热门方向,申请量也一直居于高位。基于对敏感/隐私数据的访问权限控制保护用户隐私数据的技术也在近5年取得快速发展,2019年至2021年的申请量占近10年申请量的80%。分析存在这种情况的原因主要是云计算及区块链技术的快速发展,为用户权限控制提供了更加安全和稳定的系统架构。基于多方联合计算保护用户隐私数据的专利申请从2018年开始出现,2018年之前,该技术分支的申请量较少。分析存在这种情况的原因主要是通过脱敏处理的数据,数据价值受损。而多方联合计算技术,关联其多方的特征,在没有相互泄露数据的情况下扩展分析维度,提高分析精确度,因此,该技术在近年来也逐渐成为热门研究领域。基于对敏感/隐私数据的识别和拦截保护用户隐私数据的技术相关的申请量在六个技术分支中排在第二位,并且在近五年来申请数量分布比较均衡。分析存在这种情况的原因主要是随着图像识别技术和信息检索算法的日益成熟,通过技术的手段在图像中或海量的数据中检测敏感/隐私信息也越来越容易实现,因此,根据不同的场景定制个性化的敏感/隐私库,更能够满足个性化的需求。基于对数据融合、隐私算法/模型的改进来保护用户隐私数据的技术也是近年来的研究热点,专利申请量在三个技术分支中处于第三位。该技术分支偏重在底层设计,神经网络技术的快速发展,为基于神经网络模型的隐私保护提供了基础的算法支撑,并且模型能够更好地利用历史数据来为隐私保护提供更加精准的保护策略,因此,成为近几年来研究的热点技术。下面结合具体的专利分别对上述六个技术分支的专利申请进行分析。

二、基于对敏感/隐私数据监控

和追踪保护用户隐私数据的技术基于对敏感/隐私监控和追踪保护用户隐私数据的技术,早期的代表性专利有US20140026184A1,其对作为该获取的行为数据和由用户所定义的敏感性简档的函数,评估分数被分配给该目标联系人,该分数是关于由传播该用户的个人数据所表示的危险性。近年来,随着数据追踪监控技术的发展,敏感/隐私数据监控或追踪的技术手段越来越灵活和多样化。代表性的专利有CN110795751A、CN112596894A、CN112231715A、CN113094730A。其中,CN110795751A能够自动发现敏感数据,并根据数据分级分类规则和对应的安全防护措施,发现敏感数据并对其进行安全保护,同时监控敏感数据使用情况、数据流向信息,形成规则和模型:CN112596894A中基于异构数据对业务弱隔离环境下的数据安全态势感知,有助于及早发现业务系统中存在的安全隐患,提高业务系统的数据安全;CN112231715A中形成具备“智能识别、主动防护、监控响应”能力的一体化防护,可同时兼顾不同防护应用场景和数据流向生命周期的保护;CN113094730A设置数据泄露检测子模块,监测调取到医疗数据的药企对该数据的传播路径和次数,对违法行为做出警示提醒。

三、基于对敏感/隐私数据处理

保护用户隐私数据的技术对敏感/隐私数据执行特定的处理以防止敏感/隐私数据的泄漏是应用最广泛的一项隐私数据保护技术,其可根据不同的需求、不同的场景灵活设置数据处理策略。2018年之前的基于对敏感/隐私数据处理保护用户隐私数据的技术主要集中于对敏感数据/隐私数据的准确识别。代表性专利有CN106599713A、CN105653981A、CN108304726A、US2015213288A1。其中,CN106599713A该篇专利中采用基于规则和与自然语言处理结合的方式提升敏感数据发现的准确率,解决了带有语义的敏感数据无法识别的问题;CN105653981A提出了基于专家系统和自然语言处理的敏感数据自动发现方法,能够自动发现敏感数据;CN108304726A中的数据脱敏方法,将Apriori关联规则挖掘和敏感数据相结合,从而可以智能地找出人工不能发现的敏感数据组合泄露的规则方法;US2015213288A1中提供的PII(个人可识别信息)清理方法,清理器配置所提供的灵活性允许即使是从非结构化的数据中也只清理PII,无须包括周围数据。2018~2020年对敏感/隐私数据处理保护用户隐私数据的技术在各个不同场景或领域中的应用得到了快速的发展。针对不同场景/领域的特点,探索出不同的敏感/隐私数据的处理策略。代表性专利有CN111143880A、CN110781519A、CN110502924A。其中,CN111143880A通过对原始共享数据进行脱敏,获得脱敏共享数据,保障了共享数据的安全性,避免敏感数据的泄露,使得数据拥有方的原始共享数据的所有权和隐私得到有效保护;CN110781519A中对每个用户的语音数据进行三维脱敏处理,以保护用户的语音数据隐私,通过对语音数据的脱敏处理实现保护用户数据隐私和保证数据有用性;CN110502924A中基于识别出的目标脱敏数据中的每一个目标脱敏字段所属的敏感数据类型,确定目标脱敏数据对应的至少一个优选脱标脱敏字段的目标脱敏算法。2021年对敏感/隐私数据处理保护用户隐私数据的技术更加注重将神经网络技术和区块链技术应用于敏感/隐私处理。代表性的专利有CN112861179A、CN112580107A。其中,CN112861179A中通过训练文本生成对抗网络模型生成与包含敏感信息的解析文件相同统计特征和结构的脱敏数据,实现对结构化的文本信息进行数据脱敏处理;CN112580107A中的区块链系统利用审查算法对目标数据进行聚合运算,将聚合结果作为应答,返回给数据请求节点,从而能够不泄露原始数据。

四、基于对敏感/隐私数据的访问权限控制保护用户隐私数据的技术

通过对敏感/隐私数据的访问权限控制来保护用户隐私数据在技术层面实现更加简单和灵活,因此,被安全领域用作基础的防护手段。早期代表性的专利有US2012278830A1,该篇专利中,在遇到隐私和保密性时让用户进行控制,并且允许用户表达他们的隐私偏好,允许消费者控制隐私设置;2018年以后的代表性专利有CN110032888A,其根据预设的数据使用权限和数据使用者分类信息,对原始数据设置相应的数据使用权限,提高数据共享开放的安全可靠性;近年来,随着区块链以及算法的快速发展,越来越多的隐私防护技术中借助新的计算机技术实现隐私访问控制的精准性,代表性专利有CN109741803A以及CN112241543A。其中,CN109741803A设置敏感数据的密文访问控制策略,在信息认证、广播、传输过程中,通过数据脱敏和加密,充分保护个人隐私和数据安全;CN112241543A中通过理清数据中台中的敏感数据分布情况以及分类分级情况,实现基于敏感标签或敏感级别的授权访问控制,对敏感数据进行梳理、整合。

五、基于多方联合计算保护用户隐私数据

基于多方联合计算保护用户隐私数据技术,让不同机构的数据在保证数据隐私安全的前提下完成跨组织的联合分析与学习,是近年来发展起来的一种新型的隐私防护技术。代表性的专利有EP3580685A1、CN111967038A、CN112231746A、CN111931221A。EP3580685A1中提出的技术方案用于为由不受信任和/或独立方维护的数据项安全地确定隐私集交集或隐私集交集的特性的方法。隐私数据集的交集是指数据集中的每一个共有的数据项。例如,由几方维护的隐私数据集中表示的相同对象或个人的数据项可以被分类为在隐私数据集中的交集内;CN111967038A通过利用多方安全计算的方式对输入数据和执行代码进行处理以执行计算指令,防止数据泄露;CN112231746A中提供了一种联合数据分析方法,通过镜像等价模型得到关联其多方的特征,在没有相互泄露数据的情况下扩展了分析维度,提高了分析精确度;CN111931221A在不向对方或第三方泄露一方所拥有的数据对象具体的属性数据和特征数据的前提下,根据双方各自拥有的数据对象的第一特征数据、第二特征数据进行联合分组,避免在上述数据处理场景中泄露一方所拥有的数据对象的具体数据。

六、基于对敏感/隐私数据的识别和拦截保护用户隐私数据

基于对敏感/隐私数据的识别和拦截保护用户隐私数据是被广泛使用的一种隐私防泄漏技术。该技术分支具有领域性特点,不同的领域关注不同类型的隐私/敏感数据类型,代表性的专利有CN111079174A、CN110175623A、CN110020553A。CN111079174A中构建基于匿名化和差分隐私技术的用电数据脱敏算法模型,可以对用电数据进行脱敏;CN110175623A中涉及一种基于图像识别的脱敏处理方法,通过对多个图像识别模型的敏感特征识别结果进行核对来提升敏感特征识别的准确度;CN110020553A保护敏感数据的方法能够确保敏感数据被准确高效地发现和梳理,并对敏感数据的各个出口都进行保护。通过上述分析可知,该技术分支下,不同的领域在隐私防护过程中根据其各自的领域特定确定要识别和拦截的具体对象,从而实现有针对性的精准防护。

七、基于对数据融合、隐私算法/模型的改进来保护用户隐私数据

对隐私防护中具体使用的算法或/模型进行改进是近年来研究的热点,由于其属于偏底层的技术改进,技术的通用性强,并且通过模型或算法能够大大提高隐私防护中数据处理的效率及准确性。代表性的专利有CN110610098、CN111914287A、CN112464269A。CN110610098中保证在多方垂直分割数据的发布过程中,满足对于所发布的数据集的差分隐私的要求,同时发布的整体数据能够支持多种数据分析任务;CN111914287A中针对位置服务中的隐私保护方法,基于改进DTW距离算法,来量化用户的轨迹隐私保护程度,避免构造同步的轨迹数据集,科学评估轨迹隐私保护程度;CN112464269A的方法包括过滤出和任务相关的用户和数据、训练前用户选择、训练过程中用户和数据选择、模型训练,本发明采用了向量草图和随机响应机制,用户选择策略高效且带有隐私保护。从上述分析可知,该技术分支下,重点在于对模型或算法的改进,强调在防止隐私泄露的前提下最大程度的保证数据的可用性,使得数据分析结果更有价值。

八、结束语

从以上分析结果可以看出,前期对大数据挖掘过程中隐私数据防护的策略专利申请的主要集中在基于对敏感/隐私数据处理保护用户隐私数据,但近年来随着人工智能和区块链技术的快速发展,越来越多的专利申请利用多种技术的结合来进行隐私数据的防护。随着大数据分析在各领域的广泛应用,隐私保护面临越来越多的技术挑战,也为该领域的发展带来了新的契机,只有根据实际的需求,通过结合多种技术手段,才能更好地解决不同场景下的隐私保护的问题。

作者:张琳 石蒙蒙 单位:国家知识产权局专利局专利审查协作江苏中心

相关热门标签