首页 SEO攻略 正文

美团发布GDR通用隐私保护条例,影响社会稳定亟待解决

SEO攻略 2023-12-26 162

01

案例公司

美团成立于2010年,是一家科技零售公司,以“零售+科技”战略践行“帮助每个人吃得更好、生活得更好”的公司使命。

自成立以来,持续推动需求侧和供给侧的服务零售和商品零售数字化升级,与合作伙伴共同努力,为消费者提供优质服务。 截至2022年第三季度,美团已实现营业收入626亿元,年度交易用户数达到6.87亿。

02

项目背景

大数据时代,隐私泄露问题日益突出,不仅影响国家安全,也影响社会经济稳定,亟待解决。 以近年来发生的隐私泄露事件为例:

• 对国家安全的影响:Strava 运动软件记录用户的运动数据。 2018年它的用户超过2000万。来自世界各地许多国家的士兵都在使用这个软件。 Strava根据用户的运动数据绘制并发布运动热图,从而得出军事基地的位置。 被泄露了。

• 对经济影响:2023年2月,某物流公司疑似45亿条个人物流信息泄露,导致快递行业整体股价下跌。

• 影响社会稳定:剑桥公司成立于2013年,经过多年经营,获取了数以万计的Facebook数据,并对数据进行分析、分析性格、投放个性化广告,从而影响选民意愿,操纵多国选举。 。

• 影响版权和个人隐私:最近流行的生成式AI,包括ChtGPT、midjourney等,大模型具有很强的学习、分析和记忆能力。 如果个人隐私数据和公司敏感数据被大模型记住并共享,可能会造成数据泄露风险。 如图所示,中途生成的图片名为Space Opera,曾在美国艺术博览会上获得冠军。 版权属于个人还是AI模型,一直在社会上存在争议。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

针对隐私安全问题,国际国内出台了一系列安全法规。 国际上,欧盟于2016年提出《东德通用隐私保护条例》,并于2018年实施。实施以来,对包括Facebook、亚马逊等在内的互联网巨头处以巨额罚款,2022年罚款记录总额高达29 欧元。 国内也出台了一系列法律法规,包括2017年《网络安全法》、2019年《数据安全法》、2021年《个人防护法》等。国家网信办也对2022年某公司涉及大量面孔。 第一笔80亿巨额罚款是针对一家收集信息、相册截图、地址等敏感数据的公司。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

虽然数据存在隐私安全泄露的风险,但数据本身是有价值的,可以驱动社会和企业发展。 2019年,国家将数据纳入“生产要素”,带动数据流通、体现数据价值。

从政策上看,中央层面出台多项政策。 2020年,国务院发布《关于构建更加完善数据要素市场化配置体系和机制的意见》,提出培育数据要素市场; 2021年,全国人大发布《“十四五”规划》和《2035年远景目标》提出建立健全数据要素市场规则;2022年,国务院发布多份文件。 《要素市场化配置综合改革试点方案》提出,探索建立市场化规划的具体重点。4月,出台《关于加快推进要素市场化配置的意见》 《统一大市场》提出,培育统一的技术和数据市场。12月,还提出构建数据基础制度体系,促进数据合规高效流通和使用。

可以看到,数据元市场从提出到培育、从规划到要点、从技术到制度正在一步步深化和细化。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

一方面,数据存在隐私和安全问题。 另一方面,政府鼓励数据要素的市场流通。 隐私计算是更好的技术解决方案。 隐私计算发展至今,形成了以安全多方计算、差分隐私、可信执行环境、联邦学习为代表的几大技术:

1982年,姚期智提出了百万富翁问题,让两个百万富翁在不知道对方具体净资产的情况下比较谁更富有。 1986年,他提出了混淆电路解决方案,标志着安全多方计算的正式诞生;

2006年,为了抵御一切攻击并可证明,微软研究院提出了差分隐私。 主要思想是平滑两个相邻数据集中单个数据的差异; 同年,ARM实现了TrustZone,让数据在硬件层面安全高效地运行。 ,一个可信的执行环境诞生了;

2016年,谷歌提出了水平联合学习,允许数据在不离开设备的情况下相互安全地建模。 但联邦学习真正在国内走红是在2019年杨强教授对联邦学习进行概述并提出联邦迁移学习的时候; 2022年,他还提出了可信联邦学习,让联邦同时关注安全、性能、效率,做一些权衡。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

Gartner将在2021年将联邦学习纳入技术成熟度曲线,使其在商业上基本可行。 它预测,到2023年底,全球75%人口的个人数据将受到现代隐私法规的保护,全球80%以上的企业将面临至少一项以隐私为重点的数据保护法规; 到2024年,全球在隐私驱动的数据保护和合规技术方面的支出将超过150亿美元,隐私计算已成为许多公司的标准配置; 到 2025 年,60% 的大型组织将在分析、商业智能或云计算中使用一种或多种隐私增强计算技术。 从公开招标信息可以看出,政府和国企拥有较多的隐私计算项目,对数据流通的要求相对较高。 强大的。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

从2022年全球隐私计算计算地图可以看出,隐私计算产业链的发展日趋完整和成熟,包括投融资、学习研究、软硬件研发、行业应用等; 2022年,国家自然科学基金委员会将获得联邦学习的资助。 共立项35个,较2021年同期增长21%,总资助金额达1368万元。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

美团联邦学习平台的建设主要由三个方面驱动:

第一,业务需求。 公司多个业务线都有隐私计算需求,希望利用联邦学习进行外部数据探索,提升业务成果。 例如,在营销获客场景中,利用外部数据配合进行人群分析,然后通过短信、页面推送等方式提升人群转化效果; 在广告对外投资场景中,一般的RTA方式是利用媒体侧的用户行为数据,通过联邦让美团的深度数据和媒体行为数据尽可能融合,以提高广告的效果; 在金融风控场景中,比如美团与银行合作,银行可以利用美团数据进行风控; 另外,对于一些群体匹配需求,例如,一个人或者一群人是否是黑名单用户,可以利用PSI/PIR独立实现。

二是实际效益。 在业务驱动下,美团进行了一些POC验证,并与中国联通进行了联邦合作。 经过实际部署,效益还是比较明显的。

第三,必要的技术。 首先,从近年来的隐私保护问题和法律法规可以看出,保护用户隐私非常重要; 其次,通过实际的POC,证明联邦学习可以商业化落地,而不是停留在学术研究阶段; 美团是一家连接商家和用户的平台企业。 一些领先的商家已经意识到数据安全的问题。 联邦学习可以更好地保护商户数据; 最后,从各大龙头企业的应用来看,联邦学习已经成为必备技术。

从商业角度来看,有需求;有需求。 从收入角度来看,可以实施; 从技术角度来说,它是一项必要的技术。 因此,联邦学习平台的建设对于美团来说是必要的。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

联邦学习主要分为水平联邦、垂直联邦和联邦迁移学习三类:

• 水平联合:本质是样本的组合。 假设各方的特征重叠较多,但用户重叠较少。 比较典型的是端到端的联邦学习。 对于同一个APP,某些场景的用户特征类型基本相同。 但如果用户基本没有重叠,可以采用水平联合建模;

• 纵向联合:本质是特征的联合。 假设各方的特征重叠较少,而用户重叠较多。 例如,同一地区的两家互联网公司,由于场景不同,用户重叠较多,但功能重叠较少。 可以利用垂直联邦进行特征互补建模;

• 联邦迁移学习:对于功能和用户重叠程度相对较小的情况,例如不同地区、不同行业,可以考虑联邦迁移学习。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

互联网企业已经进入存量用户时代,但不同企业由于场景不同,用户特征也不同。 因此,美团在构建联邦学习平台时首先考虑垂直联邦学习。

垂直联邦学习主要分为两步:

第一步是执行 PSI 来交叉和对齐样本。 PSI允许参与者只知道交集而不知道非交集部分的ID和样本。 这也是垂直联邦建模的必要步骤;

第二步,对对齐后的样本进行模型加密训练,生成模型,然后进行推理。 训练方法有多种选择,比如多方安全计算、同态加密、差分隐私等。对于线性模型的半同态方法,会有一个协调器。 协调者将公钥发送给参与者。 参与者计算密文情况下的梯度和损失,然后将其发送回协调器进行解密。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

通过构建联邦学习平台,美团希望满足公司各个场景、数据层面的业务需求,并且需求满足安全、易用、高效三个条件:

• 安全性:保证平台各个层面的安全,包括系统层、算法层、通信层。 联邦学习平台与外部数据交互,比内部平台有更高的安全要求。

• 易用性:平台满足多种业务场景,企业无需了解底层引擎细节即可开箱即用,降低使用门槛。

• 高性能:美团各个场景的数据量较大,需要满足不同数据量的建模需求。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

03

解决方案

在构建联邦学习平台的过程中,美团面临以下挑战:

首先,从使用角度来看,基本都是命令行操作,操作门槛较高,没有可视化,也没有数据和任务的安全审计;

其次,从性能角度看,美团的很多场景数据量级很大,但主流的业务建模和PSI方案都是公钥系统,计算复杂度较高,难以满足业务需求。 有的场景基本都是几亿到几十亿的量级。 公钥方案需要对数据进行串行切片,效率较低。 在广告营销场景中,每天的样本量可以积累到千万级,用于训练。 数据量可达数亿级,半同态方法性能很低,难以支持实际需求;

第三,从安全角度来看,线性模型中存在协调器,协调器本身就会存在争议,比如放置在哪里,是否会串通等等。如果NN模型不进行保护,就会存在争议。标签泄漏和特征泄漏的风险。 此外,还有系统是否存在安全漏洞,导致数据被盗、密码长度是否满足安全假设等;

第四,在通用性方面,发动机有很多,不同的发动机差别很大。 需要解决如何选择引擎来满足业务需求。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

为了平台的易用性,美团围绕用户、数据、任务和权限构建了管理功能:

• 用户管理:用户是最重要的实体。 没有用户,平台就没有建设意义。 因此,需要提供用户管理功能,方便用户操作平台、优化流程。

• 数据管理:为了方便用户操作数据、进行安全审计,需要提供一系列数据操作功能,包括注册、发布、授权等。 注册是为了让数据在平台上可见,发布是为了让数据可用,授权是保证数据安全。

• 任务管理:任务最终会产生结果,是价值的体现。 任务本身属于某个项目,提供流程化的方式来降低用户的操作门槛。

• 权限管理:规范用户行为,避免安全问题,如用户访问权限、数据授予权限、任务邀请授权等。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

对于高性能平台的构建,重点是PSI(隐私集交集)和NN(神经网络):

PSI是隐私计算的关键技术。 它从基于哈希的交集开始。 双方需要使用相同的哈希算法计算ID的哈希值,然后进行交集。 一方将数据的哈希值提供给另一方。 一方面性能很好,但如果数据的明文空间不够大,比如手机号、身份证号等,可以本地破解找到不相交的元素,而可能存在泄漏的风险。

基于公钥的PSI目前业界使用较多。 盲签名算法和 ECC 椭圆曲线是常用的解决方案。 但公钥方案底层一般基于大数的模运算,计算复杂度高,性能低。

为了加速PSI,基于OT的算法诞生了。 核心是OT延伸。 主要思想是通过少量的公钥计算生成大量的对称加密密钥,然后进行PSI交集,因为对称加密主要进行异或运算。 因此计算速度较快。 2016年,BenyPinkas进行了一项实验,可以将数千万个PSI请求减少到86秒。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

因此,美团选择了基于OT的PSI解决方案。 核心原则如下:

假设有两方。 Bob 在他的数据线上执行布谷鸟哈希,并将数据尽可能分散在哈希卡插槽上。 Alice 也对自己的数据进行哈希处理,但使用的是普通哈希值。 每个元素都会被哈希三次,每个哈希卡槽都会有多个元素。 然后它与鲍勃相交。 双方只需比较同一个哈希卡槽中的元素是否相等即可找到交集。

中间过程为OT扩展,实现方式有多种,如从2个OT扩展中选1个、从N个中选1个OT扩展、从无限中选1个OT扩展等。2016年,KKRT PSI解决方案采用无限选1 OT扩张。 具体来说,Bob将散列数据(也可以视为秘密共享)分成两个矩阵。 Alice使用基本的二选一OT来选择两个矩阵,选择的结果就是对称加密。 密钥,然后使用密钥矩阵的每一行来加密每个哈希卡槽的数据,并将其交给Bob。 鲍勃可以将其与他分割的矩阵之一进行比较以获得交集。

如果把中间的OT扩展PSI过程抽象出来,就是OPRF无意的伪随机函数。 如果Bob的数据无法放入布谷鸟算力卡槽中,则会使用额外的存储桶来存储,然后与Alice进行交换。

美团在工程上也做了并行优化,包括单机多线程并行、多机分布式加速,可以满足亿级业务需求。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

互联网行业的搜索、广告、推荐等基本上都使用NN模型。 垂直神经网络一般是SplitNN架构。 标签侧guest有部分底层模型和上层网络,非标签侧host有部分底层模型和没有上层网络。 核心是中间的交互层。 在前向计算期间,主机将嵌入传递到访客标签侧。 guest计算出损失后,在反向传播期间将梯度发送到主机端。

这里的安全问题是,嵌入与主机的特征有关,梯度与访客的标签有关。 如果不加以保护,特性和标签可能会泄露。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

垂直神经网络的保护方案通常有两种实现方式:同态加密和差分隐私。 为了满足大数据的训练和推理,美团采用了针对特定场景设计的差分隐私方案,该方案性能较高,且对模型精度影响较小。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

逻辑回归在有协调者的解决方案中更为常见,但在实际场景中很难找到完全中立的第三方。 无论协调员放在标签方还是非标签方,都存在串通的风险。 解决这个问题的方案有很多,比如半同态、多方安全计算、半同态结合秘密共享等。

美团提供了多种实施方案,各有优势。 半同态解法流程清晰简单,易于排查问题; 秘密共享方案计算速度较快,但当稀疏数据量较大时,可扩展性较差,通信量较高; 半同态结合秘密共享的解决方案具有良好的可扩展性,但使用了大量的半同态,计算性能相对较低。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

对于平台通用性的构建,理想情况下一套引擎可以支持所有场景,但现实情况是引擎有很多,引擎之间的差异很大。 需要根据不同的场景和需求选择不同的引擎,即多引擎能力适配。 为了让引擎使用起来安全、高效,美团在多个引擎上实现了安全、高性能的解决方案,并将引擎的存储和计算分离。 例如,将Hadoop和Spark集成到公司内部平台中,以提高流程效率。 。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

未来,美团联邦学习平台将持续迭代,规划向以下方向发展:

首先,非对齐的垂直联合。 一般的垂直联邦场景,第一步是PSI,然后是建模。 然而,PSI之后,数据规模将大大缩小。 有必要探索如何利用大量不相交的数据进行模型训练。

其次,绘制联邦地图。 图神经网络可以充分探索数据关系,为业务带来更大价值。 通过联邦,更多的数据可以用图结构来表达,充分发挥数据的价值。

三、断峰峰。 数据基本来自端侧,比如手机、平板等。现阶段,端侧推理已经在业界得到广泛应用,端侧训练能力也开始搭建。 然而,单个设备的数据和计算能力是有限的,端侧联邦可以进一步开发价值。

第四,互联互通。 目前市场上隐私计算产品较多,差异较大,影响数据元素的流通。 互联互通是一个很好的解决方案。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

美团基于联邦学习平台,进行店内服务消费分析场景隐私计算的价值验证,与联通数通开展数据合作,利用垂直联邦学习技术开展通信行业与互联网的数据合作行业提供店内服务。 消费提高转化率。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

数据方面,美团有互联网数据,包括历史消费数据,总共73个维度,还有用户是否下单等标签数据; 中国联通有通讯行为数据、手机话费套餐等,共72个维度。

项目经历了需求调研、建模方案制定、建模样本识别准备和标签定义、特征处理、数据探索、模型训练和评估、业务上线等阶段。

建模时,双方将准备好的数据注册到平台上进行授权,然后开始任务。 建模的第一步是PSI,然后对对齐的样本进行模型训练。 在此过程中,不断调整模型以深入了解特征的重要性。 模型经过训练和评估达到预期后,即可投入业务实际交付。 在整个过程中,美团和联通都用高质量的多维丰富特征,​​让数据变得可见和不可见。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

项目的安全性体现在全流程,包括平台对数据的安全审计、授权管理等。PSI采用基于OT的高性能PSI,理论上安全可验证,不会泄露不相交的用户信息。 选用的模型是基于同态加密的XGBoost。 Guest端进行标签加密,Host端进行密文的数据直方图计算,然后返回Guest解密以确定最佳切割点。 整个过程不会泄露标签和特征,并且模型精度无损,不需要可信第三方。 性能层面采用多指令打包和压缩技术,减少通信和计算开销。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

04

价值与效果

基于联邦学习的店内服务消费分析项目在美团内部起到了很好的标杆作用,也创造了更大的想象空间:

技术价值方面,验证了隐私计算模型在大规模联合建模场景下的有效性,建立了有效的性能提升方案,探索建立“可用、不可见”数据元素流通新范式,为行业提供数据流通。 参考模板。

经济价值方面,通过高效精准的供需匹配,提高消费交易的效率和规模,平台助力社会经济发展更加高效; 通过数据赋能业务发展,加速实现规模化业务运营,降低成本,提高运营效率。

社会价值方面,我们将持续提升用户服务体验和服务质量,以更好的服务帮助用户吃得更好、活得更好; 积极探索合规与安全行业实践,规范数据合规应用,推动要素市场趋势。 成熟完美的贡献。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

项目成果可以帮助平台更好地识别用户潜在需求的类型和时机,指导平台进行“人-货-场”匹配,在合适的时间为用户提供更匹配其需求的商品或服务,提升用户体验的同时带来商业效益。 更多的成长空间。

从应用范围来看,可以通过首页推荐来匹配用户需求,向用户推荐合适的产品。 您可以在服务入口对品类进行排序和优化。 还可以通过站外推送的方式召回用户,提高用户转化率。

店内服务消费预测分析,其探索流通模式具有良好的通用性,具备向店内餐饮、店内生活服务、店内住宿、出境游等线下场景拓展的条件美团系统,有着广阔的应用空间。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

从模型性能来看,与单边建模相比,新客户场景的AUC提升了7.4%,老客户场景的AUC提升了2.5%。 效果是相当明显的。 从模式效果、商业效益、数据安全等方面来看,基于隐私计算的数据流通是可行的、必要的,也是安全法规下的技术方案。

痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密_痞子瑞seo深度解析:全面挖掘搜索引擎优化的核心秘密

什么是锚文本链接?怎么做SEO网站优化变简单
« 上一篇 2023-12-26
百度seo的算法规则:掌握规则才能掌握seo优化
下一篇 » 2023-12-27

文章评论