合成数据如何解决匿名化问题？

发布时间：2021-03-13 14:55:58 所属栏目：动态来源：互联网

导读：能和机器学习算法。但现在，为了避免数据泄露，许多企业都将自己的数据严格控制，并对谁能在何时获取这些数据制定了严格的程序。尽管这是数据隐私的一个积极趋势，但它仍然限制了组织的数据灵活性和创新能力。传统匿名化的问题聪明一点的企业现在正在寻找

能和机器学习算法。但现在，为了避免数据泄露，许多企业都将自己的数据严格控制，并对谁能在何时获取这些数据制定了严格的程序。尽管这是数据隐私的一个积极趋势，但它仍然限制了组织的数据灵活性和创新能力。

传统匿名化的问题

聪明一点的企业现在正在寻找新的隐私增强技术，以便在数据效用和安全性之间取得平衡，有很多企业现在在“匿名”数据集上运行数据密集型流程(例如测试和数据分析)。

匿名化技术多种多样，但最常用的方法之一是一般化，即将数据点的特殊性(如客户的完整家庭地址)更改为更广泛的数据点(如客户的地区或城市)。通过牺牲数据集中一定程度的实用功能，确保数据集中的个人是匿名的、不可识别的。

匿名化变得如此流行的原因之一是，GDPR并不适用于匿名化的个人数据。但更令人担忧的是，最近的研究表明，目前使用的大量匿名化在掩盖一个人的身份方面效果很差。在绝大多数情况下，机器学习模型可以重新识别个人。

所以，实际上你并不需要个人的详细信息来识别他们。因此，传统的匿名化技术根本达不到要求。

复杂的合成数据

在综合数据集中，每个数据点都属于完全理论化的个体，有自己的名字、年龄、地址、银行账号、税务记录、医疗记录，以及数据分析所需的任何其他细节。从历史上看，这些数据的主要问题是很难生成足够高质量的合成数据，以满足高级数据科学的需要。

然而这些情况都会随着人工智能和机器学习的发展而改变。通过在“真实”数据上训练算法，我们现在可以生成保留原始数据所有底层统计信息的合成数据集，但个人或可识别信息为零。

一个简单的方法是通过Nvidia生成对抗网络(GANs)的方法，这是This Person Does Not Exist网站背后所用的技术。该网站利用真实的名人面孔数据集来生成不存在的人的超现实图像。本质上，这是合成数据，每个人都有许多可以分析的属性(例如眼睛的颜色、头发的颜色、肤色)，但是这些数据不能被破坏，因为它们不属于真实的人。

如果将这项技术应用于客户数据，您就可拥有可以在整个数据科学团队中共享的数据，并用于各种建模，不需要过多的管理，也没有隐私风险。同时，您的“真实”客户数据可以存储在一个安全的服务器上，很少有人需要访问它。

写在最后

（编辑：盐城站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

快来新宇宙：为什么元	零售行业应当怎样做好
擎朗机器人进入万豪酒	为什么说抖音开放平台