网络安全攻防之大数据安全问题
我们不知道我们的隐私何时被泄露。大数据时代,隐私泄露成为人们最关心的问题。大数据可以将互联网上的数据转化为有价值的资源,但是当大数据让人们的生活更加方便快捷时,隐私泄露也随之爆发。随着大数据采集和分析技术的发展,数据泄露的风险也越来越大,人们应该正视和规避这些风险。
1.肆意收集带来的隐私问题
在大数据环境中,可以通过医疗就医记录、购物及服务记录、网站搜索记录、手机通话记录、手机位置轨迹记录等来获取用户的信息。收集这些用户个人信息时,通常是未经用户同意,或者用户很少有机会去思考、去认同自己的数据的用途;是谁收集了自己的数据;是谁二次使用了自己的数据;如果自己的数据出现误用,将由谁负责;自己的数据是否在网上被恶意传播;自己的数据什么时候被销毁等。
在大数据环境下,可以通过医疗记录、购物和服务记录、网站搜索记录、手机通话记录、手机定位轨迹记录等方式获取用户信息。在收集这些用户的个人信息时,他们通常没有得到用户的同意,或者用户很少有机会思考和识别他们的数据的目的。谁收集了自己的数据;谁使用了自己的数据两次;如果您的数据被滥用,谁来负责;您的数据是否在互联网上被恶意传播;你的数据什么时候会被销毁等等。
因此,对于大数据平台来说,数据采集首先要脱敏。任何公民的个人信息都是“隐私”的一部分。未经个人许可或司法许可,如以原始状态收集数据,则需明确越界类别。原始数据的脱敏包括屏蔽姓名、证件号码、联系方式、地址等完整的关键信息。数据脱敏用于统计分析和处理,是大数据安全分析的基础。
2.集成融合带来的隐私问题
集成和融合通常采用链接操作使多个异构数据源汇聚在一起,并且识别出相应的实体。小数据源通常能够反映出用户的某个活动,比如接受的医疗、购买的商品、搜索的网站、手机留下的位置特征、与社交网络互动信息、政治活动等。融合不同的小数据可以更好地服务于数据分析与管理。零售商通过集成线上、线下以及销售目录数据库,可以获得更多消费者的个人描述信息、预测消费者的购物偏好等;GPS服务商通过集成路网不同路段上的传感器数据,可以得到更好的道路规划与交通路线。然而,多个数据源的集成与融合几乎能够推理出个人所有的敏感信息,无形中给个人隐私的保护带来严峻挑战。
因此,大数据集成融合应该在用户知情授权的前提下进行。啤酒与尿片这样的经典关联分析案例,现在看来也是一种大数据应用场景,而且并不针对任何个人的推销。但当我们针对消费者个人消费习惯进行大数据分析,并得到针对性很强的个性化营销策略的时候,其实消费者的隐私已在并不知情和未经授权的情况下被利用了,所以要针对个性化数据集成融合就需要以用户知情为前提。
3.数据分析带来的风险
目前,基于大数据的计算框架,其计算和分析能力非常高。通过分析,数据科学家可以挖掘大数据中的异常点、频繁模式、分类模式、数据之间的相关性以及用户行为模式。然而,大数据分析的最大障碍是数据隐私问题。在某种程度上,隐私并不可怕,可怕的是通过大数据分析可以预测用户行为。大数据下的个性化推荐系统是根据用户的兴趣特征和购买行为向用户推荐感兴趣的信息和商品的电子商务网站。但是,用户的产品购买信息和行为模式很可能被商业网站挖掘,导致隐私信息泄露。
因此,数据分析应该针对对象组,而不是个人。大数据分析可以发现同质性和趋势、关联性和耦合性。通过对大量脱敏数据的综合分析,可以发现一个社会群体的某些特征;通过一些常见的行为轨迹,可以发现事物之间的相关性。比如购物网站经常发布的网上购买量最大的产品是什么,视频网站经常发布的热门剧集是什么,搜索网站经常发布春节期间人口迁移的热度指数和人口迁移的方向和趋势旅行期间,这样的大数据分析都不针对具体个体,也不揭露任何个人信息。