我的数据谁做主?

用户的数据主权在觉醒。

文 | 白硕

作者现为Chinaledger技术委员会主任 ,先后就读于清华大学 、北京大学 ,1990年获得理学博士 ,曾任中科院计算所研究员 、博士生导师 ,软件方面首席科学家 ,2002年起任上海证券交易所总工程师 。区块链技术专家 , 自然语言与人工智能方面学者 。

迟来的觉醒

数据,被比喻为数字化时代的金矿。今天,数据的价值得到各方面前所未有的重视,被视为基础战略资源和核心资产。

在过去的一段时间里, “互联网经济”野蛮生长,“跑马圈数据”蔚然成风,造就了挟流量以自重、拥数据以为王的时代宠儿——互联网平台公司的巨头们。在他们所支配、所交易、所挖掘的数据里面,很大一部分数据从法理上讲是属于用户的,当然也有一部分是数据从法理上讲是属于平台的,此外还有很大一部分数据的产权归属尚不清晰,但是平台公司使用这些数据有着近水楼台之便。

于是,平台便成了天然的数据“收割机”。它汇聚流量、打通场景,形成闭环,呈现粘性。平台公司凭借这些“大数据”,为用户提供了便利,为自己获取了暴利,但也触碰了用户的数据权益痛点。

据说中国的C端用户在这方面对平台公司格外宽容和理解,宁愿牺牲自己的数据权益来换取平台提供的方便,但这也只是巨头如Robin们的一面之词。B端用户则面对云、SaaS和企业互联网等铺天盖地的技术蒙汗药,除了少数勇敢的尝试者之外,更多的则是蜷缩在数据孤岛上,因担心数据扩散而不敢共享、因担心数据不能产生预期合理回报而不愿共享、因各种合理的监管规定而不能共享。

当今世界已经不是那个全球化凯歌高奏的世界。全球化已经遇到了实实在在的瓶颈,而数据主权与数据安全,则成为构筑国与国之间新的篱笆墙的强有力的理由。

人与人、人与机构之间数据主权的边界也逐渐从无到有,从模糊到清晰。机构的数据主权虽则一直没怎么松口,但在花样翻新的云服务特别是SaaS面前,正处于且战且退、几近失守的边缘。这是数据主人夺回自己神圣权利的背水一战。

美国针对涉嫌被泄露的Facebook用户隐私数据用于操纵选举进行了严厉追究,欧盟出台了史上最严格的数据权利保护法案,中国也在这方面的立法工作中有所推进。值得一提的是,中国依法对一批数据权属不清、来路不正的所谓“大数据公司”进行了惩处,一举扭转了数据黑产、灰产猖獗的态势,实乃大快人心。

从大的时间尺度看,中国用户的数据权益意识正在觉醒。虽然这觉醒与平台的突飞猛进相比有点姗姗来迟,但已具备深刻影响我国乃至全球数字化进程的未来走势的巨大能量。

但是,仅有觉醒是不够的。目前的这种局面,只是对前一阶段互联网巨头单兵突进,数据治理、数据权益保护和数据生态建设没有同步跟进造成的困局的一种反弹性的恶补,一种矫枉过正。让数据回到孤岛之内,再用篱笆墙圈起来,权益或许是明晰了,但是已经数字化的世界、已经四通八达的高速公路却被一个个的卡子拦腰截断,这也绝对不该是数字化的初衷。

国际政治波谲云诡。一记记砍向崛起中的中国的杀招,无论针对华为的还是针对TikTok的,细看都是在拿数据说事儿。中国心里没鬼,自然可以如前些日子发布的《全球数据安全倡议》那样,高举数据安全的旗帜,带头做出不侵犯用户数据权利的承诺。我们也看到苹果的新版系统里面增加了用户主动控制隐私保护选项的功能。

尽管如此,目前我们还不能指望用一个不能自证的黑盒子就能打消用户(尤其是国际用户)对自己数据安全的疑虑,更谈不上靠目前的技术水平就能在数据安全方面立于无可指责之地。

迟来的觉醒不是为了回到过去,而是为了更安全、更有序地通向未来。既然造成这一切的始作俑者是平台,那我们就从平台说起。

不平的平台

是什么造就了“平台”?是所谓的“互联网经济”。互联网经济的实质就是平台经济、流量经济、眼球经济。平台不平,这是一切问题的根源。

我的数据谁做主?

平台不平,就是说平台隐含了信息的拥有者和信息的使用者之间的一种过度的不对称性。关于互联网经济,一个众所周知的大白话就是“羊毛出在猪身上,由狗来买单”。这话虽糙,但理不糙。一项为广大C端用户提供的免费服务,这好比是“猪”;广大C端用户在使用这项免费服务的过程中提供和产生的大量数据,这好比是“羊毛”;真正认识到上述数据的价值并且使用上述价值创造更大商业价值的交易,这好比是“狗”。薅数据这个“羊毛”,是互联网经济的最本质的属性。

在这笔交易的背后,广大的C端用户,正是以数据权利的代价,换取了免费服务的便利。到后来,数据寡头的垄断态势已成定局之时,就算服务或明显或隐蔽地不再免费,已经到手的便利也成了让人上瘾的诱饵,欲弃之而不能了。

平台为什么能够有如此神奇的数据汇聚能力,也就是所谓的“粘性”?这要从“常委定律”说起。

话说在认知心理学领域,有一个著名的“7±2定律”,意思是说,人类的短时记忆的容量,考虑到个体差异,大约在5~9之间呈正态分布,平均数为7,误差范围大致为2。也就是说,小于5和大于9的情况比较罕见,这个数字,和我们中央政治局的常委数目的变动范围比较类似,故也被戏称为“常委定律”。

常委定律告诉我们,眼球资源是有限的,在数屏的App当中,真正被用户经常使用的App也就是个常委数目,倒推下来,在我们这样一个十多亿人口的大国,有机会留在大众的眼球中的App,没有个几亿用户根本拿不出手,更别说挤进前10名以内了。

在这样的格局下,千军万马抢入口,也就不足为奇了。

以家庭场景为例,正如我们早年在理深科技时评上发表的《Alexa旋风》一文中所指出的那样,“合纵连横”的戏码你方唱罢我登场。纵,指的是同一家电厂商的不同家电产品,从音箱到冰箱、洗衣机、电视机、抽烟机等等,都在争相成为用户访问数字世界的入口,把用户的数据向家电厂商汇聚;横,指的是有机会成为在家庭场景里的数据汇聚者的各类设备,如家庭路由器、家政机器人、异构家电中控等,都在争相把物理上的咽喉地位提升为用户访问数字世界的入口地位,把用户的数据向自己的领地汇聚。

我的数据谁做主?

就连“输入法”的供应商,都还记得去抢电脑屏幕的“右下角”呢。如果不是为了拿数据(且不管拿数据的动机是什么),手机厂商为啥不把通信枢纽的功能做成开放框架,让第三方来做大大小小直直弯弯可叠可卷的屏幕、做各种互动传感设备呢?,如果仅仅是个通信枢纽,谁还在乎你是“手机”还是“脚机”呢?

在这样的格局下,如果说争抢“入口”是进攻套路,那么尽量营造一个封闭的生态,也就是说数据对外来应用“欺生”的生态,就是十足的防守套路。自家的应用访问自家的数据,开尽方便之门;别人家的应用访问自家的数据,门儿都没有。其结果,数据的王国必然是独立王国,数据的垄断是不可拆分的垄断。数据寡头必然是无冕之王,对社会生活的影响、渗透和控制,比之传统产业的寡头可以说有过之而无不及。就连强有力的政府和监管部门,对它们也要忌惮几分。

在这样的格局下,互联网业务的“金融打法”必然会滋生,“账户为王”必然成为构建互联网金融基础设施的基础理念,有了账户,大数据的语义指向、信任指向和金融指向都在不可逆转地推进。在搜索引擎上基于“一时起意”、通过cookies建立的临时账户同在电商、社交类平台上建立起来的有稳定存在感、有持续互动行为、有真金白银流动的永久账户相比,败落下风似乎是理所当然。

在这样的格局下,“赢家通吃”几乎成为唯一的一种竞争模式。其残酷、血腥,令多少怀揣梦想的创业者止步并铩羽在赢家通吃的滚滚车轮之下。中小规模的服务者,不投靠平台就没有生路。平台是数据汇聚的最终归宿,也是依托数据汇聚开展的那些号称“躺赢”的平台型公司的摇钱树。平台明明如此不平,平台方在宣称平台是平的时却那样地心安理得,以至于全然无需自证清白。

这一切,都是因为同一个看上去在技术上颠扑不破的真理——假如数据不汇聚,我平台能做的一切你都做不了。从技术上憋死别人,我打你,那是绞杀;在技术上铁板一块,你打我,那是踢铁板。这是数据寡头们最为关键的凭仗

。赢家之所以通吃,赢就赢在这道技术壁垒上。中小规模的服务者要想破局,卡就卡在这道技术壁垒上。没有技术的金刚钻,法律上再好的反数据侵权、反数据垄断的瓷器活儿,也难以在技术上落地,反而屡屡被平台所旁路。名义上,数据的所有权归我,事实上,平台却在掌控着数据的使用权。

我的数据,究竟是谁在做主?

艰难的重构

其实从上面的分析不难看出:平台不平,与其说是赢家通吃的结果,不如说是赢家通吃的原因。

因果关系一旦理顺,主攻方向也就明确了:寻找让平台更“平”的技术,让平台不管数据是否汇聚,都能如同汇聚一样产生聚合性的服务效果,让数据的每个贡献者都能从这“不汇聚的数据”所产生的“聚合性的服务效果”中行使属于自己的那份权益。

这个看上去似乎不可能的目标,正在技术极客们的努力推动之下,艰难地推进着。三股涓涓细流,正在汇成数据权益保护技术的大河。

第一股细流叫多方安全计算。这是一种高级的密码学技术,试图用某种不泄露数据的特殊密码学算法,向外界自证该数据上的一些可验证的特定的关系,比如等式关系、不等式关系、包含关系、运算关系等等。

我的数据谁做主?

第二股细流叫联邦学习。这是一种高级的机器学习,试图让数据待在原地不动,等模型找上门来训练,走的时候只带走学到的参数,而不带走数据本身,也就是说“数据不动,模型动”。

我的数据谁做主?

第三股细流叫区块链。这是一种在非信任的数字化环境下提供信任服务的基础设施,不仅可以把多方安全计算和联邦学习无缝地嫁接在由多方维护和验证的存证、定序、价值流通平台之上,而且也可以利用这个平台加上某些常规密码学算法搭建而成的隐私协议来作为前两股细流的补充。

我的数据谁做主?

三股细流汇成的大河,构成江湖上一套崭新的功法,口号是:“数据可用,不可见”。

可用,就是说数据所包含的某种关系,是实打实得到证明的,是可以放心去让“外人”们去见证、去使用的;不可见,是说数据的本尊,是得到妥善保护的,是那些“外人”们看不见、拿不到,也间接推测不出的。即使看见,也是穿了马甲戴了面具的数据,或者是用不可见的数据熬出来的已然面目全非的“汤”。

比如,可以让“外人”们确信A+B=C这样的等式约束,A>B这样的不等式约束并为之做出见证,然而关于A、B、C长什么样,却一点头绪都摸不到,或者最多只能看到一堆代表A、B、C的乱码而已。

能纳入这个框架的“关系”越多,这条大河的奔流就越汹涌。当它奔流到海之日,就是数据权益保护大功告成之时。

我的数据谁做主?

当然,所谓“我的数据”,并非只是狭义地指称“我拥有的数据”,它还可以是“关于我的数据”或者“反映我的行为或状态的数据”。后面两种数据,从目前技术发展水平来看,甚至用了上面说的打法也未必有多大用。除了“事后监管”,似乎别无它法。但是,能干的事情也已经不少了,比如隐私货币、征信、共同用户推荐、策略交易等等。有兴趣的朋友可以参阅相关文献做更深入的探讨。

这样的努力,绝不仅仅是工程层面多了几个应用项目那么简单。它是针对已经走偏了的数据寡头垄断格局的一次艰难的重构,意义更在于向“我的数据我做主”的境界迈出坚实的步伐,给迷茫困惑之中的数据孤岛照去一缕希望之光。仅凭我们说到的技术能走多远,或许还是要画上一个大大的问号,但是后浪们一定会在这个方向上发展处更牛的技术,把重构进行到底。

彼岸长什么样?笔者在这里斗胆猜测以下十二个字:“平台留下,数据回去,公司解散”。平台是好东西,但是平台应该大家建、大家用、大家分享收益;数据是宝贝,不能拿出来,但是所幸有黑科技帮忙,不拿出来也能干成事儿;平台型公司没有必要存在,大家用联盟的形式运作平台即可,不需要一个“躺赢”的平台主人。也许这猜测过于乌托邦,但不试怎么知道?

危险的集中

说完了公司,我们再来用一点笔墨说说政府。

政府有集中数据的权威,也有使用集中后的数据的权威。这些都不是问题,问题是,这些数据并不是十分安全的。越是有价值的数据,管理它的人越会面临巨大的道德风险,成为数据黑产的围猎对象。如果管理它的人不是政府的直接雇员而是斯诺登那样的外包商雇员,这后果就更可怕了。

所以,能分散搞定的事情,在数据不动窝(不是指物理上的不动窝,而是指管辖边界上的不动窝)的情况下就能搞定的事情,千万别为了追求数据大一统而强行搞数据集中。太多的前车之鉴说明,那是危险的集中。更何况,平级的政府部门之间,数据大一统也不是很好搞定的,这里面本位或许是一个问题,但安全其实是更大的问题。

如果说过去搞数据大一统是因为没有可行的技术手段在数据分散的状态下满足应用的需求,但是有了我们说的这一套能使数据“可用不可见”的技术,数据大一统的必要性大大降低。联邦化的数据存储和治理格局,会成为未来政务数字化建设的一个严肃的选项。

(本文作者白硕,文章首发公号理深科技时评,新经济沸点经授权转载。)

本文来自投稿,不代表新经济沸点立场。新经济沸点优质内容同步到虎嗅、钛媒体、36KR、21财经、亿邦动力、创业邦、和讯网、新浪看点、微博、搜狐、网易、一点资讯、百度百家、今日头条等平台。

发表评论

登录后才能评论