“我们信息技术完全可以做得更好一些,完全可以帮着媒体可以做得更好一些。”(王晓阳,2021)
大数据杀熟是人出了问题还是技术?
精准营销也可以用在精准杀熟?
如何解释机器学习模型的不可解释性?
怎么促进黑箱透明化?
未来媒体访谈专访王晓阳教授,从“数据孤岛”到隐私安全,从溯源到信息关联,用两个黑箱的故事串联人工智能研究的内在脉络,智媒技术落地的广阔前景。
以下是访谈实录:
未来媒体访谈:我们今天非常荣幸地采访到复旦大学计算机科学学院的王晓阳教授,王晓阳教授在复旦有“男神教授”之称,我们今天也百闻不如一见。您的研究领域叫时空移动数据分析?
王晓阳:比方说我们平时出行,就是一个时空数据。比方我们城市管理,大量的行为,人的行为,都产生了所谓时空数据的一个东西,你在空间中行走,坐个出租车从A点到B点,通过了哪些点,我们叫轨迹数据,那也是一种时空数据,你什么时候出发,到哪里去,如果从文科的角度考虑的话,那就是社会管理的一个基础。
比方说我们最简单的就是去打车,怎么样去把出租车能够最快的派过来,这是最简单的。还有对我们的城市规划,星巴克,你要想设一个点,在哪里设?这个其实是时空大数据的一个典型的应用。你说你怎么知道在这儿设是最好的?这些都是我们从我们这个技术角度来说,把它归类在时空数据的一个分析问题,移动是讲的是说这个数据可能是从移动设备来的,或者这个数据本身就是在一个移动的时空,你不能光是一个静态的,而是一个动态的情况,所以这种情况下面我们怎么来分析数据,怎么找出它内在的一些规律,使得我们在各种各样的社会应用上面能够起到作用,这是我们大概做的一个事。
未来媒体访谈:大概两周之前,上海发布公告,以后来上海出差,要专门下一个APP,如果超过24小时,需要在上面登记姓名、身份证号、上海有谁接待你、你到哪里去,引起了轩然大波。但似乎就是便利和隐私之间的一个矛盾问题,您如何评价这个事?
王晓阳:从技术角度来看,其实就是数据不流通的问题。就像您说的数据其实是都有的,为什么不直接抓?它实际上是数据不流通,“数据孤岛”的问题。
我觉得就是隐私保护,跟我们的法律、法规制定,以及还有很重要的一个事情,其实隐私里面,大家都不太讲的,所谓的“责任人”问题——谁是责任主体?这件事情不清晰的时候,很难做到所谓的隐私保护跟数据流通之间的平衡,这很难做。
未来媒体访谈:“中国人脸识别第一案”已经宣判了,唤醒了大家对于人脸识别生物特征的保护的重视。我们从技术层面,如何防范这种生物信息不会被这些,它以一个正当的理由的方式采集走,就会丢失,这种事情技术方面能不能防范呢?
王晓阳:这里牵涉到几个方面,一个是法律要清楚。第二个其实更重要,我不是学法律的,但是法律它有自己的一整套体系,最难的其实还是执法,就是法律下来,谁能用?谁不能用?这其实是一个执法的问题。
首先,要引起大众的awareness(认识),大家都知道这件事情侵害了隐私,背后到底是谁在收集数据,其实都很不清楚。从技术角度,我们有各种各样的手段来做这些不同的保护。
但是真的要去用在我们社会各个层面,还有很长的路要走,第一点很重要,就是公众对这件事情认识。只要公众认识起来了,大家就会对厂家、服务商,有一定约束之后,法律再跟上,执法再跟上,我觉得就会好,目前人脸这件事情用得实在是太泛了。
未来媒体访谈:如何解释,似乎我们国家对技术更宽容,应用场景更多?
王晓阳:可能跟我们的社会管理体制有关系,咱们这边因为情况不同,所以随便设,我们路口的摄像头成堆地设置,这一块,我觉得可能是大家,第一,对政府也比较信任,再反过头来,可能会有一些问题,我觉得可能还是公众对隐私的awareness,他的认识度可能真的是有关系。
未来媒体访谈:刚好下一个问题,大数据杀熟这种问题的产生到底是人出了问题还是技术?
王晓阳:当然是人出了问题。是因为有了技术,使得这个人能够做这样的营销的手段,如果没这个技术,当然就没有什么可做的。现在所谓精准营销,这件事情其实是咱们业界最关注的点,精准营销也可以用在精准杀熟。所以这种情况下面,我觉得这个是由于我们有这样的技术,完全可以做到这一点,为什么会有出现杀熟?当然就是一个人的问题。
未来媒体访谈:我们经常说人工智能算法它这个模型是一个黑箱模型,他底层数据挖掘那个过程其实是被隐藏起来的。这种数据挖掘本身是可能是带有偏见的。这种事情我们从技术角度上能不能调整它的这种偏见?
王晓阳:所谓的偏见或者黑盒子的一个事,其实是我们对整个事物的理解,没有一个更透明的一种做法,也就是说这黑盒子的来源其实是这样:机器学习为什么能够产生效益?因为它能够从好像没有关系的成分里面找出关联性来,这个时候,它如果关联性一多,这个维度一大,我们人就不能理解,所以我们人去找的话可能找不到,机器可能因为它经过各种各样的计算之后找出来了,这个很难跟这个人去做解释,所以我们就变成了一个所谓的黑箱的说法。
所以目前的一个技术前沿,就是说能够怎么把这些黑箱的不可解释的机器学习的模型,能够做到更能解释一些。
也就是说你做任何的决策,你总是要有一个理由,我们人都是讲要讲一个理由,不能说没有理由的,这个确实是目前的我们的机器学习,由于对这种不可理解的模型,它的功能非常的强大,使得我们现在往前跑,跑得有点快,跑的非常快了,这个模型做出来非常强大很有用,但是反过头来我们不可理解、不可解释,这样的话使得我们对它有疑惑,但是反过来真的很有用,就像人脸识别,您刚才说的这个事儿,它怎么样子认出这个人脸来的,其实我们不清楚。
未来媒体访谈:咱们不清楚?
王晓阳:咱们不清楚,每一个点、每一块的反射,它都可能起到某种作用,是因为我们这个人对整个事物的理解它比较有限,不像机器能够精细,它可以上成千上万,甚至上百万个点上面去采集一个某种数据来说,这个人就是他。这样的话你说他这个东西怎么解释?
机器的认知跟人的认知还是有很大的差别,所以这样产生了目前的机器学习的算法的认知方法跟人的认知方法蛮大的一个差别。
这样的话形成了您说的所谓黑箱也好,所谓的不可解释性也好, bias(偏见)这件事情其实也是这样来的,就是因为我们不理解它怎么弄的,也许这个很多人说 bias其实不是它的bias,是你们数据的bias。
所以目前的技术发展确实有一个很大的领域,要把机器学习人工智能的算法等等的做成可解释性的,以人的认知的方式来理解这件事情是怎么做的,那样的话,我们才放心。
但这一点我不太看好,我们人类的认知可能是真的是有局限的,真的可能是机器能够做到一些,我们真的认识不到的一些事情。
这样的话两个问题就来了,它其实对我们今后的技术发展其实是起到一个阻碍作用,也就是说你如果坚持机器一定要做出来人能够理解的一个都明白的算法的话,它的能力也许,不一定,现在没有一个结论,也许是对我们机器的能力的一个限制。
当然我们希望能够做出一些技术来,使得限制不存在,更好,但我是有点悲观,我认为如果是真的所有的事情,都是要人能理解的情况下面去做的话,也许对这个机器来讲是一个限制。
未来媒体访谈:我们国家人工智能技术在国际先进领域中的真实水平是什么?
王晓阳:人工智能是一个多元的东西,它从基础的研究到应用,以及在各行各业的应用都有不同。我觉得我们国家有几个地方还是非常领先的,就像我们用得比较多的,像人脸识别、图像识别,这块用得非常多,而且我们从产业到研究都是非常领先的。
我觉得我们中国有一个最大的优势就是人多,人多的优势使得我们能够在研究的上面有一个很好的基础,原材料多、人多、应用场景繁杂,所以从这个角度我们的原材料好,原材料多,使得我们在这方面的研究,完全可以领先。但是如果是说从其他的角度,从这个基础,还有很多不同的角度来看,倒是不一定。
比方说有很多人说我们没有掌握基础算法,这个基础上所谓的掌握,其实这个讲法有很大的一个问题——什么叫“掌握”基础算法,我们都掌握基础算法,你有什么算法我们不能掌握的呢?问题是说我们能不能有一些新的基础的算法?这确实是我们比较欠缺的,我的感觉是我们国家研究的所谓的diversity(多样性)不够,就是多样化不够,我们研究的很容易就是一窝蜂上某一个的方向。
倒是国外,尤其是美国和欧洲,他们就会在很多个不同的方向去做努力,不时地,这里突然冒出一个东西来,我们经常发现的一个现象,你一窝蜂地在这边做,其实下一个热点在另外一个地方,对吧?
一般都是这样子,下一个热点是我们没人再去整体地去做的,为什么下一个热点在那里?是因为人家那地方都有人,每个地方都有人在做,那有一个地方冒头了,他就冒头了,我们这边不是,我们这样讲可能有一些绝对,但这边大部分的趋势是这样子——就是往热的地方走,一窝蜂地去干。
这一块儿我觉得,我们可能今后,从我们国家的科研布局,从我们社会的媒体关注度,也是要做某种调整,也就是说你不能说让大家只看到热的地方,不热的地方就不给他看了,也就是说领不领先这件事情,其实是跟我们国家,从布局也好,我们的关注度也好,这一块儿其实很有关系,我们要想在很多方面领先的话,我们就要在很多地方布局,而不是只盯着最热的几个方向来做。
未来媒体访谈:人工智能对我们的媒体产品服务提供哪些帮助?
王晓阳:有一个事我想特别提的,就在媒体这块,有一个工作可能是没有计算机来帮助就比较难做的事——所谓的溯源的问题。就是你的稿件或者您写的文章里面提到的某些个事实或者某一个结论它是哪来的?这一点其实很要紧。
这一点如果人去做的话往往是比较难。溯源这件事情,一方面,能够帮助我们的媒体人把这个工作能做好,另一方面,对读者来讲,也是很有用的一个工具。溯源就是信息源以及它的来源验证。
比方说有人在说谣言很多,最简单的方法就是,我们如果很容易找到它从哪来的,那就方便了。但是目前这个基本上是隔断的,也就是说大家发消息,我们媒体发的各种各样的公告文章,它的来源都是至少是对我们来讲,对读者来讲是一个黑盒子。这个黑盒子怎么把它透明化,其实是很要紧的事儿。
我觉得这个事情是把这个信息社会这一层,把媒体人跟信息层的交互的事儿能够做起来,能够帮助我们人怎么样去引导这些信息,它的来源信息,它的回溯。
未来媒体访谈:最后一个问题,您讲过区块链技术还能应用于智能媒体产业?
王晓阳:我刚才讲的溯源的问题,溯源的问题,现在一个很基本的技术就是所谓的区块链,区块链,其实它是一系列的技术,不是一个技术——所谓的追踪、溯源、所谓的不可篡改性等等提供了一些技术的手段。
当然怎么用,又是我们的事儿。这些技术手段在想在媒体这块,我觉得可能是可以发展的一个事,就是我刚才跟您探讨的所谓的溯源的问题,讲的小是溯源的问题,讲的大就是信息关联的问题,就是你讲的这句话跟其他的话它的关联是什么。
而且我们现代社会把所有的东西都可以记在同一个数据库里面了,对吧?虽然可能是分布式的,但是数据化了,数字化了,数字化的这样一个整个的宇宙里面,它们的关联性是什么?它们怎么关联的?关联之后,它是不是可篡改的,它的可信度是多少等等,区块链技术其实是希望在信息可信度上有技术性的保证,提供了一个可以想象的空间。