欢迎来到工作报告网!

瑞士物理学家拟10亿欧元打造超级机器预测未来

文员实习报告 时间:2023-07-11 09:10:08

超级机器预测未来

如果你将有关这个世界的所有数据输入一个黑盒子,这个黑盒子能否变成一个水晶球,可以让你窥见未来——甚至还可以根据你的选择来测试将要发生什么?至少有一个人认为可以,而且他即将获得10亿美元的资金来打造这个黑盒子。

其实问题本身非常简单——希腊到底要不要退出欧元区?但问题将会带来的后果却很难预料,其结果过于复杂,即使是世界上最聪明的专家也无法把握这一切将会带来的变化。

德克·赫尔宾(Dirk Helbing)是一位物理学家,同时也是瑞士苏黎世联邦理工大学的社会学教授,他试图花费10亿欧元来打造一个计算系统,用以对世界上将要发生的事情作出有效预测。赫尔宾的系统绝不仅限于用来预测金融、政策或环境等的某一方面。他的目标非常明确,那就是要预测一切——即这个世界上的所有事情——从而找到决策者面临的最棘手问题的解决方案。这个项目的核心部分被称为“活地球模拟器”(LivingEarth Simulator),它试图模拟一个全球尺度的系统——包括经济、政府、文化趋势、流行病、农业、技术发展及更多领域——这需要用到巨量的数据流、高级的算法,以及能让系统运转起来的硬件设施。在赫尔宾的竭力推销下,欧盟委员会被打动了,因此,他们在有6个项目参与的最终角逐中,将赫尔宾的项目排在第一位,并向他的项目投入10亿欧元。

这个系统是对“巨量数据”最具雄心的表达,在许多科学家看来,此趋势堪与当年望远镜或者显微镜的发明相媲美。美国哈佛大学医学教授、社会学家尼古拉斯·克里斯泰基斯(Nicholas Christakis)说,呈指数式增长的数字化信息将计算机科学、社会科学、生物学等通过各种方式结合在一起,这让我们有能力应对那些此前无力解决的问题。克里斯泰基斯举了一个例子,无处不在的手机可以创造出大量的数据,比如一个人正在前往什么地方,他们在购买什么,甚至可以追踪人们都在思考些什么。很多科学家都相信,只要将这些数据同其他类型的数据结合起来——比如来自基因组学、经济学、政治,以及其他领域的数据——众多新颖的探索领域很快就会向科学家敞开大门。

“科学上的进步一般都是由仪器来推动的。”戴维·雷泽尔 (David Lazer)说,他是美国西北大学计算机和信息科学学院的副教授,同时也是赫尔宾项目的支持者。有了工具,任务也就随之而来,如雷泽尔说的那样:“科学就像一个醉汉在街边的路灯下找钥匙,因为那儿的光线更好。”对赫尔宾的支持者来说(其中包括来自全球的数十位备受尊敬的科学家),10亿欧元的资金足以获得非常明亮的“光线”。但仍有许多科学家对是否需要将全球的数据汇集到一个中央数据库持怀疑态度。他们认为,更好的方式是通过互联网形成数据云,然后通过链接来使它们能供所有人利用。这种数据分享格式能让更多人有机会浏览查看数据,然后找到潜在的联系,并为有竞争力的创意创造一个交流场所。

超级复杂顶级模型

对现代科技而言,寻找各类数据之间的联系实属稀松平常,即使现在这些数据堪称海量,它们之间的关系也相隔十万八千里。例如,美国麻省理工学院人类动力学实验室主任亚历克斯·彭特南德(AlexPentland)指出,研究者已积累了大量有关人类行为的匿名数据,足以通过分析这些数据,找出诱发II 型糖尿病等“行为方式疾病”(diseases of behavior)的行为学和环境方面的复杂因素。彭特南德说,这种海量数据挖掘的方法使得一项始于1948年、累计有5209名自愿者参与的极具创意的心血管病研究[俗称“弗雷明汉研究”(Framingham study)],看起来就跟一项小组研究差不多。

然而,赫尔宾的“未来信息通信技术知识加速器”(FuturICT Knowledge Accelerator)以及“危机缓解系统”——这是该项目的正式名称——远远超越了数据挖掘的范畴。该项目包括“全球危机气象台”,四处搜寻危机出现的苗头,例如食物短缺或者流行病的出现。它还有一个被称为“地球神经系统”的组成部分,能将分布在地球各地的传感器采集到的数据汇总起来。但是,FuturICT的核心还是要数“活地球模拟器”,它可以对世界上正在起作用的,来自社会、生物、政治以及物理的无数力量进行模拟,并利用它们来获得对未来的认识。

模型的出现已经有大半个世纪了。早在1949年,一位来自新西兰的工程师及经济学家比尔·菲利普斯(Bill Phillips)用水管零件和一台拆下的汽车雨刮马达打造了一个模型,向世人展示了英国的经济是如何运转的。此模型基于对消费者开支、税收以及其他经济活动所进行的“假设”调节,用有颜色的水模拟收入的流动。尽管用今天的标准来看,菲利普斯的模型还相当初级,但它却具备了模拟的基本运作方式:规定各个要素之间的一系列关系,输入数据,然后观察结果。即使预测效果不准,这种误差本身也能成为有用的信息,可以用于改进模型。

现代社会没有电脑将寸步难行,没有模型也一样难以运作。但是你能时时刻刻都使用足够多的水管与水泵来建模吗?不仅是对火山喷发、短期经济增长的影响建模,而且还要针对人类行为涉及的所有领域,从教育到疫苗的分配,能做到吗?赫尔宾给出了肯定的答案。他的自信部分源自他已经成功模拟了另一个复杂的系统——高速公路上的车流。通过在计算机上对车流进行模拟,赫尔宾和同事设计出了一个模型,这个模型显示(同样是在计算机上),如果减小运行中的车辆的间距,就能消除因汽车走走停停而浪费的时间。非常不幸的是,这个间距实在太过微小,以至于只有机器人驾驶才能做到。同样,赫尔宾还介绍了一个由他充当顾问的计划,即模拟麦加的朝圣者人流。此计划的结果是花费10 亿美元重新规划建设当地的街道与桥梁,从而避免朝圣者互相踩踏造成大规模伤亡。实质上,赫尔宾把他的FuturICT 系统看作是这些交通模型的一个精心制作的放大版本。

但是,这种模拟只对很少一类情况有效,美国哈佛大学定量社会科学研究所的加里·金(Gary King)说。在高速公路交通和麦加朝圣者的案例中,每个人(或者每辆车)都是朝着相同的方向前进,而且都希望能够尽可能安全、快捷地到达目的地。反观赫尔宾的“未来信息通信技术知识加速器”却旨在建立复杂的模拟系统,这些系统内的人可谓形形色色,动机也各不相同;既有各种意外事件,也有无数复杂的反馈,并且可以通过输入、输出以及反馈回路与其他相关系统相连。例如,一个城市的经济模型就依赖于该城市的交通模式、农业生产、人口统计资料、气候和研究者计划打造一个能模拟整个世界以预测未来流来支撑。一种效果更佳的知识机器或许将诞生于万维网式的计算系统。然而,模型不够完美,许多研究者认为世界的复的运作机制,例如互连与争论。这个项目将由研究人员现在随时可用的巨量数据杂性是模型永远也看不懂的。

流行病学情况,当然,这里只提到了其中一部分。除了要面对令人望而生畏的复杂性问题,科学家还列举了一个综合系统所必须征服的一大堆相互关联的挑战。首先,我们目前还不具备一套完备的社会学理论,而这正是一个系统的起点。加里·金解释说,当我们拥有一套可靠的关于事物如何运转的理论后,就可以建立起一个能够成功预测结果的模型,比如对物理系统来说就是这样。但是,目前我们所掌握的无论哪一种社会行为学理论,在预测能力方面都还远远落后于物理学定律。不过,加里·金指出了另一种可能性:如果我们拥有足够多的数据,我们就可以基于一些关于“规律如何形成的线索”来打造模型,甚至不用去知道规律到底是什么。例如,如果记录下地球上任意地区的气温和湿度在一年内的变化情况,我们就可以开发出一套相对准确的天气预报系统,而不需要懂得流体动力学或者太阳辐射什么的。美国西北大学复杂网络研究中心主任阿尔伯托—拉斯洛·巴拉巴希(Albert-László Barabási)认为,我们已经开始利用数据来梳理一些有关人类系统的规律了。巴拉巴希同时也是FuturICT 项目顾问,他和同事最近公布了一个模型,可以根据人们过去的出行习惯,预测这些人明天下午5 点钟的时候都在什么地方,准确率可达90% 。做出这种预测没有用到任何与心理学、技术或者经济相关的知识。模型仅仅是分析过往数据,并以此作出推断。

但是,有时候为了让这些方法取得较好的效果,所需的数据量远远超过了我们的能力范围。卡内基·梅隆大学的统计学家科斯马·沙利兹(Cosma Shalizi)认为,如果你在思考100种不同互动因素的问题时,想像思考二维问题一样准确,那么需要的数据量近乎天文数字。沙利兹总结说,除非你将就着使用那些无法把握社会行为学整体复杂性的简单模型,“想要单靠数据打造出精确模型是不现实的”。

FuturICT不会仅仅依赖于一个模型,不论此模型有多复杂。赫尔宾介绍说,它将把“计算机科学、复杂性科学、系统理论、社会科学(包括经济学和政治科学)、认知科学”以及其他领域都结合起来。但是,模型的结合也会带来新的问题——复杂程度将呈爆发式增长。“假设天气与交通各有10种情况,”加里·金说,“如果你想同时知道这两者的情况,需要知道多少事情?答案不是20,而是100。这还不至于让我们感到绝望。它仅仅意味着我们所需的数据量增长得非常快。”

更棘手的是,一个模型的预测结果也将改变它在建模时自身所处的环境——预测结果做出后,它会反过来影响自身的准确性。印第安纳大学复杂网络与系统研究中心主任、FuturICT项目首席数据规划师亚历山德罗·维斯皮尼亚尼(Alessandro Vespignani)说:“这是一个巨大的科学问题”。既然预测结果影响到其自身条件,那么,“我们要怎样才能开发出合适的模型,公共卫生应用钞票与病毒“同流合污”想象一下,一种致命的流感病毒出现了。它将向何处传播?物理学家和流行病学家已经开始利用巨量的数据来预测流行病,以及怎样做才能阻止病情的蔓延。一些科学家使用追踪乔治这个项目所提供的数据来模拟2009年的H1N1流感病毒在美国的传播状况(该项目跟踪数以百万计的钞票在美国境内的流动轨迹)。其他一些研究者则通过分析航空和陆地交通状况,以同样的方式来进行预测。这些研究既让我们看到了巨量数据带来的希望,也暴露出其存在的问题:它们准确地预测了流感将传往何处,却严重低估了最终受感染的人数。

钞票在美国境内的流动情况反映了人口和病毒的流动。使它所含的反馈回路或实时数据监测系统,能够让我们连续不断地改进算法并作出新的预测?”维斯皮尼亚尼说。

当预测结果难以理解时

什么模型可以预见到世界范围内每天都在发生的动荡?或者预见到2001年9月11日的那场恐怖袭击,以及它带来的深远影响?又或者预见到因特网从研究者专用的一个不起眼的网络,变身为全世界最重要的工具,催生或颠覆了整个行业?纳西姆·尼古拉斯·塔雷伯(Nassim Nicholas Taleb)在他2007年的畅销书《黑天鹅》(The Black Swan )中阐述道,这就是通俗化的“黑天鹅问题”(black swan problem)。“这个世界总会比模型更加复杂,”奥苏贝尔说,“事实永远如此。”

更糟糕的是,赫尔宾想要弄清楚的社会、政治以及经济系统,绝非复杂二字就能形容。这些系统具有混沌的特性。它们中的每一个都依赖于成百上千个独特因素,相互间的关系非常复杂,而且还深受初始状态影响。在混沌系统中,每件事都有某种起因,或者更准确地说,每件事的发生都有多得不计其数的起因,因此对事件只能作最普遍、最一般性的预测。例如,美国乔治·梅森大学的气候学家、全球环境与社会研究院(Institute of GlobalEnvironmentandSociety)主席雅格蒂西·舒克拉(Jagadish Shukla)曾告诉我,虽然我们能提前5天预测天气,“但如果想要提前15天做出预测,那是不可能的。无论你安置了多少个传感器,初始条件总会有误差存在,而且我们所使用的模型也不是完美的”。舒克拉说:“局限性并非来自技术方面,而在于系统的可预测性本身。”

舒克拉一直小心翼翼地把天气和气候区分开来。我们也许无法预测100 年之后的某天下午是否会下雨,但是我们可以在一定程度上准确预知那时的平均海洋温度。“尽管气候是一个混沌系统,但它仍然具备可预测性,”舒克拉说。对赫尔宾的模型来说也是如此。“复杂的金融市场运作也许比天气的可预测性更低,”赫尔宾在一封电子邮件中写道,“但事实上,我们可以通过对某些宏观经济数据(例如,很多年以来,美国人的消费总是比收入增长得更快)的分析,预测出金融危机迟早会发生。”但是,不需要一大堆超级计算机、天文数字般的巨量数据,以及花费10亿欧元,我们也能获知这些。

如果模型的目的是为了给政策制定者提供有科学依据的咨询意见(就如赫尔宾在证明10亿欧元赞助费物有所值时所强调的那样),一些新的现实问题就会冒出来。首先,我们尚不清楚,人类的大脑是否已经有能力理解超级计算机给出它们的答案时的过程与依据。当模型足够简单时——比如有关英国经济的“水工学”模型——我们可以追溯模型的运作,并意识到个人存款账户的缩水是加税过快而带来的一个意料之外的后果。不过,那些依赖于大量数据计算,并需要通过结果反馈来加以调整的复杂模型即使能提供可靠的结果,其过程之复杂也是人类大脑所难以理解的。也就是说我们只能知其然而不能知其所以然。

当我向赫尔宾问到这一局限性时,他停顿了一下,然后告诉我,他认为人脑能够理解的那些基本规律以及公式,最终可能都会浮现出来,因为他在研究交通时遇到的情况就是这样。但是,汇集了金融系统、社会行为、政治运动、气象学以及地理学的交叉口,其复杂程度远非朝着同一个方向行进的三车道交通能够比拟。所以,人类也许无法理解,当模型被问到一旦希腊脱离欧元区会产生什么结果的问题时,它凭什么会预言灾难即将到来。

威尔班克斯和赫尔宾都将“天量数据”看作是一场革新,他们也都期望,能被科学地理解的社会行为比我们前些年设想的要多得多。赫尔宾并没有打算通过向赞助方描述“活地球模拟器”如何防止国家破产及全球危机以说服他们出钱(如巴拉巴希所言,“如果你试图说服政治家,那你就必须谈论最终产出”),而是承认FuturICT将会支持多个彼此间存在竞争的模型。而且,赫尔宾还渴望能完成人类历史上最大规模的一次数据采集,并将它们中的绝大多数公之于众。(其中一些必须保密,因 为它们来自商业机构的有限授权,或者包含了个人隐私信息。) 无论怎样,差异是实实在在的。对赫尔宾以及他的数据架构师维斯皮纳尼来说,确认FuturICT支持多个模型不会让他们止步不前。“甚至天气预报都是基于多种模型完成的,”维斯皮纳尼说。然后他又说:“把它们结合起来,就可以得到一个有关各种结果发生概率的统计推断。”对赫尔宾和维斯皮纳尼而言,FuturICT 的价值就在于它可以汇集多种模型,得出一个答案。

当然,数据共享的目标也是向真相汇聚。但它既然采用网络架构,它就承认甚至是鼓励富有成效的意见交锋。科学家可以使用不同的模型、不同的分类标准、不同的术语,但是他们仍然可以彼此交谈,因为他们可以通过其共享的数据链接回到因特网或者现实世界中的某个已知的联系点。也就是说,他们可以各干各的,但仍能相互交流甚至合作。威尔班克斯认为,差异不会消失,变成众口同声的一言堂,因为存在不同的文化,不同的出发点,甚至不同的脾性。这种数据大众化的方法不但意识到差异的长期存在,而且承认甚至鼓励这种存在。

网络重新定义知识

最显而易见的问题也是最实际的问题是:哪种方法将取得更佳的效果?[这里的“效果更佳”指的是能够推动科学前进,并针对有关未来的那些难题给出有意义(而且准确)的答案。]

归根结底,答案也许可以归结为对知识的本质特性的争论。两千多年来,西方一直将知识看作是一个已确定的、始终如一的真理系统。也许这种看法更多地暴露了知识传播手段而非知识本身的局限性:当知识被不褪色的墨水写在纸上从而被传播和保存的时候,人们就会认为它通过了验证而且不会再改变。然而,新的知识传播媒介不再是印刷出版物,更多的是通过公开的网络传播。我们可以从数据共享中获取大量知识,但它们随时以这样或那样的方式被修改,因此这些知识就更像是一种连续不断的论证。事实上,这就是网络时代的知识:永远不会被完全确定,永远不会写完,永远不会彻底搞定。

FuturICT平台的目标是打造出一个能足够完美地代表地球的机器,我们可以向它提问,并根据它的回答采取行动。这意味着我们可以通过生活中各个领域的逻辑模型来准确无误地描述世界。而“链接数据”阵营的出现则在一定程度上是对这个观点的挑战。知识也许来自数据共享系统,即使它本身并不能完美地代表这个世界。

当然,除非这场各种观点间的混战——网民与网民间的争论——是对世界的更加完全真实的表述。(选自《科技日报》)

推荐访问:瑞士 物理学家 欧元 机器 预测

热门文章