术致科技

您现在的位置是:首页 > 建站 > 正文

建站

深度网络科技(揭示世界本质的「机器科学家」)

术致建站2023-01-27建站296
我们正处于“GoPro物理学”的风口浪尖。无论摄像机聚焦于什么事件,算法都可以识别其中潜在的物理方程。2017年,西北大学化学与生物工程系的助理教授RogerGuimerà和罗维拉-威尔吉利大学

我们处于“GoPro物理学”的前沿。无论相机聚焦在什么事件上,该算法都可以识别2017年潜在的物理方程,西北大学化学和生物工程系助理教授罗杰·吉梅拉和罗维拉-威吉利大学物理教授玛尔塔·赛尔斯·帕尔多,发现了细胞分裂的原因这项研究促进了生物学的进步,但他们没有从自己的数据中找到关键信息。相反,这是他们的一项未公开的发明——他们称之为“机器科学家”的虚拟助手指出了这些信息,guimerá回忆道,“我们只是向机器科学家输入了一个算法,然后我们就得到了答案。虽然这是事实,但没有人会相信。”p> 注:urv化学工程系的研究人员MartaSalesPardo(左)和RogerGuimerá(右)与加泰罗尼亚生物工程研究所的前同学XavierTrepat合作,确定哪些因素可能导致细胞分裂。许多生物学家认为,细胞会分裂到一定大小以上,特雷帕特认为仍有探索的空间。他的团队已经破译了当一群细胞争夺位置时在软表面留下的纳米级印记,并积累了详细的数据集,记录了形状、强度和十几个其他细胞特征。测试这些细胞特性对细胞分裂的影响需要一辈子的时间。然而,如果数据提供给机器科学家,机器科学家可以在几分钟内给他们一个简明的方程式。这个方程在预测细胞分裂时的准确度是仅使用细胞大小或任何其他单一特征的方程的10倍。根据机器科学家的说法,细胞是否分裂取决于细胞的大小乘以相邻细胞挤压它的力。“机器科学家可以找到我们没有发现的东西。”特雷帕特说,由于研究人员尚未透露“机器科学家”的信息,他们必须进行二次分析。在测试了数百个变量后,他们得到了与“机器科学家”相同的答案,并于2018年发表了《自然细胞生物学研究》(the research on nature cell biology)图注:四年后,西班牙罗维拉维吉尔大学(Rovira I Virgili University)的罗杰·吉梅拉(Roger guimerá)和玛尔塔·塞尔斯·帕尔多(Marta sales Pardo)领导构建了一个强大的符号回归算法,并称之为“贝叶斯机器科学家”(Bayesian machine scientist),这种方法很快成为公认的科学发现方法。Sales Pardo和guimerá是开发最新一代工具的少数研究人员之一,可以实现符号回归,符号回归算法不同于深层神经网络。深度神经网络算法可以吸收数千个像素,让像素穿透由数百万个节点组成的迷宫,并通过不透明机制输出单词“dog”。符号回归算法识别复杂的数据集,然后输出一个人类可以很好理解的简短方程。这些算法类似于Excel曲线拟合函数的超级版本,但这些算法不仅可以找到一组由直线或抛物线拟合的数据点,还可以找到数十亿个不同的公式。通过这种方式,“机器科学家”可以帮助人类理解细胞分裂的原因,而神经网络只能预测细胞分裂的时间几十年来,研究人员一直在与这些机器科学家打交道,仔细引导他们从简单的数据集重新发现教科书中的自然法则,并安排他们找到某种模型。然而,近年来,这些算法已经足够成熟,可以探索以前未发现的相关性,从湍流如何影响大气到真实数据中暗物质如何聚集。“毫无疑问,整个领域正在向前发展。”哥伦比亚大学机器人专家霍德·利普森说。13年前,他开始了符号回归的研究。注:机器人专家霍德·利普森(hod lipson)机器科学家的兴起,物理学家偶尔会通过推理来寻求真理。例如,爱因斯坦从一束光的角度想象另一束光,以感受空间和时间的灵活性,但更常见的是,理论是从马拉松数据处理中产生的。16世纪天文学家布拉赫去世后,开普勒接触到了布拉赫笔记本中对天体的观察。用了四年的时间才确定火星在天空中描绘的是一个椭圆,而不是他以前认为的蛋。通过粗糙他还发现了重力计算中的另外两个关系,并遵循了“第一定律”,这是牛顿指出万有引力定律的基础。符号回归的目标是加速开普勒试验和错误,遍历许多将变量与基本数学运算联系起来的方法,并找到最能准确预测系统行为的方程式。注:天体物理学家通过两种方式对太阳系的行为进行建模。他们首先利用美国宇航局多年的数据来训练神经网络。然后,使用符号回归算法将模型细化为方程。在视频中,真实位置显示为实体,模型预测为金属网轮廓。神经网络(左)的性能远不如符号回归算法(右)。第一个取得重大进展的程序称为bacon。它是由帕特里克·兰利(PatrickLangley)于20世纪70年代末开发的,他是当时卡内基梅隆大学的认知科学家和人工智能研究人员。Bacon包含了不同行星的轨道周期和轨道距离列表,然后以不同的方式系统地组合这些数据:周期除以距离、周期除以距离等。如果Bacon在各种数据的不同组合中找到常数,例如,如果周期的平方除以距离的立方总是给出相同的数字,这意味着它找到了开普勒第三定律。常数意味着它已经确定了两个成比例的量。换句话说,当培根找到一个方程时,它就达到了目标,停止了计算。尽管开普勒第三定律和教科书中的其他经典内容已经被重新发现,但在计算能力有限的时代,培根仍然是一个奇怪的存在。研究人员仍然需要手动分析大多数数据集,最后使用类似Excel的软件,在给定特定类别的方程时,找到简单数据集的最佳拟合。2009年之前,康奈尔大学的机器人专家利普森和迈克尔·施密特开发了一种称为eureqa的算法。该算法可以找到描述任何数据集的正确模型。在eureqa成功开发之前,这个概念一直处于沉睡状态,他们的主要目标是构建一台机器,能够将一列又一列变量的扩展数据集汇总成一个包含几个实际重要变量的方程。利普森说:“这个方程最终可能有四个变量,但我们不知道是哪一个。我们必须把所有可能的变量都考虑进去。天气可能很重要,每平方英里的牙医人数也可能很重要。”

深度网络科技(揭示世界本质的「机器科学家」)

很难处理许多变量。研究人员表示,他们还需要有一定的灵活性来尝试各种可能导致死胡同的方法,并从中摆脱出来。当算法可以从直线跳到抛物线,或添加正弦波时,其掌握尽可能多的数据点的能力可能会变得更差。为了克服这些挑战,1992年,计算机科学家约翰·科扎提出了“遗传算法”,将随机“变异”引入方程中。经过多次实验,最初无用的功能要么演变成强大的功能,要么消失殆尽,lipson和Schmidt将这项技术提升到了一个新的水平。一方面,它们生成方程式。另一方面,他们随机选择了一些数据点来检验方程。“最合适”的点是对等式最具挑战性的点。“这就像军备竞赛。我们需要建立两个不断发展的东西,而不是一个。”利普森说,eureqa算法可以压缩涉及10个以上变量的数据集。它可以成功地反馈高级方程式,例如描述一个摆在另一个摆上的运动。图注:机器科学家如何工作同时,其他研究人员正在寻找训练深层神经网络的技能。到2011年,深层神经网络在学习区分猫和狗以及执行许多其他复杂任务方面取得了巨大成功。但一个训练有素的神经网络是由数百万个具有数值的“神经元”组成的。这些神经元不会表达他们已经学会识别的特征。但是eureqaque可以用人类语言表达他的发现,当sales Pardo第一次使用eureqa时,她很惊讶:“我认为这是不可能的。这些人是怎么做到的?”她和guimerá很快开始使用eureqa为他们自己的网络研究建立模型。尽管结果不一致,但eureqa的强大功能给他们留下了深刻印象。该算法将进化出一个预测方程,但也可能会弄巧成拙,导致方程过于复杂。只要研究人员稍微调整一下数据,eureqa就会返回一个完全不同的公式。因此,sales Pardo和guimerá从头开始设计了新的机器科学家在他们看来,遗传算法的问题在于,它们过于依赖创造者的口味。开发人员需要指导算法,以平衡简单性和准确性。一个方程总是可以通过附加项触及数据集中的更多点。但最好忽略一些离题。研究人员可以将简单性定义为方程的长度,将精确性定义为曲线与数据集中每个点的接近程度,但这只是许多选项中的两个定义,sales Pardo和guimerá及其合作者,利用物理学和统计学的专业知识,根据贝叶斯理论的概率框架重新定义了进化过程。他们首先从维基百科下载了所有方程式。然后对这些方程进行统计分析,以确定哪种类型最常见。这种方法可以使算法避免走弯路。例如,让算法尝试使用更常见的加法,而不是不太常见的双曲余弦。然后,该算法使用随机抽样方法生成方程变量。该方法在数学上已被证明,它可以探索数学领域的每个角落。在每一步中,该算法根据方程组的数据压缩程度来评估各种方程。例如,完全无法压缩随机分散的点。我们需要知道每个点的位置。如果1000个点沿着一条直线落下,可以将它们压缩为两个数字(直线的坡度和高度)。这两位学者发现,压缩程度为比较各种方程提供了一种独特而稳定的方法。Guimerá说:“我们可以证明,正确的模型是压缩数据最多的模型。没有任意性。”p> 经过多年的研究,他们用自己的算法找出了触发细胞分裂的因素。2023年,他们和同事在《贝叶斯机器科学家》(Bayesian machine scientist)中介绍了他们的“贝叶斯机器科学家”(Bayesian machine scientists),从那以后,研究人员利用贝叶斯机器科学家改进了预测国家能源消耗的SOTA方程,而另一组则利用该方程模拟网络的渗透。开发人员认为,这种算法将在trepat这样的生物研究中发挥巨大作用,因为科学家在这种研究中面临着大量数据。机器科学家还帮助物理学家理解跨越更多尺度的系统。物理学家通常使用一组原子方程和一组完全不同的台球方程,但这种分散的方法不适用于气候科学和其他学科的研究,其中一位研究人员是纽约大学的劳尔·赞纳。在模拟海洋湍流的工作中,她经常发现自己处于两个极端之间:超级计算机可以模拟城市涡流和洲际流,但不能同时模拟两种尺度。她的工作是帮助计算机生成具有小涡旋效应的全局图像,而无需直接模拟这些图像。最初,她转向深层神经网络来提取高分辨率模拟的整体效果,并相应地更新较粗糙的模拟。“深层神经网络很棒,”她说,“但我是一名气候物理学家。”她的意思是,她想通过压力和温度的原理来理解气候是如何工作的——“但很难收集数千个参数,更不用说令人满意的参数了。”

然后她发现了一个由华盛顿大学应用数学家史蒂文·布伦顿、约书亚·普罗克托和内森·库茨设计的算法。他们的算法采用了一种称为稀疏回归的方法,这类似于符号回归的精神。这种方法不是在变分方程中引起大的混乱,而是从一个可能有数千个函数的库开始,例如x^2,x/(x− 1) 和罪(x)。该算法在库中搜索最准确的术语组合,删除最无用的术语,然后继续搜索,直到库中只剩下少数术语。与符号回归算法相比,稀疏回归的闪电过程可以以更少的勘探空间处理更多的数据,因为最终的方程必须由库项构建才能理解其工作原理,Zanna从一开始就重写了稀疏回归算法,然后将修改后的版本应用于海洋模型。当她进入一个高分辨率视频,要求算法找到一个精确的简化草图时,算法返回了一个与涡度以及流体拉伸和剪切方式相关的简明方程。当她把这个方程放入她的大规模流体流动模型中时,她看到了流体作为能量的函数而变化,并且比以前更清楚地看到了它。“该算法使用了额外的项,”Zanna说,然后生成了一个“美丽的”方程,“它可以真实地反映洋流的一些非常重要的特征,如拉伸、剪切和旋转。”

通过将自身优势与深度神经网络的优势相结合,其他团队也是机器普林斯顿大学天体物理学研究生迈尔斯·克兰默(miles Cranmer)开发了一种类似于eureqa的开源符号回归算法,称为pysr。该算法在数字“孤岛”上建立不同的方程,使方程最适合周期性的数据“移动”,然后与其他孤岛上的方程竞争。克兰默与deepmind和纽约大学的计算机科学家以及扁钢研究所的天体物理学家合作,提出了一个混合方案。他们首先训练神经网络来完成任务,然后让pysr给出一个方程来描述神经网络的特定部分完成了什么任务。团队将该程序应用于暗物质模拟,并根据相邻云的特征生成一个公式,从而给出暗物质云中心的密度。这个方程式比现有的人工设计方程式更适合数据

2月份,该团队输入了过去30年太阳系行星和卫星在天空中的实际位置。该算法完全跳过开普勒定律,直接推断出牛顿万有引力定律以及行星和卫星的质量。其他研究小组最近利用pysr发现了描述粒子碰撞特征、结体积近似值以及暗物质云在其中心塑造星系的方式的方程,为越来越多的机器科学家提供了这些方程(另一个值得注意的例子是麻省理工学院物理学家马克斯·特马克(Max tegmark)和西尔维奥·马里安·乌德雷斯库(Silviu Marian udrescu)创建的“Ai Feynman”),人类研究人员说,越多越好。库茨说:“我们真的需要这些技术。”。“我们都需要它们。越多越好。因为没有哪项技术是万能的。”

纸张地址:

https://www.science.org/doi/10.1126/sciadv.aay2631库茨认为,机器科学家正在把这一领域带到他所谓的“GoPro物理学”的前沿。研究人员只需将相机对准目标,就可以得到一个方程式来掌握发生的事情的本质。(当前的算法仍然要求人类提供一长串潜在相关变量,如位置和角度)。

这就是利普森最近一直在做的事情。在12月的预印本中,他和他的合作者描述说,他们首先训练了一个深度神经网络来接收几帧视频并预测接下来的几帧。然后,研究小组减少了神经网络允许的变量数量,直到其预测开始失败https://arxiv.org/abs/2112.10755该算法可以计算出需要多少变量来模拟像钟摆这样的简单系统,或者像火舌这样没有明显变量可跟踪的复杂系统,由于深层神经网络可以在混沌或极为复杂的系统中大放异彩,然而,当涉及行星运动、流体晃动和细胞分裂时,机器科学家仅通过少量计算就获得的简明方程非常精确,令人费解。诺贝尔奖获得者尤金·维格纳(EugeneWigner)在其1960年的论文《自然科学中数学的不合理有效性》中称之为“一份我们既不理解也不配得到的美妙礼物”。正如克兰默所说,“如果你看任何物理测试方程的注释,它们都是非常简单的代数表达式,但它们太有用了。”

cranmer和他的同事推测,基本运算之所以如此出色,是因为它们代表了空间中的基本几何动作,这使得它们成为描述现实的自然语言。加法将对象沿数字轴向下移动。乘法将平面区域转换为三维体积。因此,他们怀疑,当我们猜测方程式时,简单地猜测总是合理的。然而,尽管宇宙具有潜在的简单性,但无法保证每次guimerá和sales Pardo最初建立起数学上严格的算法时,这种猜测都是正确的,因为eureqa有时会发现类似输入的不同方程式。然而,令他们沮丧的是,他们发现,即使是贝叶斯机器科学家有时也会对给定的数据集返回多个同样好的模型,他们最近发现,原因是数据本身。他们利用机器科学家探索各种数据集,发现这些数据集分为两类:干净的和有噪音的。在干净的数据中,机器科学家总能找到生成数据的方程式。但超过一定的噪声阈值,就不可能找到它。换句话说,噪声数据可以很好(或很差)匹配任意数量的方程。因为研究人员已经证明,他们的算法总能找到最好的方程式,他们知道,如果算法失败,任何人或机器都无法成功。“我们发现这是一个基本限制,”吉梅拉说。“所以我们需要机器科学家。”

参考链接:https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20230510/

https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512Marta Sales Pardo(0000-0002-8140-6525)

霍德·利普森https://www.science.org/doi/10.1126/science.1165893

https://laurezanna.github.io/

深度网络科技(揭示世界本质的「机器科学家」)