深度网络科技(揭示世界本质的「机器科学家」)
我们处于“GoPro物理学”的前沿。无论相机聚焦在什么事件上,该算法都可以识别2017年潜在的物理方程,西北大学化学和生物工程系助理教授罗杰·吉梅拉和罗维拉-威吉利大学物理教授玛尔塔·赛尔斯·帕尔多,发现了细胞分裂的原因这项研究促进了生物学的进步,但他们没有从自己的数据中找到关键信息。相反,这是他们的一项未公开的发明——他们称之为“机器科学家”的虚拟助手指出了这些信息,guimerá回忆道,“我们只是向机器科学家输入了一个算法,然后我们就得到了答案。虽然这是事实,但没有人会相信。”p> 注:urv化学工程系的研究人员MartaSalesPardo(左)和RogerGuimerá(右)与加泰罗尼亚生物工程研究所的前同学XavierTrepat合作,确定哪些因素可能导致细胞分裂。许多生物学家认为,细胞会分裂到一定大小以上,特雷帕特认为仍有探索的空间。他的团队已经破译了当一群细胞争夺位置时在软表面留下的纳米级印记,并积累了详细的数据集,记录了形状、强度和十几个其他细胞特征。测试这些细胞特性对细胞分裂的影响需要一辈子的时间。然而,如果数据提供给机器科学家,机器科学家可以在几分钟内给他们一个简明的方程式。这个方程在预测细胞分裂时的准确度是仅使用细胞大小或任何其他单一特征的方程的10倍。根据机器科学家的说法,细胞是否分裂取决于细胞的大小乘以相邻细胞挤压它的力。“机器科学家可以找到我们没有发现的东西。”特雷帕特说,由于研究人员尚未透露“机器科学家”的信息,他们必须进行二次分析。在测试了数百个变量后,他们得到了与“机器科学家”相同的答案,并于2018年发表了《自然细胞生物学研究》(the research on nature cell biology)图注:四年后,西班牙罗维拉维吉尔大学(Rovira I Virgili University)的罗杰·吉梅拉(Roger guimerá)和玛尔塔·塞尔斯·帕尔多(Marta sales Pardo)领导构建了一个强大的符号回归算法,并称之为“贝叶斯机器科学家”(Bayesian machine scientist),这种方法很快成为公认的科学发现方法。Sales Pardo和guimerá是开发最新一代工具的少数研究人员之一,可以实现符号回归,符号回归算法不同于深层神经网络。深度神经网络算法可以吸收数千个像素,让像素穿透由数百万个节点组成的迷宫,并通过不透明机制输出单词“dog”。符号回归算法识别复杂的数据集,然后输出一个人类可以很好理解的简短方程。这些算法类似于Excel曲线拟合函数的超级版本,但这些算法不仅可以找到一组由直线或抛物线拟合的数据点,还可以找到数十亿个不同的公式。通过这种方式,“机器科学家”可以帮助人类理解细胞分裂的原因,而神经网络只能预测细胞分裂的时间几十年来,研究人员一直在与这些机器科学家打交道,仔细引导他们从简单的数据集重新发现教科书中的自然法则,并安排他们找到某种模型。然而,近年来,这些算法已经足够成熟,可以探索以前未发现的相关性,从湍流如何影响大气到真实数据中暗物质如何聚集。“毫无疑问,整个领域正在向前发展。”哥伦比亚大学机器人专家霍德·利普森说。13年前,他开始了符号回归的研究。注:机器人专家霍德·利普森(hod lipson)机器科学家的兴起,物理学家偶尔会通过推理来寻求真理。例如,爱因斯坦从一束光的角度想象另一束光,以感受空间和时间的灵活性,但更常见的是,理论是从马拉松数据处理中产生的。16世纪天文学家布拉赫去世后,开普勒接触到了布拉赫笔记本中对天体的观察。用了四年的时间才确定火星在天空中描绘的是一个椭圆,而不是他以前认为的蛋。通过粗糙他还发现了重力计算中的另外两个关系,并遵循了“第一定律”,这是牛顿指出万有引力定律的基础。符号回归的目标是加速开普勒试验和错误,遍历许多将变量与基本数学运算联系起来的方法,并找到最能准确预测系统行为的方程式。注:天体物理学家通过两种方式对太阳系的行为进行建模。他们首先利用美国宇航局多年的数据来训练神经网络。然后,使用符号回归算法将模型细化为方程。在视频中,真实位置显示为实体,模型预测为金属网轮廓。神经网络(左)的性能远不如符号回归算法(右)。第一个取得重大进展的程序称为bacon。它是由帕特里克·兰利(PatrickLangley)于20世纪70年代末开发的,他是当时卡内基梅隆大学的认知科学家和人工智能研究人员。Bacon包含了不同行星的轨道周期和轨道距离列表,然后以不同的方式系统地组合这些数据:周期除以距离、周期除以距离等。如果Bacon在各种数据的不同组合中找到常数,例如,如果周期的平方除以距离的立方总是给出相同的数字,这意味着它找到了开普勒第三定律。常数意味着它已经确定了两个成比例的量。换句话说,当培根找到一个方程时,它就达到了目标,停止了计算。尽管开普勒第三定律和教科书中的其他经典内容已经被重新发现,但在计算能力有限的时代,培根仍然是一个奇怪的存在。研究人员仍然需要手动分析大多数数据集,最后使用类似Excel的软件,在给定特定类别的方程时,找到简单数据集的最佳拟合。2009年之前,康奈尔大学的机器人专家利普森和迈克尔·施密特开发了一种称为eureqa的算法。该算法可以找到描述任何数据集的正确模型。在eureqa成功开发之前,这个概念一直处于沉睡状态,他们的主要目标是构建一台机器,能够将一列又一列变量的扩展数据集汇总成一个包含几个实际重要变量的方程。利普森说:“这个方程最终可能有四个变量,但我们不知道是哪一个。我们必须把所有可能的变量都考虑进去。天气可能很重要,每平方英里的牙医人数也可能很重要。”
https://www.science.org/doi/10.1126/sciadv.aay2631库茨认为,机器科学家正在把这一领域带到他所谓的“GoPro物理学”的前沿。研究人员只需将相机对准目标,就可以得到一个方程式来掌握发生的事情的本质。(当前的算法仍然要求人类提供一长串潜在相关变量,如位置和角度)。
这就是利普森最近一直在做的事情。在12月的预印本中,他和他的合作者描述说,他们首先训练了一个深度神经网络来接收几帧视频并预测接下来的几帧。然后,研究小组减少了神经网络允许的变量数量,直到其预测开始失败https://arxiv.org/abs/2112.10755该算法可以计算出需要多少变量来模拟像钟摆这样的简单系统,或者像火舌这样没有明显变量可跟踪的复杂系统,由于深层神经网络可以在混沌或极为复杂的系统中大放异彩,然而,当涉及行星运动、流体晃动和细胞分裂时,机器科学家仅通过少量计算就获得的简明方程非常精确,令人费解。诺贝尔奖获得者尤金·维格纳(EugeneWigner)在其1960年的论文《自然科学中数学的不合理有效性》中称之为“一份我们既不理解也不配得到的美妙礼物”。正如克兰默所说,“如果你看任何物理测试方程的注释,它们都是非常简单的代数表达式,但它们太有用了。” cranmer和他的同事推测,基本运算之所以如此出色,是因为它们代表了空间中的基本几何动作,这使得它们成为描述现实的自然语言。加法将对象沿数字轴向下移动。乘法将平面区域转换为三维体积。因此,他们怀疑,当我们猜测方程式时,简单地猜测总是合理的。然而,尽管宇宙具有潜在的简单性,但无法保证每次guimerá和sales Pardo最初建立起数学上严格的算法时,这种猜测都是正确的,因为eureqa有时会发现类似输入的不同方程式。然而,令他们沮丧的是,他们发现,即使是贝叶斯机器科学家有时也会对给定的数据集返回多个同样好的模型,他们最近发现,原因是数据本身。他们利用机器科学家探索各种数据集,发现这些数据集分为两类:干净的和有噪音的。在干净的数据中,机器科学家总能找到生成数据的方程式。但超过一定的噪声阈值,就不可能找到它。换句话说,噪声数据可以很好(或很差)匹配任意数量的方程。因为研究人员已经证明,他们的算法总能找到最好的方程式,他们知道,如果算法失败,任何人或机器都无法成功。“我们发现这是一个基本限制,”吉梅拉说。“所以我们需要机器科学家。” 参考链接:https://www.quantamagazine.org/machine-scientists-distill-the-laws-of-physics-from-raw-data-20230510/https://www.icrea.cat/Web/ScientificStaff/roger-guimera-manrique-512Marta Sales Pardo(0000-0002-8140-6525)
霍德·利普森https://www.science.org/doi/10.1126/science.1165893
https://laurezanna.github.io/