小乐数学科普大数据如何将图论带入新维度译自量子杂志
作者:StephenOrnes2021819译者:zzllrr小乐2021820
研究人员正在转向高阶相互作用的数学,以更好地模拟数据中的复杂连接。
图论是不足够的。
讨论连接的数学语言通常取决于网络顶点(点)和边(连接它们的线)至少自18世纪以来一直是模拟现实世界现象的宝贵方法。但几十年前,巨大数据集的出现迫使研究人员扩展他们的工具箱,同时也为他们提供了广阔的沙盒,可以在其中应用新的数学见解。科罗拉多大学博尔德分校的计算机科学家JoshGrochow说,从那时起,随着研究人员开发了新型网络模型,可以在大数据的噪声中找到复杂的结构和信号,经历了一个令人兴奋的快速增长时期。
Grochow是越来越多的研究人员之一,他们指出在大数据中寻找联系时,图论有其局限性。图将每一种关系表示为二元组或成对的交互。然而,许多复杂的系统不能单独用二元连接来表示。该领域的最新进展显示了如何向前发展。
考虑尝试建立一个育儿网络模型。显然,每个父母都与孩子有联系,但养育关系不仅仅是这两个联系的总和,因为图论可能会对其进行建模。尝试模拟同行压力等现象也是如此。
有很多直观的模型。德国亚琛工业大学(RWTHAachenUniversity)的LeonieNeuhuser说,只有当你的数据中已经有群体时,才能捕捉到同行压力对社会动态的影响。但是二元网络不能捕捉群体影响。
数学家和计算机科学家使用术语高阶相互作用(higherorderinteractions)来描述这些复杂的方式,即群体动力学而不是二元联系可以影响个体行为。从量子力学中的纠缠相互作用到疾病在人群中传播的轨迹,这些数学现象无处不在。例如,如果药理学家想要模拟药物相互作用,图论可能会显示两种药物如何相互反应但三种药物呢?或四个呢?
虽然探索这些相互作用的工具并不新鲜,但直到最近几年,高维数据集才成为探索的引擎,为数学家和网络理论家提供了新的思路。这些努力已经产生了关于图的限制和扩展的可能性的有趣结果。
现在我们知道网络只是事物的影子,Grochow说。如果数据集具有复杂的底层结构,那么将其建模为图形可能只能揭示整个故事的有限投影。
太平洋西北国家实验室的EmiliePurvine对超图等工具在绘制数据点之间更微妙的联系方面的强大功能感到兴奋。
太平洋西北国家实验室的数学家EmiliePurvine说:我们已经意识到,我们用来研究事物的数据结构,从数学的角度来看,并不完全符合我们在数据中看到的情况。
这就是为什么数学家、计算机科学家和其他研究人员越来越关注如何推广图论以它的多种形式来探索高阶现象。过去几年提出了大量建议的方法来表征这些相互作用,并在高维数据集中用数学方法验证它们。
对于Purvine来说,高阶相互作用的数学探索就像是新维度的映射。将图视为二维土地的基础,她说。可以登上顶部的三维建筑可能会有很大差异。当你在地面上时,它们看起来是一样的,但你在上面建造的东西却不同。
进入超图
寻找那些更高维的结构是数学变得特别模糊和有趣的地方。例如,图的高阶类似物称为超图,它具有超边而不是边。这些可以连接多个节点,这意味着它可以表示多路(或多线性)关系。超边可能会被视为一个表面,而不是一条线,就像在三个或更多地方固定的防水布一样。
这很好,但我们仍然不知道这些结构与传统结构的关系。数学家目前正在研究哪些图论规则也适用于高阶交互,这表明了新的探索领域。
为了说明超图可以从大数据集(而普通图不能)中梳理出的关系类型,Purvine举了一个身边的简单例子,即科学出版界。想象两个数据集,每个数据集包含最多由三位数学家共同撰写的论文;为简单起见,我们将它们命名为A、B和C。一个数据集包含六篇论文,三个不同的两人组(AB、AC和BC)各有两篇论文。另一个数据集总共只包含两篇论文,每篇论文都由三位数学家(ABC)共同撰写。
来自任一数据集的共同作者的图形表示可能看起来像一个三角形,表明每个数学家(三个节点)都与其他两个(三个链接)合作过。Purvine说,如果你唯一的问题是谁与谁合作,那么你就不需要超图了
但是如果你有一个超图,你也可以回答关于不太明显的结构的问题。例如,第一个数据集的超图(有六篇论文)可以包括显示每个数学家贡献四篇论文的超边。两个数据集的超图的比较表明,论文的作者在第一个数据集中不同,但在第二个数据集中相同。
野外的超图
这种高阶方法已经被证明在应用研究中很有用,例如当生态学家展示了1990年代将狼重新引入黄石国家公园时,如何引发生物多样性和食物链结构的变化。在最近的一篇论文中,Purvine和她的同事分析了一个对病毒感染的生物学反应的数据库,使用超图来识别所涉及的最关键的基因。他们还展示了图论提供的通常的成对分析是如何忽略这些相互作用的。
这就是我们从超图中看到的那种超越图形的力量,Purvine说。
康奈尔大学的AustinBenson
最近,康奈尔大学的AustinBenson使用高阶马尔可夫链和张量帮助模拟了纽约市的出租车行程。结果比传统的马尔可夫链好,但仍可改进。
然而,从图泛化到超图很快变得复杂。说明这一点的一种方法是考虑图论中的规范切割问题,该问题询问:给定图上的两个不同节点,完全切断两者之间的所有连接,你可以切割的最小边数是多少?许多算法可以很容易地找到给定图的最佳切割次数。
但是如何切割超图呢?康奈尔大学的数学家AustinBenson说:有很多方法可以将这种切割概念推广到超图。但是没有一个明确的解决方案,他说,因为可以通过各种方式切断超边,从而创建新的节点组。
Benson最近与两位同事一起尝试将分割超图的所有不同方法形式化。他们的发现暗示了各种计算复杂性:在某些情况下,问题很容易在多项式时间内解决,这基本上意味着计算机可以在合理的时间内处理解决方案。但对其他人来说,这个问题基本上是无法解决的根本不可能确定是否存在解决方案。
那里仍有许多悬而未决的问题,Benson说。其中一些不可能的结果很有趣,因为你不可能将它们简化为图。在理论方面,如果你还没有把它简化成你可以用图找到的东西,它就会向你表明那里有一些新东西。
数学三明治
但是超图并不是探索高阶交互的唯一方法。拓扑对在拉伸、压缩或以其他方式变换对象时不会改变的几何属性的数学研究提供了一种更直观的方法。当拓扑学家研究网络时,他们会寻找形状、表面和尺寸。他们可能会注意到连接两个节点的边是一维的,并询问不同网络中一维对象的属性。或者他们可能会看到由三个节点连接而成的二维三角形表面并提出类似的问题。
拓扑学家称这些结构为单(纯)复形(simplicialcomplexes)。这些实际上是通过拓扑框架查看的超图。神经网络属于机器学习的一般类别,提供了一个很有说服力的例子。它们由旨在模拟我们大脑神经元如何处理信息的算法驱动。图神经网络(GNN)将事物之间的连接建模为成对连接,擅长推断大型数据集中缺失的数据,但与其他应用程序一样,它们可能会错过仅由三个或更多组产生的交互。近年来,计算机科学家开发了单纯神经网络(simplicialneuralnetworks),它使用高阶复数推广GNN的方法来探索这些影响。
单纯复形将拓扑学与图论联系起来,并且像超图一样,它们提出了令人信服的数学问题,这将推动未来的研究。例如,在拓扑学中,单纯复形的特殊子集本身也是单纯复形,因此具有相同的性质。如果超图也是如此,则子集将包括其中的所有超边包括所有嵌入的双向边。
但情况并非总是如此。我们现在看到的是,数据落入了这个中间地带,在这个中间地带,并非每个超边,不是每个复杂的交互,都与其他所有交互的大小相同,Purvine说。你可以进行三向交互,但不能进行成对交互。大数据集清楚地表明,无论是在生物信号网络中还是在同行压力等社会行为中,群体影响力往往远远超过个人的影响力。
Purvine将数据描述为一种数学三明治的中间填充,上面受这些拓扑思想的约束,下面受图的限制。网络理论家现在面临着寻找高阶相互作用的新规则的挑战。她说,对于数学家来说,还有发挥的空间。
随机游走和矩阵
这种创造性的游戏感也延伸到其他工具。Benson说,图和其他用于描述数据的工具之间存在着各种美妙的联系。但是一旦你进入更高阶的设置,这些联系就更难获得了。
他说,当你尝试考虑马尔可夫链的高维版本时,这一点尤其明显。马尔可夫链描述了一个多阶段过程,其中下一阶段仅取决于元素的当前位置;研究人员使用马尔可夫模型来描述信息、能量甚至资金等事物如何在系统中流动。也许马尔可夫链最著名的例子是随机游走,它描述了一条路径,其中每一步都是从前一步随机确定的。随机游走也是一个特定的图:沿着图的任何游走都可以显示为沿着链接从一个节点移动到另一个节点的序列。
但是如何扩大像散步这样简单的事情呢?研究人员转向高阶马尔可夫链,它不仅取决于当前位置,还可以考虑许多以前的状态。事实证明,这种方法可用于对网络浏览行为和机场交通流量等系统进行建模。Benson有其他扩展方法的想法:他和他的同事最近描述了一种用于随机或随机过程的新模型,该模型将高阶马尔可夫链与另一种称为张量的工具相结合。他们针对纽约市的出租车乘坐数据集对其进行了测试,以了解其预测轨迹的能力。结果喜忧参半:他们的模型比通常的马尔可夫链更好地预测了出租车的运动,但两种模型都不太可靠。
张量(Tensor)本身代表了另一种研究近年来已经出现的高阶相互作用的工具。要理解张量,首先要考虑矩阵,它将数据组织成行和列的数组。现在想象一下由矩阵组成的矩阵,或者矩阵不仅具有行和列,还具有数据的深度或其他维度。这些是张量。如果每个矩阵都对应于一个音乐二重奏,那么张量将包括所有可能的乐器配置。
张量对物理学家来说并不是什么新鲜事,他们长期以来一直使用它们来描述例如粒子的不同可能量子态,但网络理论家采用这种工具来扩展矩阵在高维数据集中的能力。数学家们正在使用它们来解决新的问题。Grochow使用张量来研究同构问题,它本质上是问你如何知道两个对象在某种程度上是否相同。他最近与乔有明(YoumingQiao)的合作产生了一种新方法来识别可能难以或不可能解决的复杂问题。
如何负责任地做超图
Benson不确定的出租车模型提出了一个普遍的问题:研究人员何时真正需要像超图这样的工具?在许多情况下,在合适的条件下,超图将提供与图完全相同类型的预测和分析。如果某些东西已经封装在网络中,那么真的有必要将系统建模为高阶吗?亚琛工业大学的MichaelSchaub问道。
他说,这取决于数据集。图是社交网络的一个很好的抽象,但社交网络远不止这些。对于高阶系统,有更多的建模方法。例如,图论可能会显示个人之间的联系,但无法捕捉社交媒体上的朋友群如何影响彼此的行为。
不会在每个数据集中都出现相同的高阶相互作用,所以奇怪的是,新理论是由数据驱动的这挑战了最初将Purvine吸引到该领域的潜在逻辑意义。我喜欢数学的地方在于它以逻辑为基础,如果你遵循正确的方向,你就会得到正确的答案。但有时,当你定义全新的数学领域时,正确的做法是主观的,她说。如果你不承认有多种方法可以做到这一点,你可能会把社区推向错误的方向。
Grochow说,最终,这些工具代表了一种自由,不仅能让研究人员更好地理解他们的数据,还能让数学家和计算机科学家探索新的可能性世界。有无穷无尽的东西可以探索。它既有趣又美丽,并且是许多重要问题的来源。
羽绒服去油渍(羽绒服)羽绒服保暖又实用,但最大的问题就是清洁起来不方便。如果羽绒服上沾了油渍,我们也应该找到快速去油渍的方法。比如说,动植物油的油渍,可以使用清洁汽油来去除。而一些日常的油污,还可以……
羽绒服去油渍(羽绒服)羽绒服是冬季必备的衣物之一,其不仅轻巧,而且具有较强的保暖性,款式也很丰富。今天来给大家说说若一不小心将油滴到羽绒服上的话,该怎样去除?洗洁精法01若是刚刚滴上的话……
ml什么意思(mlcl和e,是什么意思?)ml什么意思(ml、cl和e,是什么意思?)cl代表厘升,ml代表毫升(1cl10ml)。其中cl厘升是传统酿酒行业以及调酒师的常用术语,ml毫升是国际上比较广泛的……
最智能的聊天机器人(最智能的聊天机器)最智能的聊天机器人(最智能的聊天机器)在每一个人的微信中,都会积累很多的聊天记录。微信聊天记录也在不断的被刷新,当我们想要的查的时候,有没有方便好用的方法呢?当然如果由于……
最智能的聊天机器人(最智能的聊天机器)微信聊天聊天时我们会涉及一些比较重要的个人信息或隐私问题,为了防止个人信息及隐私泄漏,聊天过后我们会随手删除微信记录,可是小编发现删除的信息不彻底,总有个别删除的信息又突然冒了……
9月新能源车销量发布多家公司销量大增,产业链高景气度延续在政策及市场需求等多方合力下,新能源汽车高景气度延续,9月多家车企新能源汽车销量同比大增,进而带动整个新能源汽车产业链在新冠疫情、复杂国际局势下依然保持高景气度。多公司9……
钮文新中国金融必须面向未来符合新发展理念才是关键《中国经济周刊》首席评论员钮文新金融当然不能过度透支未来,但金融必须面向未来,这是规律。马克思在论述社会资本再生产时指出:货币资本表现为发动整个过程的第一推动力。所以,货……
心理健康教育案例(心理健康节系列教育活动)心理健康教育案例(心理健康节系列教育活动)5月25日是全国大中学生心理健康节。山东建筑大学建筑城规学院近日开展了525我爱我大学生心理健康节系列教育活动,面向全校学生普及……
体育教育考研(体育专业考研还是冷门)体育教育考研(体育专业考研还是冷门)这几天,随着《关于全面加强和改进新时代学校体育工作的意见》的公布,将体育老师从学校的边缘人物,移到了C位。因为这一举措,大家也知道了运……
海外积极应对能源危机,奔驰计划在德国建设风力发电设施文:懂车帝原创李德喆〔懂车帝原创行业〕据外媒报道,梅赛德斯奔驰日前表示,公司计划在2025年前,在德国西北部的下萨克森州建造风力发电厂。据了解,该发电厂将能够生产100兆……
小学生安全教育主题班会(中小学生安全教育主题班会教案)小学生安全教育主题班会(中小学生安全教育主题班会教案)一、班会目的:1。使学生知道一些简单的安全常识。2。使学生掌握一些在家遇到火灾、触电、食物中毒、遇到坏人……
生活知识科普食醋可溶于乙醇吗在我们的生活当中有很多的常识性的知识大多数人都是不知道的,就好比最近就有很多小伙伴咨询小编问小编关于食醋可溶于乙醇吗的这些知识点,这就说明了现在人们也开开渐渐关注起了食醋可溶于……