NSDT工具推荐: Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 可编程3D场景编辑器 - REVIT导出3D模型插件 - 3D模型语义搜索引擎 - AI模型在线查看 - Three.js虚拟轴心开发包 - 3D模型在线减面 - STL模型在线切割 - 3D道路快速建模
虽然 ChatGPT 或 Diffusion 模型等 AI 系统最近备受关注,但图神经网络 (GNN) 却发展迅速。在过去的几年中,GNN 悄然成为众多激动人心的新成就背后的黑马,这些成就从纯学术研究突破一路发展到大规模积极部署的实际解决方案。
Uber、谷歌、阿里巴巴、Pinterest、Twitter 等许多公司已经在其部分核心产品中转向基于 GNN 的方法,其动机是这些方法与之前最先进的 AI 架构相比表现出显着的性能改进。
尽管问题类型多样,底层数据集也存在差异,但所有这些突破都使用 GNN 这一统一框架作为核心运行。这表明了一种潜在的视角转变:图结构数据提供了一个通用且灵活的框架,用于描述和分析任何可能的实体集及其相互作用。
图机器学习的实际优势是什么?为什么图神经网络在 2024 年很重要?本文将回顾 GNN 的一些具有高度影响力的应用,为你提供了解 AI 下一波浪潮所需的一切知识。
1、简介
图数据遍布全球:任何由实体及其关系组成的系统都可以用图形表示。尽管过去十年来,深度学习算法在自然语言处理、计算机视觉和语音识别等领域取得了突出进展,因为它们能够通过非线性层从数据中提取高级特征,但大多数深度学习架构都是专门针对欧几里得结构化数据(如表格数据、图像、文本和音频)量身定制的,而图形数据则在很大程度上被忽略了。
传统的人工智能方法旨在从由某种“刚性”结构编码的对象中提取信息。例如,图像通常被编码为固定大小的二维像素网格,文本被编码为一维单词序列(或标记)。另一方面,以图结构的方式表示数据可能会揭示从这些实体及其关系的高维表示中浮现出的有价值的信息,否则这些信息将会丢失。
区域邻接图是将图像数据点表示为图(而不是固定大小的方形像素网格)的众多方法之一,尽管其编码复杂度较高,但它提供了更接近人类感知的图像分割。
不幸的是,图的高度灵活性允许以大量可能性来表示同一块数据,但代价是设计能够学习该数据并在不同领域推广的同质框架的复杂性。在过去二十年中,已经提出了各种能够大规模处理图形数据的人工智能系统的方法,但这些进步往往与它们开发的具体情况和设置有关。
在某种程度上,这反映了十年前深度学习革命期间发生的事情,当时语音识别系统曾经由隐马尔可夫模型、高斯混合模型和严重依赖传统信号处理的计算机视觉系统组合而成,并逐渐融合为端到端深度学习系统,这些系统甚至经常使用相同的基本架构:一个标准的例子是 Transformers 和注意力机制,它们起源于自然语言处理领域,最近传播到许多不同的领域。
近年来,一个相对较小的高级深度学习研究人员社区在展示如何将不同领域的各种数据问题最好地转化为图问题方面取得了长足进步,其中图神经网络及其一些变体已被证明在各种深度学习任务中优于主流方法。GNN 已成为解决许多完全不同且看似不相关的领域(如药物发现、推荐系统、交通预测等)现实问题的重要工具,而更传统和针对具体案例的方法则失败了。
GNN 在更广泛的 AI 研究领域中目前扮演着什么角色?让我们首先看一些统计数据,揭示 GNN 在研究界如何出现惊人的增长。
2、AI研究领域的图神经网络
如果我们查看过去几年 ICLR 和 NeurIPS 接受的研究出版物,我们就可以初步了解 GNN 在研究中的增长情况。ICLR 和 NeurIPS 是两大年度会议,专注于前沿人工智能研究。我们发现“图神经网络”一词逐年稳定地位居前 3 个关键词之列。
最近的一项文献计量研究系统地分析了这一研究趋势,揭示了涉及 GNN 的已发表研究数量呈指数级增长,2017-2019 年期间年均增长率高达 +447%。《2021 年人工智能状况报告》进一步证实,图神经网络是人工智能研究出版物中的关键词,“2019 年至 2020 年使用量增幅最大”。
我们还可以通过观察图神经网络在不同应用领域的影响来检验其多功能性。下图旨在说明 GNN 论文在 22 个类别中的分布情况。
我们可以看到,GNN 在 AI 研究领域取得了令人瞩目的增长,其影响分布在截然不同的领域。现在让我们看看其中的一些用例,并了解 GNN 如何在这些领域产生可量化的影响。
3、图神经网络精选用例
图神经网络已成为许多近期激动人心的项目背后的关键要素。让我们仔细看看将 GNN 应用于生产中的大规模模型的一些示例和结果。
3.1 用于推荐系统的 GNN
Uber Eats 团队开发了一款食品配送应用程序,最近开始将图学习技术引入推荐系统,为该应用程序提供支持,旨在展示最有可能吸引个人用户的食物。
鉴于在这种环境下处理的图规模巨大(Uber Eats 是全球 500 多个城市 320,000 多家餐厅的门户),图神经网络是一个非常有吸引力的选择。事实上,GNN 只需要固定数量的参数,这些参数与输入图的大小无关,从而使学习可扩展到大型图。
在对该模型进行推荐菜肴和餐馆的首次测试中,团队报告称,与现有生产模型相比,在关键指标(如平均倒数排名、Precision@K 和 NDCG)上的性能提升了 20% 以上。在将 GNN 模型集成到 Uber Eats 推荐系统(其中包含其他非基于图的功能)后,开发人员发现与现有的生产基线模型相比,AUC 从 78% 跃升至 87%,后来的影响分析表明,基于 GNN 的功能是整个推荐模型中迄今为止最具影响力的功能。
Pinterest 是一个视觉发现引擎,它以社交网络的形式运行,用户可以通过视觉书签(称为图钉)与图钉进行交互,这些图钉链接到基于网络的资源。该平台允许用户将图钉组织成主题集合(称为图板)。“Pinterest 图”包含 20 亿个图钉、10 亿个图板和超过 180 亿条边,代表了一个丰富而复杂的视觉生态系统,对理解用户行为和偏好具有潜在意义。
Pinterest 目前正在积极部署 PinSage,这是一个由 GNN 驱动的推荐系统,已扩展以在 Pinterest 图上运行。PinSage 能够以新颖的方式预测用户发现哪些有趣的视觉概念可以映射到可能吸引他们的新事物上。
为了衡量其准确性,研究团队评估了 PinSage 与其他最先进的基于内容的深度学习基线(基于视觉或注释嵌入方法的最近邻居)的性能,并使用以下两个关键指标进行推荐任务:
- 命中率 - 直接测量算法提出的建议包含与查询相关的项目的概率。
- 平均倒数排名 (MRR) – 衡量相关结果接近搜索结果顶部的程度。
总体而言,与最佳基线生产模型相比,PinSage 的命中率提高了 150%,MRR 提高了 60%。
Uber Eats 和 Pinterest 团队都在一种名为 GraphSAGE 的特定类型的图神经网络之上构建了他们的 AI 系统,因为它具有强大的可扩展性。GraphSAGE(由斯坦福大学研究人员开发的开源 GNN 框架)专门设计用于在看不见的数据上高效生成有用的节点嵌入,代表了推荐系统的重大突破。当根据三个硬分类基准[1]进行评估时,与单独使用节点特征相比,它比所有相关基线平均高出 51%(分类 F1 分数),并且始终优于强大的基线(DeepWalk),推理时间减少了 100 倍。
3.2 用于交通预测的 GNN
图神经网络的另一个影响深远的应用来自 DeepMind 的一个研究团队,他们展示了如何将 GNN 应用于交通地图以提高预计到达时间 (ETA) 的准确性。这个想法是使用 GNN 来学习交通网络的表示,以捕捉网络的底层结构及其动态。
谷歌地图已经在全球几个主要城市积极大规模部署了该系统,新方法已大幅降低了查询 ETA 时负面用户结果的比例(与之前在生产中部署的方法相比,准确率提高了 50%)。
3.3 用于天气预报的 GNN
2023 年 11 月,Google DeepMind 推出了一种新的天气预报模型 GraphCast,并开源了该模型的代码。
GraphCast 目前被认为是世界上最准确的 10 天全球天气预报系统,可以比以前更早地预测未来的极端天气事件。
该模型也非常高效,可以在不到一分钟的时间内用单个 Google TPU 进行 10 天预报。相比之下,使用传统方法进行 10 天预报可能需要在拥有数百台机器的超级计算机中计算数小时。
详细研究结果发表在《科学》杂志上。
3.4 用于数据挖掘的 GNN
图神经网络的一个令人兴奋的新应用领域是数据挖掘。
大多数组织将其关键业务数据存储在关系数据库中,其中的信息分布在许多链接表中。传统上,对这些数据进行机器学习需要手动特征工程,首先将所有相关表中的数据聚合到一个表中,然后再进行建模。这个过程很耗时,而且很容易丢失信息。
最近,研究人员提出了一种称为关系深度学习的新方法,该方法利用 GNN 直接从关系数据库中学习有用的模式和嵌入,而无需任何特征工程。
鉴于关系数据库的普遍性,这项技术具有巨大的潜力,可以在无数行业中实现新的 AI 应用。
3.5 用于材料科学的 GNN
在去年 11 月发表在《自然》杂志上的一篇论文中,谷歌 DeepMind 团队介绍了用于材料探索的图形网络 (GNoME),这是一种新的深度学习工具,可以大规模发现新材料并预测其稳定性。
GNoME 利用 GNN 在原子层面上对材料进行建模。原子及其键以图形表示,节点表示单个原子,边表示原子间的相互作用。元素属性的描述符嵌入在节点特征中。通过对这些图进行操作,GNN 可以有效地学习预测分子的能量特性。
至关重要的是,GNoME 将主动学习与密度泛函理论 (DFT) 计算相结合,以迭代方式扩展其知识。这意味着:该框架交替使用其 GNN 来筛选候选材料,并在循环中使用 DFT 模拟,这些模拟主要用于验证模型最不确定的预测。这会创建一个自动反馈循环,其中模型会在扩展的数据集上不断重新训练。
这种神经网络和第一性原理物理模拟的结合实现了非常高效和准确的学习。值得注意的是,GNoME 展示了一些“新兴能力”,因为它可以推广到其训练分布之外的全新组合。
3.6 用于药物发现的 GNN
也许 AI 方法在制药领域最著名的近期应用之一来自麻省理工学院的一项研究项目,该项目已发表在著名科学期刊《细胞》上。
目标是使用 AI 模型通过学习分子的图形表示来预测分子的抗生素活性,从而捕获其潜在的抗生素活性。在这种情况下,选择用图形编码信息是非常自然的,因为抗生素可以表示为小分子图,其中节点是原子,边缘对应于它们的化学键。
AI 模型从这些数据中学习,以预测在某些理想条件下最有希望的分子,随后这些预测在实验室中进行测试和验证,从而帮助生物学家从数十亿个可能的候选分子中确定要分析的分子的优先级。
这导致了一种之前未知的化合物 Halicin 被鉴定出来,它是一种强效抗生素,对抗生素耐药性细菌也有效,这一结果被抗生素发现研究领域的专家视为重大突破。
该消息在媒体上引起轰动,BBC 和《金融时报》等媒体都刊登了专题文章,但几乎没有人考虑到基于 GNN 的方法是所部署的特定 AI 模型的支柱。另一方面,研究人员报告了如何使用定向消息传递深度神经网络方法(GNN 的一个核心特性)对于这一发现至关重要:事实上,其他最先进的模型也针对 Halicin 进行了测试,但与基于图的 AI 模型相反,它们未能输出较高的预测等级。
3.7 用于可解释 AI 的 GNN
药物发现 AI 模型(如上文所述)用于创建数值预测,然后需要在实验室中进行测试。模型本身无法先验地解释其自身结果。这种情况在大多数当前 AI 模型中很常见,这也是许多人将它们称为“黑匣子”的原因。
麻省理工学院和哈佛大学于 2023 年底在《自然》杂志上发表的一篇突破性论文试图在这方面展示一些不同的东西。作者训练 GNN 筛选化学化合物,以杀死耐甲氧西林金黄色葡萄球菌,这种细菌是进化为对普通抗生素无害的最致命的细菌。
研究人员不仅能够预测超过 1200 万种化合物的抗生素活性,而且还通过使用可解释的图形算法来做到这一点,这些算法在设计上能够解释其预测背后的原理。
3.8 用于蛋白质设计的 GNN
蛋白质设计的目标是创建具有所需特性的蛋白质,并且可以通过(通常成本很高的)实验方法来实现,这些方法允许研究人员通过直接操纵蛋白质的氨基酸序列来设计新蛋白质。新蛋白质的设计具有巨大的潜在应用,例如开发新药、酶或材料。
Baker Lab 最近将图神经网络和扩散技术相结合,创建了一个名为 RosettaFoldDiffusion (RFDiffusion) 的 AI 系统,事实证明该系统能够设计满足自定义约束的蛋白质结构。该 AI 模型通过 E(n)-等变图神经网络运行,这是一种特殊的 GNN,专门设计用于处理具有刚性运动对称性的数据结构(例如平移、旋转和空间反射),并被微调为去噪器,即扩散模型。
RFDiffusion 于 2022 年 11 月发布,是一个高度复杂的系统,能够处理蛋白质设计中的大量特定任务,因此已经针对各种指标和基准进行了测试。结果表明,与最先进的竞争对手相比,RFDiffusion 取得了显著的进步:在设计蛋白质结构基序的支架时,RFDiffusion 比之前最先进的深度神经网络模型多解决了 100% 的基准问题(25 个问题中的 23 个),并在设计蛋白质结合剂方面取得了 18% 的成功率——这一问题被称为蛋白质设计中的“大挑战”。此外,根据目标蛋白质的不同,RFDiffusion 的实验成功率从 5 倍到 214 倍不等。
一些该领域的专家认为,RFDiffusion 可能是“与 AlphaFold 一起,本世纪结构生物学领域最大的进步之一”,这一进步主要依赖于图神经网络的最新进展。
4、结束语
图神经网络是一个快速发展的领域,有许多令人兴奋的发展,人工智能研究界在过去几年中大大增加了对这一领域的关注。
在工业界,图机器学习在截然不同领域的应用最近才开始出现,而 GNN 已经成为一些大规模部署的最先进的生产就绪模型中的游戏规则改变者。这些最近的成功为一系列新的应用带来了机会,看看这个领域今年会带来什么将会非常有趣。
原文链接:AI trends in 2024: Graph Neural Networks
BimAnt翻译整理,转载请标明出处