乐鱼体育app官网下载

乐鱼体育app下载地址_乐鱼体育app官网下载

联系人:林总

手机:13397081699

地址:青云谱区青云谱农场区华东国际工业博览城12栋C309号、C297号


乐鱼体育app下载:数据发掘范畴大师俞士纶团队新作:最新图自监督学习总述
发布时间:2021-09-01 23:25:52来源:乐鱼体育app下载地址 作者:乐鱼体育app官网下载
产品介绍

  图灵奖得主 Yoshua Bengio 和 Yann LeCun 在 2020 年的 ICLR 大会上指出,自监督学习有望使 AI 发生类人的推理才能。该观念为未来 AI 范畴指明晰新的研讨方向——自监督学习是一种不再依靠标示,而是经过提醒数据各部分之间联系,从数据中生成标签的新学习范式。

  近年来,自监督学习逐步广泛使用于计算机视觉、自然言语处理等范畴。跟着该技能的蓬勃开展,自监督学习在图机器学习和图神经网络上的使用也逐步广泛起来,图自监督学习成为了图深度学习范畴的新开展趋势。

  本文是来自澳大利亚蒙纳士大学(Monash University)图机器学习团队联合中科院、联邦大学,以及数据科学威望 Philip S. Yu 对图自监督学习范畴的最新总述,从研讨布景、学习结构、办法分类、研讨资源、实践使用、未来的研讨方向的方面,为图自监督学习范畴描绘出一幅雄伟而全面的蓝图。

  近年来,图深度学习广泛使用于电子商务、交通流量猜测、化学分子研讨和知识库等范畴。可是,大多数作业都重视在(半)监督学习的学习方式中,这种学习方式首要依靠标签信息对模型进行练习,导致了深度学习模型获取标签本钱高、泛化才能才能欠安、鲁棒性差等局限性。

  自监督学习是一种减轻对标签数据的依靠,然后处理上述问题的新手法。具体地,自监督学习经过处理一系列辅佐使命(称为 pretext task,署理使命)来进行模型的学习,这样监督信号能够从数据中主动获取,而无需人工标示的标签来对模型进行监督练习。

  自监督学习现在现已被广泛使用于计算机视觉(CV)和自然言语处理(NLP)等范畴,具体技能包含词嵌入、大规模言语预练习模型、图画的比照学习等。可是,与 CV/NLP 范畴不同,因为图数据处于不规则的非欧几里得空间,其具有一起的特色,包含:1)需求一起考虑特征信息与不规则的拓扑结构信息;2)因为图结构的存在,数据样本(节点)间往往存在依靠联系。因而,图范畴的自监督学习(graph self-supervised learning)无法直接搬迁 CV/NLP 范畴的署理使命规划,然后为图自监督学习带来了独有的概念界说和分类办法。

  图自监督学习的前史最早可追溯到经典的图嵌入办法,包含 DeepWalk、Line 等,而经典的图自编码器(GAE)模型也可被视为一种图自监督学习。自 2019 年以来,一系列新作业席卷了图自监督学习范畴,触及到的技能包含但不限于比照学习、图性质猜测、图生成学习等。可是,现在短少体系性的分类法对这些办法进行归类,一起该技能相关的结构与使用也没有得到规范化的计算与查询。

  为了添补这一空缺,本文对图自监督学习范畴相关作业做了概括、全面、实时的总述。本文的首要奉献有:1)以数学言语一致了的图自监督学习结构,并供给了体系的分类法;2)对现有办法进行了概括且实时更新的收拾;3)计算了相关的研讨资源和使用场景;4)指出了未来潜在的研讨方向。

  人工标签 vs 伪标签:人工标签指需求人类专家或作业者手动标示的标签数据;伪标签指机器能够从数据中主动获取的标签数据。一般,自监督学习中不会依靠人工标签,而是依靠伪标签来进行学习。

  下流使命 vs 署理使命:下流使命指具体用于衡量所学习表征和模型功能的图剖析使命,比方节点分类、图分类等;署理使命指专门规划的、用于协助模型无监督地学习更优表征然后在下流使命上获得更高功能的辅佐使命。署理使命一般选用伪标签进行练习。

  监督学习、无监督学习与自监督学习:监督学习指经过人工标签来练习机器学习模型的学习范式,而无监督学习是一种无需人工标签来学习的学习范式。作为无监督学习的子类,自监督学习指从数据自身获取监督信号的学习范式,在自监督学习中,模型由署理使命进行练习,然后在下流使命重获取更好的功能和更佳的泛化性。

  本文首要研讨图数据。图由节点调集和边调集构成,其间节点的个数计为 n,边的个数计为 m。图的拓扑结构一般用 n*n 的邻接矩阵 A 来表明,A_ij=1 表明节点 i 和节点 j 之间存在衔接联系,A_ij=0 则表明二者无衔接联系。关于特色图,存在一个特征矩阵 X 来包含每个点和每条边的特征向量。

  关于大部分图自监督学习办法,图神经网络(GNN)作为编码器而存在。GNN 输入邻接矩阵 A 和特征矩阵 X,经过可学习的神经网络参数,生成低维的表征矩阵 H,其间每一行为对应节点的表征向量。关于图等级的使命,一般选用读出函数 R 将节点表征矩阵聚合为一个图表征向量,然后进行图等级的特色学习。

  本文用编码器 - 解码器(encoder-decoder)结构来规范化图自监督学习。其间编码器 f 的输入是原始图数据(A,X),输出为低维表征 H;署理解码器 p 以表征 H 为输入,输出署理使命相关的信息。在此结构下,图自监督学习能够表明为:

  src=其间 D 为相关的图数据散布,L_ssl 为署理使命相关的丢失函数。

  使用练习好的编码器 f,所生成的表征 H 被进一步用于下流使命的学习傍边。经过引进下流解码器 q,下流使命的学习可表明为:

  src=其间 L_sup 为下流使命相关的丢失函数,y 为相关的人工标签。

  在此结构下,本文经过以下几个维度进行分类:1)经过进一步细分公式 ( 1 ) 中的署理解码器 p 和丢失函数 L_ssl,对图自监督学习办法进行分类;2)经过进一步细分署理使命和下流使命的联系,对三种自监督学习方式进行分类;3)经过进一步细分公式 ( 2 ) 中的下流解码器 q 和丢失函数 L_sup,对下流使命进行分类。

  本文将图自监督学习办法分为 4 个类别:依据生成的图自监督学习办法,依据特色的图自监督学习办法,依据比照的图自监督学习办法,以及混合型办法。其间,依据生成的办法(generation-based method)首要将重构图的特征信息或结构信息作为署理使命,完成自监督学习;依据特色的办法(Auxiliary Property-based method)经过猜测一些能够主动获取的图相关的特色,来进行模型的练习;依据比照的办法(Contrast-based method)则是经过最大化同一样本的两个增广实体之间的互信息来进行学习;最终,混合型办法(Hybrid method)经过组合不同的上述几种署理使命,选用多使命学习的方式进行自监督学习。

  依据署理使命和下流使命之间的不同联系,自监督学习的方式分为以下 3 类:预练习 - 微调(Pre-training and Fine-tuning,PF)、联合学习(Joint Learning,JL)以及无监督表征学习(Unsupervised Representation Learning)。其间,PF 首要选用署理使命对编码器进行预练习,然后选用下流使命对编码器进行微调;JL 则是选用多使命学习的办法,一起使用署理使命和下流使命对编码器进行练习;URL 首要无监督地对编码器用署理使命进行练习,然后直接用得到的表征 H 来练习下流使命的解码器。

  下流使命的分类则触及了大多数图机器学习相关的传统使命,依据其数据样本的标准不同,本文将下流使命分类为节点等级使命(如节点分类),边等级使命(如边分类)和图等级使命(如图分类)。

  依据上述对图自监督学习办法的分类办法,本文对相关作业进行了收拾、分类与汇总,分类树如下图所示。

  依据生成的办法首要经过重构输入数据以获取监督信号。依据重构的方针不同,本文将该类办法进一步细分为两个子类:特征生成和结构生成。

  特征生成办法经过署理解码器对特征矩阵进行重构。模型的输入为原始图或许经过扰动的图数据,而重构方针能够是节点特征矩阵,边特征矩阵,或许经过 PCA 降维的特征矩阵等。对应的自监督丢失函数一般为均方差错(MSE)。比较有代表性的办法为 Graph Completion,该办法对一些节点的特征进行隐瞒,其署理使命的学习方针为重构这些被隐瞒的节点特征。

  结构生成办法起源于经典的图自编码器(GAE),一般选用依据表征相似度的解码器对图的邻接矩阵 A 进行重构。因为邻接矩阵的二值性,对应的丢失函数一般为二分类穿插熵(BCE);而因为邻接矩阵的稀少性,一般选用负采样等手法完成类别平衡。

  依据特色的办法从图中主动获取一些有用的特色信息,以此作为监督信号对模型进行练习。这类办法在方式上与监督学习比较相似,都是选用 样本 - 标签 的数据方式进行学习,其差异在于这儿的 标签 信息为伪标签,而监督学习所用的为人工标签。依据监督学习的分类方式,本文将该类办法细分为两个子类:特色分类和特色回归。

  特色分类办法主动地从数据中概括出离散的特色作为伪标签,作为署理使命的学习方针供模型学习,对应的丢失函数一般为穿插熵。经过获取伪标签的手法不同,该类办法可进一步分为:1)依据聚类的特色分类:2)依据点对联系的特色分类。前者选用依据特征或结构的聚类算法的对节点赋予伪标签,而后者则是经过两个点之间的联系得到一个点对的伪标签。

  特色回归办法从数据中获取接连的特色作为伪标签,对应的丢失函数为均方差错(MSE)。一个典型的比如是提取节点的度(degree)作为其特色,经过署理编码器对该特性进行回归,完成对模型的自监督练习。

  依据比照的办法引进了互信息最大化的概念,经过猜测两个视角(view)之间的相容性来进行自监督学习。本文从三个视点对该类办法进行收拾,分别是:1)图增广办法;2)图比照学习署理使命;3)互信息估量办法。

  图增广技能用于从原始数据生成出增广数据,然后构成比照学习中不同的视角。图增广办法有特征增广、结构增广、混合增广。特征增广首要对图数据中的特征信息进行改换,最常见的手法是节点特征隐瞒(NFM),即随机的将图中的些特征量置为 0;此外,节点特征乱序(NFS)也是一种特征增广办法,其手法为对调不同节点的特征向量。结构增广的手法是对图结构信息进行改换,常见的结构增广为边修正(EM),包含对边的添加和删去;另一种结构增广为图弥散(Graph diffusion,GD),其对不同阶的邻接矩阵进行加权求和,然后获取更大局的结构信息。混合增广则结合了上述两种增广方式,一个典型的手法为子图采样(SS),即从原图数据中采姿态结构成为增广样本。

  关于比照式的署理使命,本文经过其比照样本的标准进行进一步细分为同标准比照学习和跨标准比照学习。其间,同标准比照学习经过最大化同一节点样本或许同一图样本在不同视角下的互信息来进行自监督学习,此类办法包含前期的依据随机游走的图嵌入办法,以及一系列 CV 比照学习结构(如 SimCLR 和 MoCo)在图范畴的使用办法。跨标准比照学习经过最大化 节点样本 vs 大局样本 或许 节点样本 vs 街坊样本 之间的互信息来学习,这类办法起源于 Petar 等人与 2019 年提出的 DGI,现在在异质图、动态图等数据上均有使用。

  混合型办法结合了两种或多种不同的署理使命,以多使命学习的方式一起练习模型。常见的组合包含:结合两种生成使命(特征生成 + 结构生成)的混合办法,结合生成使命和比照使命的混合办法,结合多种比照使命的混合办法,以及三种使命一起参加的混合办法。混合型办法的总结如下表所示:

  在附录内容傍边,本文计算了图自监督学习相关的各种研讨资源,包含:干流的数据集,常用的点评手法,不同办法的功能比照,以及各办法对开源代码总结。这些信息能够更好的协助研讨人员了解、比照和复现现有作业。

  本文总结了图自监督学习在三个范畴的实践使用,包含:引荐体系,反常检测,以及化学范畴。此外,更多使用类作业也被总结在附录傍边,触及到的范畴包含程序修正、医疗、联邦学习等。

  针对潜在的研讨热门,本文剖析了图自监督学习中存在的应战,并指出了一些旨在处理这些应战的未来研讨方向。

  尽管图自监督学习在各种使命和数据集上都获得较好的功能,但其仍然缺少坚实的理论基础以证明其有效性,因为大多数作业都只是经历性地规划其署理使命,且仅选用试验手法进行点评。现在仅有的理论支撑来自互信息最大化,但互信息的点评仍然依靠于经历办法。咱们以为,图自监督学习亟需与图理论相关的研讨,潜在的理论基础包含图信号处理和谱图理论。

  许多图自监督学习的作业使用于危险敏感性和隐私相关的范畴,因而,可解释且鲁棒的自监督结构关于习惯此类学习场景具有重要意义。可是,现有作业只将下流使命功能视为其方针,而疏忽了学习表明和猜测成果的可解释性。此外,考虑到实在数据的不完整性以及图神经网络易受对立进犯的特色,咱们应当考虑图自监督学习的鲁棒性;可是,除个别作业外,现有的图自监督学习办法均假定输入数据是完美的。因而,探究可解释的、鲁棒的图自监督办法是一个未来的潜在方向。

  当时的大多数作业会集于特色图的自监督学习,只要少量作业会集于杂乱的图类型,例如异质或时空图。关于杂乱图,首要的应战是怎么规划署理使命来捕获这些杂乱图的一起数据特征。现有的一些办法将互信息最大化的思维使用于杂乱图的学习,其学习才能比较有限。因而,一个潜在方向是为杂乱的图数据规划多种多样的署理使命,这些使命应习惯其特定的数据特征。此外,将自监督技能扩展到更遍及的图类型(例如超图)将是一个可行的方向,值得进一步探究。

  在 CV 的比照学习中,很多的数据增广战略(包含旋转、色彩歪曲、裁剪等)供给了不同的视角,然后支撑了比照学习中的表征不变性。可是,因为图结构数据的性质(杂乱和非欧几里德结构),图上的数据增广计划没有得到很好的探究。现有的图增广战略大多选用随机的隐瞒 / 乱序节点特征、边修正、子图采样和图分散等手法,这在生成多个图视角时无法供给丰厚的多样性,一起其表征不变性也是不确定的。为了处理这个问题,自习惯地履行图形增广,主动挑选增广,或经过发掘丰厚的底层结构和特色信息联合考虑更强的增广样本都将是未来潜在的研讨方向。

  本文计算的大部分办法仅经过处理一个署理使命来练习模型,只要少量混合办法探究多个署理使命的组合。可是,不少 NLP 范畴的与练习模型和本文所汇总的少量混合办法都说明晰:不同的署理使命能够从不同的视点供给监督信号,这更有助于图自监督办法学习到有用的信息表征。因而,对多种署理使命的自习惯组合,以及更先进的混合办法值得进一步研讨。

  图是许多范畴中遍及存在的数据结构;可是,在大多数使用范畴,获取手动标签的本钱往往很高。在这种情况下,图自监督学习具有很好的远景,特别是那些高度依靠专业知识来标示数据的范畴。可是,大多数现有的图自监督学习的实践使用仅会集在少量几个范畴(引荐体系、反常检测和化学),这表明图自监督在大多数使用范畴具有未开发的潜力。咱们有望将图自监督学习扩展到更宽广的使用范畴,例如,金融网络、网络安全、社区检测和联邦学习等。

  2021 亚马逊云科技我国峰会「第二站」将于9 月 9 日 -9 月 14 日全程在线上举行。关于 AI 开发者来说,9 月 14 日举行的「人工智能和机器学习峰会」最值得重视。

  当天上午,亚马逊云科技人工智能与机器学习副总裁 Swami Sivasubramanian 博士与 AI 范畴闻名学者、Landing AI 创始人吴恩达(Andrew Ng )博士打开一场「炉边说话」。

  不仅如此,「人工智能和机器学习峰会」还设置了四大分论坛,分别为「机器学习科学」、「机器学习的影响」、「无需依靠专业知识的机器学习实践」和「机器学习怎么落地」,从技能原理、实践场景中的使用落地以及对职业范畴的影响等多个方面具体论述了机器学习的开展。

乐鱼体育app下载| 乐鱼体育app下载地址| 新闻中心| 产品中心| 乐鱼体育app官网下载| 工程案例| 网站地图|