五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

作者: 一鸣、李亚洲 2019-09-04 15:07:15

 今日,谷歌 TensorFlow 宣布推出神经结构学习(NSL)开源框架,它使用神经图学习方法来训练带有图和结构化数据的神经网络。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

据谷歌 TensorFlow 博客介绍,NSL 是一个新手和高级开发人员都可以用来训练具有结构化信号神经网络的简易框架,可用于构建精确且稳健的视觉、语言理解和预测模型。

  • 项目地址:https://github.com/tensorflow/neural-structured-learning

结构化数据包含样本之间丰富的关系信息,许多机器学习任务都得益于此。例如,建模引用网络、句子语言学结构的知识图推断与推理,以及学习分子指纹,这些都需要模型来学习结构化输入,而不只是个别样本。

这些结构可以是明确给出的(例如,作为图形),或者隐式推断的(例如,作为对抗性示例)。在训练阶段利用结构化信号可以使开发人员获得更高的模型准确度,尤其是当标记数据量相对较小时。谷歌的研究表明,使用结构化信号进行训练也可以带来更稳健的模型。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

图网络学习的一般流程。

使用这些技术,谷歌极大的提升了模型性能,例如学习图像语义嵌入。

神经结构学习(NSL)是一种用于训练具有结构化信号深度神经网络的开源框架。它实现了谷歌在论文《Neural Graph Learning: Training Neural Networks Using Graphs》中介绍的神经图学习,使开发人员能够使用图训练神经网络。

这里的图可以是多样的,例如知识图、医疗记录、基因组数据或多模式关系(例如,图像 - 文本对)。此外,NSL 还可以应用到对抗性学习,也就是说输入样本之间的结构可以是使用对抗性扰动动态构建的。

NSL 让 TensorFlow 用户能够轻松地结合各种结构化信号来训练神经网络,且适用于不同的学习场景:监督、半监督和无监督(表示)设置。

NSL 如何工作

在 NSL 框架中,结构化信息(如可以定义为图的数据或隐性的对抗样本),都可以被用来归一化神经网络的训练,使得模型学习精确地进行预测(通过最小化监督损失)。同时,保证从同一种结构中的所有输入保持同样的相似度(通过最小化近邻损失)。这种技术是可以泛化的,可以使用在神经网络架构上,如前向神经网络、卷积神经网络和循环神经网络等。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

NSL 的基本架构。

用 NSL 建立一个模型

有了 NSL,建立一个使用结构化数据的模型就会很容易,而且非常直观。给定一个图(有具体结构)和训练样本,NSL 提供了相关的工具,用于将这些样本输入到 TFRcords 中,用于降采样操作。

具体代码如下,可以使用相关的命令行工具将图和数据进行输入:

  1. python pack_nbrs.py --max_nbrs=5 \ 
  2. labeled_data.tfr \ 
  3. unlabeled_data.tfr \ 
  4. graph.tsv \ 
  5. merged_examples.tfr 

之后,NSL 提供了一些 API,可以将定制化的模型「打包起来」,将处理过的样本输入进去,使用图结构进行归一化操作。以下为具体代码:

  1. import neural_structured_learning as nsl 
  2. # Create a custom model — sequential, functional, or subclass.  
  3. base_model = tf.keras.Sequential(…) 
  4. # Wrap the custom model with graph regularization.  
  5. graph_config = nsl.configs.GraphRegConfig( 
  6.  neighbor_config=nsl.configs.GraphNeighborConfig(max_neighbors=1))  
  7. graph_model = nsl.keras.GraphRegularization(base_model, graph_config) 
  8. # Compile, train, and evaluate.  
  9. graph_model.compile(optimizer=’adam’,  
  10.  loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=[‘accuracy’])  
  11. graph_model.fit(train_dataset, epochs=5)  
  12. graph_model.evaluate(test_dataset) 

只需要额外的 5 行代码(包括注释),NSL 就可以将一个神经模型和图信号结合起来。从数据上来说,使用图结构可以让模型在训练中使用更少的标注数据,而且不会损失太多的准确率(和原有的监督学习相比只少 10% 甚至是 1%)。

使用没有显式结构的图进行训练

如果没有显形结构的图、或者不是作为输入的情况下,NSL 怎么训练呢?NSL 提供了相关的工具,用于从原始数据中建立一个图。另外,NSL 提供了相关的工具,用于从隐性结构信号中「推导」出对抗样本。对抗样本用于故意诱导模型,使得训练出的模型对于小的输入扰动更为鲁棒。以下为相关代码:

  1. import neural_structured_learning as nsl # Create a custom model — sequential, functional, or subclass.  
  2. base_model = tf.keras.Sequential(…)# Wrap the custom model with graph regularization.  
  3. graph_config = nsl.configs.GraphRegConfig( 
  4.  neighbor_config = nsl.configs.GraphNeighborConfig(max_neighbors=1))  
  5. graph_model = nsl.keras.GraphRegularization(base_model, graph_config) # Compile, train, and evaluate.  
  6. graph_model.compile(optimizer=’adam’,  
  7.  loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=[‘accuracy’])  
  8. graph_model.fit(train_dataset, epochs=5)  
  9. graph_model.evaluate(test_dataset) 

通过少于额外 5 行代码(包括注释),就能获得一个使用带有隐性结构对抗样本训练的神经模型。根据经验,在没有对抗性样本的情况下,当将具有恶意但人类无法检测出的扰动数据添加到输入时,模型会遭受显著的准确度损失(例如,低 30%),加入对抗样本进行训练则可以避免这样的问题。

代码 开发 开源
上一篇:市场营销人员是时候拥抱人工智能了 下一篇:俄机器人宇航员将携带3D打印的骨组织样本返回地球
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

连肌肉颤动都清晰可见!3D人体模型自动生成算法,一作北大图灵班

团队开发了一套神经网络,用来生成具有指定结构的骨骼,并且精准绑定骨骼的蒙皮权重。

子豪 ·  1天前
谷歌大脑最新操作玩“复古”:不用卷积注意力,图像分类接近SOTA

这个架构名为MLP-Mixer,采用两种不同类型的MLP层,可以看做是一个特殊的CNN,使用 1×1卷积进行通道混合(按位操作),同时全感受野和参数共享的的单通道深度卷积进行字符混合(跨位操作)。

佚名 ·  2021-05-06 15:55:01
机器学习新算法更好描述量子系统模型

近日,英国布里斯托大学量子工程技术实验室的研究人员在《自然·物理学》杂志上发表一篇新论文,解释了一种通过充当自主代理,使用机器学习对哈密顿模型进行逆向工程的算法。这种新算法对量子系统基本物理原理提供了宝贵见解,有望带来量子计算和传感领域的重大进步,并有可能翻开科学研究的新篇章。

张佳欣 ·  2021-04-30 15:12:07
谷歌实现2种新的强化学习算法,“比肩”DQN,泛化性能更佳

来自Google Research的研究人员,证明可以使用图表示 (graph representation)和AutoML的优化技术,来学习新的、可解析和可推广的RL算法!

丰色 ·  2021-04-29 14:53:14
刷题太遭罪怎么办?这个算法基地专为小白量身打造,还带动画

学习算法可能并不只是拼智商,可以通过后天的学习进行掌握,这就需要讲究技巧。方法找对了,可以起到事半功倍的效果。

机器之心 ·  2021-03-25 16:32:24
袖口里的“超能力”:Facebook腕带式AR传感器,可隔空打字、操控界面,LeCun点赞

Facebook最近公布的腕带式的AR传感器,让你在虚拟世界get绯红女巫同款技能。

子豪 ·  2021-03-22 11:18:53
为什么说Python是最适合机器学习项目的语言?

Python 在全球范围内持续流行,本文将介绍为什么程序员们都喜欢用它的原因,以及为什么Python适合机器学习。

为AI呐喊 ·  2021-03-09 15:21:13
多所名校联合Adobe,用这项开源算法「透视」了一封300多年前的信

最近,一项技术帮助历史学家们解决了这一难题——科学家们首次在不打开、不破坏信件的前提下“阅读”了封印的古老信件。

付静 ·  2021-03-09 09:57:33
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载