五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

作者: 一鸣、李亚洲 2019-09-04 15:07:15

 今日,谷歌 TensorFlow 宣布推出神经结构学习(NSL)开源框架,它使用神经图学习方法来训练带有图和结构化数据的神经网络。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

据谷歌 TensorFlow 博客介绍,NSL 是一个新手和高级开发人员都可以用来训练具有结构化信号神经网络的简易框架,可用于构建精确且稳健的视觉、语言理解和预测模型。

  • 项目地址:https://github.com/tensorflow/neural-structured-learning

结构化数据包含样本之间丰富的关系信息,许多机器学习任务都得益于此。例如,建模引用网络、句子语言学结构的知识图推断与推理,以及学习分子指纹,这些都需要模型来学习结构化输入,而不只是个别样本。

这些结构可以是明确给出的(例如,作为图形),或者隐式推断的(例如,作为对抗性示例)。在训练阶段利用结构化信号可以使开发人员获得更高的模型准确度,尤其是当标记数据量相对较小时。谷歌的研究表明,使用结构化信号进行训练也可以带来更稳健的模型。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

图网络学习的一般流程。

使用这些技术,谷歌极大的提升了模型性能,例如学习图像语义嵌入。

神经结构学习(NSL)是一种用于训练具有结构化信号深度神经网络的开源框架。它实现了谷歌在论文《Neural Graph Learning: Training Neural Networks Using Graphs》中介绍的神经图学习,使开发人员能够使用图训练神经网络。

这里的图可以是多样的,例如知识图、医疗记录、基因组数据或多模式关系(例如,图像 - 文本对)。此外,NSL 还可以应用到对抗性学习,也就是说输入样本之间的结构可以是使用对抗性扰动动态构建的。

NSL 让 TensorFlow 用户能够轻松地结合各种结构化信号来训练神经网络,且适用于不同的学习场景:监督、半监督和无监督(表示)设置。

NSL 如何工作

在 NSL 框架中,结构化信息(如可以定义为图的数据或隐性的对抗样本),都可以被用来归一化神经网络的训练,使得模型学习精确地进行预测(通过最小化监督损失)。同时,保证从同一种结构中的所有输入保持同样的相似度(通过最小化近邻损失)。这种技术是可以泛化的,可以使用在神经网络架构上,如前向神经网络、卷积神经网络和循环神经网络等。

五行代码用图提升模型表现,TensorFlow开源NSL神经结构学习框架

NSL 的基本架构。

用 NSL 建立一个模型

有了 NSL,建立一个使用结构化数据的模型就会很容易,而且非常直观。给定一个图(有具体结构)和训练样本,NSL 提供了相关的工具,用于将这些样本输入到 TFRcords 中,用于降采样操作。

具体代码如下,可以使用相关的命令行工具将图和数据进行输入:

  1. python pack_nbrs.py --max_nbrs=5 \ 
  2. labeled_data.tfr \ 
  3. unlabeled_data.tfr \ 
  4. graph.tsv \ 
  5. merged_examples.tfr 

之后,NSL 提供了一些 API,可以将定制化的模型「打包起来」,将处理过的样本输入进去,使用图结构进行归一化操作。以下为具体代码:

  1. import neural_structured_learning as nsl 
  2. # Create a custom model — sequential, functional, or subclass.  
  3. base_model = tf.keras.Sequential(…) 
  4. # Wrap the custom model with graph regularization.  
  5. graph_config = nsl.configs.GraphRegConfig( 
  6.  neighbor_config=nsl.configs.GraphNeighborConfig(max_neighbors=1))  
  7. graph_model = nsl.keras.GraphRegularization(base_model, graph_config) 
  8. # Compile, train, and evaluate.  
  9. graph_model.compile(optimizer=’adam’,  
  10.  loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=[‘accuracy’])  
  11. graph_model.fit(train_dataset, epochs=5)  
  12. graph_model.evaluate(test_dataset) 

只需要额外的 5 行代码(包括注释),NSL 就可以将一个神经模型和图信号结合起来。从数据上来说,使用图结构可以让模型在训练中使用更少的标注数据,而且不会损失太多的准确率(和原有的监督学习相比只少 10% 甚至是 1%)。

使用没有显式结构的图进行训练

如果没有显形结构的图、或者不是作为输入的情况下,NSL 怎么训练呢?NSL 提供了相关的工具,用于从原始数据中建立一个图。另外,NSL 提供了相关的工具,用于从隐性结构信号中「推导」出对抗样本。对抗样本用于故意诱导模型,使得训练出的模型对于小的输入扰动更为鲁棒。以下为相关代码:

  1. import neural_structured_learning as nsl # Create a custom model — sequential, functional, or subclass.  
  2. base_model = tf.keras.Sequential(…)# Wrap the custom model with graph regularization.  
  3. graph_config = nsl.configs.GraphRegConfig( 
  4.  neighbor_config = nsl.configs.GraphNeighborConfig(max_neighbors=1))  
  5. graph_model = nsl.keras.GraphRegularization(base_model, graph_config) # Compile, train, and evaluate.  
  6. graph_model.compile(optimizer=’adam’,  
  7.  loss=tf.keras.losses.SparseCategoricalCrossentropy(), metrics=[‘accuracy’])  
  8. graph_model.fit(train_dataset, epochs=5)  
  9. graph_model.evaluate(test_dataset) 

通过少于额外 5 行代码(包括注释),就能获得一个使用带有隐性结构对抗样本训练的神经模型。根据经验,在没有对抗性样本的情况下,当将具有恶意但人类无法检测出的扰动数据添加到输入时,模型会遭受显著的准确度损失(例如,低 30%),加入对抗样本进行训练则可以避免这样的问题。

代码 开发 开源
上一篇:市场营销人员是时候拥抱人工智能了 下一篇:俄机器人宇航员将携带3D打印的骨组织样本返回地球
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

化身阿凡达,国外小哥开源 AI 实时变脸工具 Avatarify

疫情期间,很多人都在用 Zoom 和 Skype 等软件进行视频会议。国外一位开发小哥觉得这样开会太无聊,于是基于 first-order-model 开发了一个能够把别人的照片套在自己脸上的“变脸”软件 Avatarify,并将其开源。

OSC神秘老司机 ·  4天前
全球首个 3D 版 AI 合成主播亮相,还将参与两会报道,网友:主持人要失业了

AI 合成主播已不稀奇,但能走动、做手势、换装的 3D 版 AI 主播,「新小微」是全球第一个。

肖漫 ·  2020-05-22 09:05:32
5行代码,快速实现图像分割,代码逐行详解,手把手教你处理图像

图像分割,作为计算机视觉的基础,是图像理解的重要组成部分,也是图像处理的难点之一。

金磊 ·  2020-05-21 14:50:48
华为突破封锁,对标谷歌Dropout专利,开源自研算法Disout

美国持续封锁,华为的技术自研,已经深入到了AI底层算法层面上,并开始将研究成果面向业界开源。

乾明 金磊 ·  2020-05-20 10:25:43
颠覆制药行业,AI究竟是「噱头」还是「盼头」?

人工智能(AI)已经在过去十年左右的时间里从科幻变成了现实,并且正在颠覆(或可望颠覆)地球上几乎每个流程。比如帮助导航我们的汽车、飞机和太空飞船,可以在Netflix上建议用户看什么电影,也可以助力颠覆其他数十种事情,无论是大事情还是普通事情。

科技行者 ·  2020-05-07 10:53:04
再也不怕别人动电脑了!用Python实时监控

最近突然有个奇妙的想法,就是当我对着电脑屏幕的时候,电脑会先识别屏幕上的人脸是否是本人,如果识别是本人的话需要回答电脑说的暗语,答对了才会解锁并且有三次机会。

佚名 ·  2020-05-07 09:05:22
Facebook 开源聊天机器人 Blender,号称全球最强

Facebook AI 和机器学习部门 FAIR 发布博客宣布,经过多年研究,其已经构建和开源了一个新的聊天机器人 Blender。

白开水不加糖 ·  2020-05-06 08:46:53
一部手机,万物皆可复制粘贴,这位兼职写代码的设计师将AR玩出了新高度

看到什么就复制什么,这是魔法还是孙悟空的神通?都不是。这是 AR 的魔力。

Synced ·  2020-05-04 11:40:03
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载