文档分类太繁杂?MIT 和 IBM 联手,解决了这一难题

作者: Adios 2019-12-23 08:50:13

 【 图片来源:venturebeat 所有者:venturebeat 】

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

即使是最好的文本解析推荐算法也会受到一定大小的数据集的阻碍。为了提供比大多数现有方法更快,更好的分类性能,MIT-IBM Watson AI 实验室和 MIT 的 Geometric Data Processing Group 的团队设计了一种结合了嵌入式和最优传输等流行人工智能工具的技术。

他们认为,这个方法只需要考虑一个人的历史偏好,或一群人的偏好,就可以覆盖数百万的可能性。

这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中表示,互联网上有大量文字,任何有助于贯穿这些材料的东西都是非常有用的。

为此, Justin Solomon 和他的同事使用算法将文本集合归纳成基于集合中常用单词的主题。紧接着,它将每个文本分成 5 到 15 个最重要的主题,并通过排名显示每个主题对整个文本的重要性。

另外,嵌入(雷锋网按,在这种情况下为单词的数据表示形式)有助于使单词之间的相似性显而易见,而最佳传输则有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。同时,嵌入能够让“利用两次最优传输”成为可能:首先是比较集合中的主题,然后度量公共主题重叠的程度。

研究人员称,这种方法在扫描大量书籍和文件时尤其有效。在 Gutenberg Project 数据集中的 1720 个标题的评估工作中,该算法成功地在一秒钟内比较完所有标题,比第二名快了近 800 倍。

此外,与其他方法相比,该算法在分类文档方面做得更好。例如,按作者对古腾堡数据集中的书籍进行分组;或是按部门对亚马逊上的产品评论进行分组。同时,该算法还提供了主题列表,能够向用户解释推荐给定文档的原因,便于用户理解。

不过,研究人员并未满足于现有的技术水平。他们还将继续开发一种端到端的培训技术,这种技术可以联合优化嵌入、主题模型和最优传输,而不是像当前实现那样单独优化。在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用。

在论文总结工作报告中, Justin Solomon 表示,(我们的算法)捕捉差异的方式似乎与让一个人比较两个文档的方式相同:先将每个文档分解成容易理解的概念,然后比较概念······

对于更近一步的想法,Justin Solomon 说道:

让单词嵌入提供全局语义语言信息,主题模型提供特定于语料库的主题和主题分布。从经验上看,这些因素结合在一起,可以在各种基于度量的任务中提供优异的性能。

AI 数据 人工智能
上一篇:微软免费AI作文打分软件升级:雅思考研四六级都能用 下一篇:牛津中国小哥提出“3D-BoNet”,比3D点云实例分割算法快10倍!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载