文档分类太繁杂?MIT 和 IBM 联手,解决了这一难题

作者: Adios 2019-12-23 08:50:13

 【 图片来源:venturebeat 所有者:venturebeat 】

本文转自雷锋网,如需转载请至雷锋网官网申请授权。

即使是最好的文本解析推荐算法也会受到一定大小的数据集的阻碍。为了提供比大多数现有方法更快,更好的分类性能,MIT-IBM Watson AI 实验室和 MIT 的 Geometric Data Processing Group 的团队设计了一种结合了嵌入式和最优传输等流行人工智能工具的技术。

他们认为,这个方法只需要考虑一个人的历史偏好,或一群人的偏好,就可以覆盖数百万的可能性。

这项研究的主要作者、麻省理工学院的助理教授 Justin Solomon 在一份声明中表示,互联网上有大量文字,任何有助于贯穿这些材料的东西都是非常有用的。

为此, Justin Solomon 和他的同事使用算法将文本集合归纳成基于集合中常用单词的主题。紧接着,它将每个文本分成 5 到 15 个最重要的主题,并通过排名显示每个主题对整个文本的重要性。

另外,嵌入(雷锋网按,在这种情况下为单词的数据表示形式)有助于使单词之间的相似性显而易见,而最佳传输则有助于计算在多个目的地之间移动对象(或数据点)的最有效方式。同时,嵌入能够让“利用两次最优传输”成为可能:首先是比较集合中的主题,然后度量公共主题重叠的程度。

研究人员称,这种方法在扫描大量书籍和文件时尤其有效。在 Gutenberg Project 数据集中的 1720 个标题的评估工作中,该算法成功地在一秒钟内比较完所有标题,比第二名快了近 800 倍。

此外,与其他方法相比,该算法在分类文档方面做得更好。例如,按作者对古腾堡数据集中的书籍进行分组;或是按部门对亚马逊上的产品评论进行分组。同时,该算法还提供了主题列表,能够向用户解释推荐给定文档的原因,便于用户理解。

不过,研究人员并未满足于现有的技术水平。他们还将继续开发一种端到端的培训技术,这种技术可以联合优化嵌入、主题模型和最优传输,而不是像当前实现那样单独优化。在应用方面,他们还希望将他们的方法应用于更大的数据集,并研究图像或三维数据建模的应用。

在论文总结工作报告中, Justin Solomon 表示,(我们的算法)捕捉差异的方式似乎与让一个人比较两个文档的方式相同:先将每个文档分解成容易理解的概念,然后比较概念······

对于更近一步的想法,Justin Solomon 说道:

让单词嵌入提供全局语义语言信息,主题模型提供特定于语料库的主题和主题分布。从经验上看,这些因素结合在一起,可以在各种基于度量的任务中提供优异的性能。

AI 数据 人工智能
上一篇:微软免费AI作文打分软件升级:雅思考研四六级都能用 下一篇:牛津中国小哥提出“3D-BoNet”,比3D点云实例分割算法快10倍!
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

加速算力的迭代优化 AI芯片需破解落地难题

AI芯片怎样支撑多姿多彩的人工智能应用落地?评测标准进展如何?今年的亮点、看点又在哪?科技日报记者采访了相关专家。

唐 芳 ·  21h前
机器学习第一步,这是一篇手把手的随机森林入门实战

到了 2020 年,我们已经能找到很多好玩的机器学习教程。本文则从最流行的随机森林出发,手把手教你构建一个模型,它的完整流程到底是什么样的。

机器之心 ·  22h前
互联网巨头集体封杀,AI换脸能走多远?

多少人还记得去年在微博爆火的视频:有人将《射雕英雄传》中朱茵扮演的“黄蓉”换成了杨幂,换脸后的“黄蓉”毫无痕迹,并且轮廓清晰、表情自然,完全看不出是经过换脸的。

读芯术 ·  1天前
阿里达摩院再造AI抗疫技术:20秒判读CT影像,识别准确率达96%

阿里方面最新消息,达摩院联合阿里云针对新冠肺炎临床诊断研发了一套全新AI诊断技术。

允中 ·  1天前
人工智能如何赋能经济高质量发展

继第一、第二、第三次工业革命之后,人工智能可能引发人类的第四次工业革命,并且其对人类经济社会文化的影响深度远远超过前三次革命。如何看待人工智能对我经济社会发展的影响?如何形成人工智能产业新生态?记者专访了中国科学技术发展战略研究院研究员李修全。

佚名 ·  1天前
欺诈不可怕,机器学习算法分分钟拿下! 精选

根据一项调查,采用基于AI的解决方案的防欺诈专家中有80%认为AI对打击欺诈者有效。但是,仍然存在的问题是弄清楚哪种机器学习算法可以有效地检测未知的欺诈模式。监督学习和无监督学习算法哪一个更有效?

读芯术 ·  2天前
助力抗疫,人工智能和大数据将全面爆发? 精选

新型冠状病毒肺炎疫情的爆发和传播,牵动着全国人民的心。社会各界纷纷投入到这场没有硝烟的疫情阻击战中。

中国经营报 ·  3天前
人工智能和区块链如何在2020年彻底改变移动应用产业?

2020年也不例外。移动应用行业将以明显的方式增长。人们需要了解人工智能行业将发生什么变化,以及企业在新的一年中如何计划使用这些革命性技术。

Pradeep Makhija ·  4天前
Copyright©2005-2020 51CTO.COM 版权所有 未经许可 请勿转载