教AI开发软件:IBM开源数据集Project CodeNet,含有1400万个代码示例

作者: 小云 2021-05-14 13:05:20

 

蓝色巨人希望为基于AI的编程工具创建含有丰富训练资源的ImageNet。

IBM已组建了一个庞大的源代码库,用于教机器学习程序学习编程。

这个数据集名为Project CodeNet,含有1400万个代码示例,共5亿行代码,涉及的编程语言超过55种:从Java、C和Go到COBOL、Pascal和FORTRAN,不一而足。老实讲,其中四分之三以上的代码是用C ++和Python编写的。

这些源代码不是从生产级应用程序或开发中的应用程序获取的,而是从参赛者向在日本组办的两大编程竞赛:Aizu和AtCoder提交的软件作品收集而来的。在这些竞赛中,参赛者需要编写必要的代码,以便将一组特定的输入转换成一组所需的输出。大约一半的代码示例按预期的那样运行,其余被标记为是错误的解决方案、非构建(non-building)或有缺陷。

比如说,理想情况下,您将训练一个AI工具,可以识别出好的程序、拒绝坏的程序。700万个代码示例包括了输入和所需的输出。

IBM希望CodeNet仿效ImageNet(用于训练计算机视觉应用程序的图片和标签数据库),并成为教软件明白软件开发蓝图的领先数据集——即代码实际上外观如何、与其他代码相比如何。IBM希望CodeNet可以用于训练诸如此类的开发工具:可以搜索应用程序和库来源以查找所需的例程,可以将一种语言转换成另一种语言,或者识别错误或正确的实现机制。

IBM在本周召开Think线上大会时宣布了该项目,称:“IBM相信CodeNet项目将充当颇有价值的基准数据集,用于源码到源码的转换,并将遗留代码库转换成现代代码语言,从而帮助公司企业加快AI的应用。”

IBM和MIT-IBM Watson AI实验室团队联合开发了该数据集,撰写了一篇论文介绍相关工作,并将所有整理后的材料放在了该项目在GitHub的页面(https://github.com/IBM/Project_CodeNet)上。

“该数据集不仅在规模上很独特,在它有助于基准测试的编程任务的多样性上也很独特:从代码相似性和分类以获得代码推荐算法方面的进步,到一大批编程语言之间的代码转换,再到代码性能改进技术方面的进步,”研究人员在报告中这样总结道。

AI 数据 人工智能
上一篇:借助AI,IOT,VR,AR,区块链和云计算重塑建筑行业 下一篇:机器人来帮“盲” 视觉障碍者重新看世界
评论
取消
暂无评论,快去成为第一个评论的人吧

更多资讯推荐

面部识别的利与弊:是福还是祸?

虽然现代技术使面部识别更加精确和安全,但与面部识别隐私问题和监控有关的担忧也在增加。因此,让我们在这篇文章中探讨一下这该技术的利与弊。

Naveen Joshi ·  2021-06-01 16:36:22
人工智能和5G如何结合以实现物联网收入最大化

网络系统通过信令和使用软件以及分析来检测和分类设备非常棘手,并且对有限且日益紧张的网络资源提出了巨大的需求。然而,解决这些问题有一个主要解决方案:采用人工智能、自动化和5G技术。

Jordi Castellvi ·  2021-06-01 13:49:15
MIT团队最新研究,仅靠LiDAR和2D地图实现端到端自动驾驶

最近, MIT 计算机科学与人工智能实验室(CSAIL)团队成功展示了一种基于机器学习的自动驾驶系统,该端到端框架仅使用 LiDAR获取的原始 3D 点云数据和类似于手机上的低分辨率 GPS 地图就能进行自主导航,并且大大提升了鲁棒性。

文龙 ·  2021-06-01 12:47:51
自然语言处理(NLP)的历史及其发展方向

自然语言处理的历史是一个充满曲折的故事。它从徒劳的研究开始,经过多年卓有成效的工作,最后结束于一个我们仍在试图找出该领域极限的时代。今天,让我们来一起探索这一AI科学分支的发展。

佚名 ·  2021-06-01 12:46:26
是福还是祸?人脸识别技术的利与弊

面部识别并不是一项全新的技术,但人工智能和机器学习不断使面部识别变得更好。苹果通过引入具有 3D 扫描功能的面部生物识别系统和 iPhone 的 Face ID,提高了面部识别的标准。

Naveen Joshi ·  2021-06-01 11:11:01
人工智能能否使机器具有流体智力?

麻省理工学院和奥地利研究人员为灵活的人工智能创造了“液体”机器学习。

千家网 ·  2021-06-01 10:38:55
高真实感、全局一致、外观精细,面向模糊目标的NeRF方案出炉

自 NeRF 被提出后,有多项研究对其加以改进。在本篇论文中,上海科技大学的研究者提出了首个将显式不透明监督和卷积机制结合到神经辐射场框架中以实现高质量外观的方案。

Haimin Luo等 ·  2021-06-01 09:57:39
大脑模拟NLP,高德纳奖得主:神经元集合演算用于句子解析

一个简单的大脑模型为人工智能研究提供了新的方向。世界顶尖计算机科学理论学家、哥德尔奖和高德纳奖获得者、哥伦比亚大学计算机科学教授 Christos Papadimitriou 关于「大脑中单词表征」的演讲。

Ben Dickson ·  2021-06-01 09:39:24
Copyright©2005-2021 51CTO.COM 版权所有 未经许可 请勿转载