在 AI 领域开发出创新技术的团队经常等不及要将结果分享给大众,然而最近马斯克(Elon Musk)所创立的非营利研究机构 OpenAI 却反其道而行,因为打造的全新 AI 模型 GPT2 在写作上表现太好,为了避免潜在的滥用,OpenAI 选择暂时不公开发表研究,好花更多时间讨论可能产生的效应。用以产生文本的 AI 系统并不少见,在经过大量文章数据训练之后,AI 系统便能够根据提供的数个单字至整页的文字模板,来预测可能的内容并接续撰写,尽管产生文本的 AI 具有许多潜在用途,但以目前来说,多数 AI 系统在产生的文章质量上仍有一些问题,像是忘记前面段落中所提及的内容,或是在文句中以奇怪的方式分段或结尾。

而在这一点上,GPT2 却几乎没有其他 AI 同伴所具有的相同缺陷,在提供简短范例文字并要求接续撰写后,GPT2 不仅能写出风格和主题相同的合理段落,在一些写法上甚至难以看出不是由人所执笔撰写。单纯这样形容可能难以想象,我们不妨来看英国卫报中提到 GPT2 接续写作的两个例子。在提供英国知名作家乔治奥威尔(George Orwell)的《一九八四》的开场句子「四月里一个晴朗带有寒意的日子,时钟敲了十三下,」后,GPT2 从中辨识出模糊的未来主义色彩和小说写作风格,并接续写下以下句子:
“I was in my car on my way to a new job in Seattle. I put the gas in, put the key in, and then I let it run. I just imagined what the day would be like. A hundred years from now. In 2045, I was a teacher in some school in a poor part of rural China. I started with Chinese history and history of science.”
「我坐在车里,前往西雅图一份新工作的路上。在为车子加满油后,我插上钥匙并发动引擎运转,开始想象那一天会是什么样子。100 年后的今天,2045 年,我在中国农村贫困地区某间学校教书,我会从中国历史和科学史开始上课。」而若是提供卫报英国脱欧专题的前几段内容,GPT2 便会产出合理的报纸散文,就像相关文章一样,充满着有对工党党魁 Jeremy Corbyn 看法的引用以及英国总理发言人的回答,一些段落甚至难以看出是由机器写出。

“Asked to clarify the reports, a spokesman for May said: ‘The PM has made it absolutely clear her intention is to leave the EU as quickly as is possible and that will be under her negotiating mandate as confirmed in the Queen’s speech last week.’”
「英国首相梅伊的一位发言人要求澄清这些报导,她表示,『首相已经明确表态她期望能尽快脱离欧盟,而这也将是她的谈判授权,就像上周女王在演讲中提及的那样。』」

OpenAI 研究主管 Dario Amodei指出,从研究的角度来看,GPT2 在两种面向上具有开创性。其一是它的大小,其二则是理解内容的程度。在运用包含约 1,000 万篇 Reddit 文章的数据集(所有文章的总大小约 40GB)进行培训之下,GPT2 比过去最先进的模型都要大上 12 倍,理解的内容也更加广泛。而就像人一样,培训的数据数量直接影响了 GPT2 的「写作能力」,透过解构输入的文字内容,GPT2 可以执行包括翻译和摘要在内的文字任务,同时在简单的阅读理解测试上,GPT2 也能比专为这项任务打造的 AI 同样甚至更好。为了解释这意味着什么,OpenAI 制作了一个版本的 GPT2,并进行了一些适度的调整来产生无限制的正面或负面产品评论。同样的,垃圾邮件和假新闻是另外两个明显的潜在恶意用途,由于 GPT2 是使用网络进行训练,因此不难鼓励它产生偏执或具有阴谋论的内容。这种突出的表现也让 OpenAI 决定暂时关闭 GPT2,来评估恶意用户可能会用它做什么。慈善机构负责人 Jack Clark 表示,团队计划进行更多的实验,找出恶意用户能做什么又不能做什么,「如果你无法预测模型的所有能力,你必须刺激它来看看它的能耐,外面有许多人比我们更懂得思考如何用它来做坏事。」内文来源至:http://www.cafes.org.tw/info.asp