Yoshua Bengio

1.你认为目前NLP面临最大的三个问题是什么?

基础语言学习,即共同学习世界模型以及如何用自然语言处理中引用模型;
在深度学习框架内融合语言理解和推理;
常识的理解,只有解决了上述两个问题,才能解决常识问题。

2.哪些因素让这个领域走向了错误的方向?

是贪婪。

我们总是在意短期回报,我们总是想办法利用一切我们可支配的数据训练模型,然后希望模型能够智能的理解和生成语言。但是,如果我们不能建立世界模型,不能深层次的理解世界是如何运作的,我们永远不会找到智能语言的秘密,即使我们设计的神经网络模型有多么精巧。因此,我们必须要紧牙关,致力于用NLP解决AI,而不是孤立的理解自然语言处理。

4.你对研究生开始他们的NLP项目有什么建议?

广泛阅读,不要局限于阅读NLP论文。阅读大量机器学习,深度学习,强化学习论文。博士学位是一个人一生中实现追求目标的大好时机,即使是朝着这个目标迈出一小步也是值得珍惜的。

Kevin Gimpel

1.你认为NLP目前最大的三个问题是什么?

最大的问题与自然语言的理解有关,即使在生成任务中,所有的挑战都可以这么理解:计算机不理解文字对人的作用是什么。

设计的模型应该像人类那样阅读和理解文本,通过形成文本世界的表示法,包括对象、设置、目标愿望、信念等要素。当然,还要有人类理解文字背后所需的其他因素。

在设计出理想模型之前,所有的进步都基于提高模型模式匹配的能力。模式匹配对于开发和改善产品是有效的。我不认为仅仅需要模式匹配就能产生一台“理性”机器。

  1. 过去十年中,在NLP方面,最有影响力的一部作品是什么?

《自然语言处理几乎从零开始(Natural Language Processing (Almost) from Scratch)》,这一论文由 Ronan Collobert、Jason Weston、Leon Bottou、Michael Karlen、Koray Kavukcuoglu和 Pavel Kuksa等人合力完成,并在2011年发表。简单来说,它以Colobert和Weston在2008年的一篇论文为基础,但对其进行了扩展与发挥。该论文介绍了当前NLP设计常见的几种方法,例如,使用神经网络进行NLP多任务学习、使用未标记数据进行预训练词嵌入等等。

  1. 是什么原因导致我们踏进了自然语言处理的“陷阱”

我认为是当前NLP传统的处理方法,例如采用的传统的监督学习,其中有一条假设是,测试数据与训练数据服从相同的概率分布,这与现实实际完全不符合。至少,真实的测试数据与训练数据在时间上的分布是不同的,有时甚至是几十年的差距!所以,我们应该致力于域外学习,时间迁移等。

传统的无监督学习和传统的监督学习都是不现实的,所以很高兴看到NLP研究人员最近关注混合使用,无论给它们起什么名字,半监督也好,弱监督也可,它们都是一种混合的设置。

  1. 你对NLP的研究生现在开始他们的项目有什么建议?

不要害怕创新,要勇于尝试新鲜事物。通常来说,风险越大,收益也越大。如果失败了,或者说不符合预期,你也可能在过程中学到许多非常有趣的事情,非常有可能为你发表论文积累材料