从想法到实干,2018年13项NLP绝美新研究
这篇论文提出了广受好评的 ELMo,除了令人印象深刻的实验结果外,最吸引人的就是论文的分析部分,它剔除了各种因素的影响,并对表征所捕获的信息进行了分析。在下图左中语义消歧(WSD)执行得很好,它们都表明语言模型提供的语义消歧和词性标注(POS)表现都接近当前最优水平。 第一层和第二层双向语言模型的语义消歧(左)和词性标注(右)与基线模型对比的结果。 3. 常识推理数据集将常识融入模型是 NLP 最重要的研究方向之一。然而,创建好的数据集并非易事,即使是流行的数据集也存在很大的偏好问题。今年已经出现了一些试图教机器学习常识的数据集,如华盛顿大学的 Event2Mind 和 SWAG。但 SWAG 很快就被BERT打败了。有代表性的研究成果包括:
这是首个包含每个答案的基本原理(解释)的可视化 QA 数据集。而且,回答问题需要复杂的推理。创作者竭尽全力解决可能出现的偏好,确保每个答案作为正确答案的先验概率为 25%(每个答案在整个数据集中出现 4 次,其中 3 次作为错误答案,1 次作为正确答案);这需要利用可以计算相关性和相似性的模型来解决约束优化问题。 给定一幅图像、一系列地点和一个问题,模型必须回答该问题,并提供合理的推理解释答案为什么是正确的(Zellers et al., 2018) 4.元学习元学习 是目前机器学习领域一个令人振奋的研究趋势,它解决的是学习如何学习的问题。元学习在少样本学习、强化学习和机器人学方面有很多应用,其中最突出的应用是与模型无关的元学习(model-agnostic meta-learning,MAML),但在 NLP 中的成功应用却非常少。元学习在训练样本有限时非常有用。有代表性的研究成果包括:
作者利用 MAML 来学习一个好的用于翻译的初始化,将每个语言对看成一个独立的元任务。资源较少的语言或许是元学习在 NLP 领域最有应用价值的场景。将多语言迁移学习(如多语言BERT)、无监督学习和元学习相结合是一个有前景的研究方向。 迁移学习、多原因迁移学习和元学习之间的差异。实线:初始化的学习。虚线:微调路径。
作者提出,用于优化神经网络模型的元学习器的行为和循环神经网络类似,它会提取一系列模型训练过程中的参数和梯度作为输入序列,并根据这个输入序列计算得到一个输出序列(更新后的模型参数序列)。他们在论文中详细描述了该相似性,并研究了将元学习器用于神经网络语言模型中,以实现中期记忆:经过学习,元学习器能够在标准 RNN(如 LSTM)的权重中,编码中期记忆(除了短期记忆在 LSTM 隐藏状态中的传统编码方式以外)。 他们的元学习语言模型由 3 层记忆层级组成,自下而上分别是:标准 LSTM、用于更新 LSTM权重以存储中期记忆的元学习器,以及一个长期静态记忆。他们发现,元学习语言模型可以通过训练来编码最近输入的记忆,就像一篇维基百科文章的开始部分对预测文章的结尾部分非常有帮助一样。 5. 鲁棒无监督方法今年,我们观察到,跨语言嵌入方法在语言相似性低时会失效。这是迁移学习中的常见现象,源语言和目标语言设置(例如,域适应中的域、持续学习和多任务学习中的任务)之间存在差异,导致模型退化或失效。因此,使模型对这些变化更加鲁棒非常重要。有代表性的研究成果包括:
这篇论文根据其理解构建了一个更好的初始化,而没有使用元学习作为初始化。特别地,他们将两种语言中拥有相似词分布的单词配对。这是从分析中利用领域知识和 insight 以使模型更加鲁棒的绝佳范例。 三个单词的相似性分布:与不相关的单词(「two」和「cane」(狗))相比,等效翻译(「two」和「due」)有更加相似的词分布。(Artexte et al. 2018 http://www.aclweb.org/anthology/P18-1073) 6. 理解表征(编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |