从想法到实干,2018年13项NLP绝美新研究
该论文有很多喜人的地方:在句法与语义任务上同时训练一个 Transformer;训练时加入高质量解析的能力以及领域外评估。通过训练一个注意力 head 来关注每个 token 的 syntactic parents,这篇论文也正则化了 Transformer 的多 head 注意力,使其对句法更为敏感。我们未来可能会看到更多 Transformer 注意 head 示例,做为专注输入特定方面的辅助词预测器。 过去十年的 PropBank 语义角色标记。在领域外数据上,Linguistically-Informed Self-Attention (LISA) 方法与其他方法的对比。 不论是采用 Mask 的语言模型还是通过回译的无监督机器翻译,这 10 个想法都非常优美。但是在实际应用中,我们更希望直接使用已有的工具构建高效应用,只有这样,这些想法才能转化为真正有意思的东西。 11. 上百种预训练中文词向量做自然语言处理,词嵌入基本是绕不开的步骤,各种任务都需要归结到词层面才能继续计算。因此对于国内自然语言处理的研究者而言,中文词向量语料库是需求很大的资源。为此,北京师范大学等机构的研究者开源了「中文词向量语料库」,该库包含经过数十种用各领域语料(百度百科、维基百科、人民日报 1947-2017、知乎、微博、文学、金融、古汉语等)训练的词向量,涵盖各领域,且包含多种训练设置。 中文词向量项目地址: https://github.com/Embedding/Chinese-Word-Vectors 该项目提供使用不同表征(稀疏和密集)、上下文特征(单词、n-gram、字符等)以及语料库训练的中文词向量(嵌入)。我们可以轻松获得具有不同属性的预训练向量,并将它们用于各类下游任务。 12.BERT开源实现尽管如前所述BERT的效果惊人,但预训练所需要的计算力同样惊人,一般的开发者基本就不要想着能复现了。BERT的作者在 Reddit 上也表示预训练的计算量非常大,Jacob 说:「OpenAI的 Transformer 有 12 层、768 个隐藏单元,他们使用 8 块 P100 在 8 亿词量的数据集上训练 40 个 Epoch 需要一个月,而BERT-Large 模型有 24 层、2014 个隐藏单元,它们在有 33 亿词量的数据集上需要训练 40 个 Epoch,因此在 8 块 P100 上可能需要 1 年?16 Cloud TPU 已经是非常大的计算力了。」 但是,谷歌团队开源了BERT的预训练模型,我们可以将它们用于不同的 NLP 任务。这节省了我们大量计算力,同时还能提升已有模型的效果,因此做 NLP 任务前,你可以先用预训练的BERT试试水? BERT实现地址: https://github.com/google-research/bert 其实目前已经有很多开发者将BERT预训练模型应用到它们自己的项目中,包括抽取句向量、句子相似性判断或情感分析等。 13. Facebook 开源 NLP 建模框架 PyText,从论文到产品部署只需数天为了降低人们创建、部署自然语言处理系统的难度,Facebook 开源了一个建模框架—— PyText ,它模糊了实验与大规模部署之间的界限。PyTex 是 Facebook 正在使用的主要自然语言处理(NLP)建模框架,每天为 Facebook 及其应用程序系列的用户提供超过 10 亿次 AI 任务处理。这一框架基于 PyTorch,可以 1)简化工作流程,加快实验进度;2)提供一大批预构建的模型架构和用于文本处理和词汇管理的工具,以促进大规模部署;3)提供利用 PyTorch 生态系统的能力,包括由 NLP 社区中的研究人员、工程师预构建的模型和工具。利用该框架,Facebook 在几天内就实现了 NLP 模型从理念到完整实施的整个过程,还部署了依赖多任务学习的复杂模型。 Yann LeCun 对此介绍道,「PyText 是一个工业级的开源 NLP 工具包,可用于在 PyTorch 中开发 NLP 模型,并通过 ONNX 部署。其预训练模型包括文本分类、序列标注等。」 项目地址: https://github.com/facebookresearch/pytext 参考链接: http://ruder.io/10-exciting-ideas-of-2018-in-nlp/ (编辑:PHP编程网 - 黄冈站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |