侵权投诉

三种LM任务形式:单向LM,双向LM,序列到序列LM

深度学习自然语言处理 ? 2021-01-03 09:25 ? 次阅读

今天分享一个论文UniLM[1],核心点是掌握三种LM任务形式:单向LM,双向LM,序列到序列LM;

1. 生成任务

NLP任务大致可以分为NLU和NLG两种;Bert在NLU任务上效果很好,但是天生不适合处理生成任务。

原因在于Bert的预训练过程是使用的MLM,和生成任务的目标并不一致。

生成任务目标是每次蹦出来一个词,只能看到当前位置之前的词汇。

而Bert采用的是双向的语言模型,除了mask的单词,两个方向的词汇都可以被看到。

所以对Bert的一个改进思路就是让它在具有NLU能力的时候,同时兼备NLG能力。

2. 三种LM任务

UniLM做的就是这样一个事情。

具体的实现方式是设计了一系列的完形填空任务,这些完形填空任务的不同之处在于对上下文的定义。

从左到右的LM:使用mask单词的左侧单词来预测被遮掩的单词

从右到左的LM:和上面第一个相比就是方向的变化,使用mask单词的右侧单词来预测遮掩的单词

双向LM:就是当前mask的左右词汇都可以看到

sequence-to-sequence LM:这个就是UniLM能够具有生成能力的关键。我们的输入是source句子和target句子,mask单词在target上,那么当前mask的上下文就是source句子的所有单词和target句子中mask单词左侧的词汇可以被看到

我们把从左到右LM和从右到左LM我们归为一种任务叫单向LM;

有个点需要注意,三个任务是一起优化的,具体来讲是这样做的:

在训练的时候,1/3的时候使用双向LM,1/3的时候使用序列到序列 LM,1/6的时候使用从左到右的LM,1/6的时间使用从右到做的LM。

我们是使用不同的Mask矩阵来对应不同任务输入数据形式。

文中使用的是这样一张图来展示:

f1836372-4690-11eb-8b86-12bb97331649.jpg

UniLM不同mask

3. 其他细枝末节

Gelu 激励函数

24层TRM,最大长度512,1024Hidden Size,16Heads,340M参数量

初始化使用Bert Large

15%被mask,其中80%真正替换mask,10%随机替换,10%不动。替换的时候,80% 的时候替换单个token,20%的时候替换bigram 或者 trigram

第四个步骤类似中文实体词的mask,也算是一点改进。

有个细节点需要注意的是,作者强调,不同的segment embedding用来区分不同LM任务。

Bert的时候,区分上下句子,我们使用0和1,在这里,我们使用这个segment embedding用来区分任务:

比如说,双向对应0和1;单向left-right对应2;单向right-left对应3;序列对应4和5;

4. 总结

掌握以下几个细节点就可以:

联合训练三种任务:单向LM,双向LM,序列LM

使用不同的attention矩阵控制三种任务形式的参与

segment embedding可以区分不同的任务形式

mask的时候15% 的有被替换的概率,其中80% 被真正替换。在这80%真正替换的里面有80%单个token被替换,20%的二元或者三元tokens被替换

参考资料

[1]

Unified Language Model Pre-training for Natural Language Understanding and Generation: https://arxiv.org/pdf/1905.03197.pdf,

责任编辑:xj

原文标题:如何让BERT具有文本生成能力

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

原文标题:如何让BERT具有文本生成能力

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

受控文本生成模型的一般架构及故事生成任务等方面的具体应用
来自:哈工大讯飞联合实验室 本期导读:本文是对受控文本生成任务的一个简单的介绍。首先,本文介绍了受控....
的头像 深度学习自然语言处理 发表于 10-13 09:46 ? 83次 阅读
受控文本生成模型的一般架构及故事生成任务等方面的具体应用
关于PaddleNLP你了解多少
作者:刘健健 来自:ChallengeHub Twitter 的推文有许多特点,首先,与 Faceb....
的头像 深度学习自然语言处理 发表于 10-09 10:25 ? 132次 阅读
由Smartbi牵头制定的商业智能与大数据分析软件团体标准正式发布
近期,由思迈特软件作为牵头单位制定的《商业智能与大数据分析软件通用技术规范》团体标准(以下简称:团标....
发表于 09-29 14:13 ? 122次 阅读
NLP中Prompt的产生和兴起
导读:本文目标是对近期火爆异常的Prompt相关研究作一些追溯和展望,内容主要参考论文《Pre-tr....
的头像 深度学习自然语言处理 发表于 09-12 14:52 ? 502次 阅读
NLP中Prompt的产生和兴起
如何解决NER覆盖和不连续问题
论文:A Span-Based Model for Joint Overlapped and Dis....
的头像 深度学习自然语言处理 发表于 09-08 10:48 ? 352次 阅读
如何解决NER覆盖和不连续问题
NLP中基于联合知识的任务导向型对话系统HyKnow
引言 对话系统(dialogue system)是 NLP 中的的重点研究方向之一。其可以分为任务型....
的头像 深度学习自然语言处理 发表于 09-08 10:43 ? 1631次 阅读
什么是自然语言处理
什么是自然语言处理? 自然语言处理任务有哪些? 自然语言处理的方法是什么? ...
发表于 09-08 06:51 ? 101次 阅读
不用做表的智能BI来了,真正解放用户双手
世界未来的竞争,就是知识产权的竞争。当前,专利已然成为市场竞争的“杀手锏”,是企业核心创新力和实力的....
发表于 09-06 14:58 ? 61次 阅读
不用做表的智能BI来了,真正解放用户双手
NLP实操手册: 基于Transformer的深度学习架构的应用指南(综述) 精选资料分享
点上方人工智能算法与Python大数据获取更多干货在右上方···设为星标★,第一时间获取资源仅做学术分享,如有侵权,联系删除转...
发表于 09-02 07:39 ? 101次 阅读
AI落地盘古开天 跨越AI天堑时:行动代号“盘古大模型”
我采访过一个案例,某工厂的IT负责人想要应用AI,咨询之后却发现开发成本过于高昂,人才、算力、算法等....
的头像 脑极体 发表于 09-01 16:07 ? 1202次 阅读
AI落地盘古开天 跨越AI天堑时:行动代号“盘古大模型”
揭秘Prompt的前世今生
作者|闵映乾机构|中国人民大学信息学院硕士方向 | 自然语言处理 来自 | RUC AI Box 导....
的头像 自然语言处理爱好者 发表于 09-01 10:28 ? 281次 阅读
揭秘Prompt的前世今生
Transformer的复杂度和高效设计及Transformer的应用
来自:AI部落联盟 前言 这次我们总结一下ACL2021中的Transformers,看看2021年....
的头像 自然语言处理爱好者 发表于 09-01 09:27 ? 372次 阅读
Transformer的复杂度和高效设计及Transformer的应用
如何使需求质量流程自动化
在以前的博客中:“如何提高您的需求质量”,我回答了三个关键问题: 您如何判断组织内需求的质量? 您如....
的头像 树根互联VS物联网VS数据应用 发表于 08-26 09:36 ? 351次 阅读
应用于任意预训练模型的prompt learning模型—LM-BFF
最近又出了个比较吸引人眼球的Prompt Learning,甚至该方法还被称之为NLP的“第四范式”....
的头像 自然语言处理爱好者 发表于 08-16 11:21 ? 451次 阅读
应用于任意预训练模型的prompt learning模型—LM-BFF
如何使用TensorFlow进行大规模和分布式的QML模拟
发布人:Google 团队 Cheng Xing 和 Michael Broughton 训练大型机....
的头像 硬件三人行 发表于 08-10 17:31 ? 844次 阅读
关于NLP任务的所有GNN相关技术介绍
传统的NLP任务中,文本序列被认为是一个由tokens组成的袋子,如BoW(词袋模型)和TF-IDF....
的头像 深度学习自然语言处理 发表于 06-23 16:09 ? 432次 阅读
复杂知识库问答任务的典型挑战和解决方案
知识库问答旨在通过知识库回答自然语言问题。近来,大量的研究集中在语义或句法上复杂的问题上。在本文中,....
的头像 深度学习自然语言处理 发表于 06-13 09:49 ? 584次 阅读
入门自然语言处理的基本任务——文本匹配
2020年初,新冠疫情席卷全球。除了“待在家,不乱跑”,我想还能从哪为抗击疫情出点微薄之力呢? 碰巧....
的头像 深度学习自然语言处理 发表于 05-31 11:51 ? 714次 阅读
简述开放域长格式问答系统的进步与挑战
发布人:Google Research 研究员 Aurko Roy 开放域长格式问答 (LFQA) ....
的头像 TensorFlow 发表于 05-31 10:02 ? 493次 阅读
超详细EMNLP2020 因果推断
引言 X,Y之间的因果性被定义为操作X,会使得Y发生改变。在很多领域如药物效果预测、推荐算法有效性,....
的头像 深度学习自然语言处理 发表于 05-19 15:59 ? 1109次 阅读
超详细EMNLP2020 因果推断
知识图谱与BERT相结合助力语言模型
感谢清华大学自然语言处理实验室对预训练语言模型架构的梳理,我们将沿此脉络前行,探索预训练语言模型的前....
的头像 深度学习自然语言处理 发表于 05-19 15:47 ? 659次 阅读
知识图谱与BERT相结合助力语言模型
词汇知识融合可能是NLP任务的永恒话题
得益于BERT的加持,Encoder搭配CRF的结构在中文NER上通常都有不错的表现,而且BERT使....
的头像 深度学习自然语言处理 发表于 05-08 11:22 ? 734次 阅读
词汇知识融合可能是NLP任务的永恒话题
Transformer深度学习架构的应用指南介绍
近年来,自然语言处理(Natural Language Processing, NLP)模型在文本分....
的头像 深度学习自然语言处理 发表于 05-06 11:32 ? 1193次 阅读
Transformer深度学习架构的应用指南介绍
深兰在自然语言处理领域欧洲顶会上取得好成绩
2021年4月19-23日,EACL2021因疫情影响于线上正式召开,这是计算语言学和自然语言处理领....
的头像 电子发烧友网工程师 发表于 04-23 11:28 ? 522次 阅读
深兰在自然语言处理领域欧洲顶会上取得好成绩
一文让你了解知识图谱多跳问答
一、简介 1. 什么是问答? 问答 (Question Answering) 是自然语言处理 (Na....
的头像 深度学习自然语言处理 发表于 04-19 09:24 ? 1091次 阅读
一文让你了解知识图谱多跳问答
你们知道国内较强的NLP高校实验室有哪些吗?
说一下我了解的学校和实验室!排名不分先后,名单不全,欢迎补充~ 清华大学:孙茂松老师、刘知远 @刘知....
的头像 深度学习自然语言处理 发表于 04-19 09:19 ? 1419次 阅读
知识图谱是NLP的未来吗?
我的看法:知识图谱不是NLP的未来,因为知识图谱是另外一种与NLP有很多交集的技术。在目前所有已知的....
的头像 深度学习自然语言处理 发表于 04-15 14:36 ? 607次 阅读
知识图谱是NLP的未来吗?
NLP技术对BI而言有那么重要吗?
数字经济时代,数据成为提高生产力、发展生产力的关键要素,蕴含着巨大的使用价值与潜能。因此,对当今企业....
的头像 Les 发表于 04-14 11:04 ? 690次 阅读
基于自然语言生成多表SQL语句模板填充的方法
自然语言生成SαL查询不仅是构建智能数据库查询系统的一个重要鉏成部分,亦是新型供电轨道交通系统混合时....
发表于 04-09 16:32 ? 110次 阅读
基于自然语言生成多表SQL语句模板填充的方法
就目前来说适合人工智领域有哪些?
根据调研机构IDC公司最近发布的一份《全球人工智能支出指南》,预计全球人工智能预算将在未来四年翻一番....
的头像 电子发烧友网工程师 发表于 04-08 18:02 ? 1232次 阅读
两个NLP模型的预测分析
图数据的天然优势是为学习算法提供了丰富的结构化信息,节点之间邻接关系的设计成为了重要的先验信息和交互....
的头像 深度学习自然语言处理 发表于 04-04 17:11 ? 473次 阅读
两个NLP模型的预测分析
让长短期记忆人工神经网络重返巅峰
1.开篇 去年年底,各大榜单上风起云涌,各路英雄在榜单上为了分数能多个0.01而不停的躁动,迫不及待....
的头像 深度学习自然语言处理 发表于 04-04 17:08 ? 432次 阅读
让长短期记忆人工神经网络重返巅峰
自然语言处理BERT中CLS的效果如何?
要说自然语言处理在18年最夺目闪耀的是什么事情,那当属 BERT 刷新各个任务的记录了,至今已经过去....
的头像 深度学习自然语言处理 发表于 04-04 17:01 ? 1910次 阅读
自然语言处理BERT中CLS的效果如何?
当云计算飞向深空 全面的太空及卫星互联还需等风来
我们多次说起过,当下的“上云”浪潮,源自无数来自于扎实产业土地的真实需求:工厂需要AI,机器人需要算....
的头像 脑极体 发表于 04-03 20:33 ? 9429次 阅读
当云计算飞向深空 全面的太空及卫星互联还需等风来
口语语言理解在任务型对话系统中的探讨
1.1 研究背景与任务定义 口语语言理解在任务型对话系统中扮演了一个非常重要的角色,其目的是识别出用....
的头像 深度学习自然语言处理 发表于 03-31 17:48 ? 922次 阅读
口语语言理解在任务型对话系统中的探讨
Eleuther AI:已经开源了复现版GPT-3的模型参数
GPT3终于开源!不过,不是官方开的(别打我 Eleuther AI推出的名为GPT-Neo的开源项....
的头像 深度学习自然语言处理 发表于 03-31 17:46 ? 1099次 阅读
关于文本匹配的破城长矛
搜索也好,检索式对话也好,文本是一个很难绕开的话题,虽然语义是一个重要因素,用语义相似度直接梭,但是....
的头像 深度学习自然语言处理 发表于 03-31 17:33 ? 897次 阅读
2021年机器深度学习还有哪些坑比较好挖?
从做框架的角度看到几个方向,供参考: 1、AI与科学计算结合 AI技术,特别是深度学习/强化学习/图....
的头像 中科院长春光机所 发表于 03-30 17:54 ? 1468次 阅读
2021年机器深度学习还有哪些坑比较好挖?
基于人工智能的自监督学习详解
自监督学习让 AI 系统能够从很少的数据中学习知识,这样才能识别和理解世界上更微妙、更不常见的表示形....
的头像 智能感知与物联网技术研究所 发表于 03-30 17:09 ? 1746次 阅读
基于人工智能的自监督学习详解
关于三篇论文中自然语言研究进展与发展方向详解
自然语言理解(Natural Language Understanding,NLU)是希望机器像人一....
的头像 深度学习自然语言处理 发表于 03-30 16:11 ? 994次 阅读
关于三篇论文中自然语言研究进展与发展方向详解
21个经典深度学习句间关系模型
鸽了很久的NLP入门系列终于在我的努力下又更新了。 上次聊了分类任务的模型与技巧,今天我们就来聊聊句....
的头像 深度学习自然语言处理 发表于 03-29 16:52 ? 1036次 阅读
21个经典深度学习句间关系模型
牢牢把握深度学习助力产业智能化升级的技术红利
作为中国AI的“头雁”,百度始终都在基于自身优势,在AI核心技术积累、前沿技术探索方面持续深耕。同时....
发表于 03-16 14:27 ? 1122次 阅读
如何让Bert模型在下游任务中提高性能?
随着Transformer 在NLP中的表现,Bert已经成为主流模型,然而大家在下游任务中使用时,....
的头像 深度学习自然语言处理 发表于 03-12 18:19 ? 1389次 阅读
如何让Bert模型在下游任务中提高性能?
识别文本蕴涵任务的小样本学习
识别文本蕴涵的任务,也称自然语言推理,是指确定一段文本(前提)是否可被另一段文本(假设)所暗示或否认....
的头像 TensorFlow 发表于 03-10 18:06 ? 871次 阅读
识别文本蕴涵任务的小样本学习
如何通过蒸馏来使小模型具有更好的性能
现在的任务是给定一个词(比如:苹果),然后判断词对应的类别(电视/手机/水果/汽车),假如现在我们有....
的头像 深度学习自然语言处理 发表于 03-05 16:05 ? 712次 阅读
如何通过蒸馏来使小模型具有更好的性能
如何在NLP领域实施对抗攻击
当视觉领域中的对抗攻击研究很难再有重大突破的时候(坑已满,请换坑),研究人员便把目光转移到了NLP领....
的头像 深度学习自然语言处理 发表于 03-05 16:01 ? 894次 阅读
如何在NLP领域实施对抗攻击
通用用户界面设计原则
信息的呈现可以是文本的,也可以是图形的。好的设计使信息的表示形式与信息本身相分离。MVC(模型-视图....
的头像 汽车电子硬件设计 发表于 03-04 17:19 ? 676次 阅读
利用ImageNet训练了一个能降噪、超分和去雨的图像预训练模型
在上篇文章介绍过了,因为Transformer本身是用于NLP领域的,输入应该是一个序列,因此这篇的....
的头像 深度学习实战 发表于 03-03 16:05 ? 1265次 阅读
利用ImageNet训练了一个能降噪、超分和去雨的图像预训练模型
如何构建一个双编码器神经网络模型
这个例子需要TensorFlow 2.4或更高版本。此外,BERT模型需要TensorFlow Hu....
的头像 LiveVideoStack 发表于 03-02 15:59 ? 764次 阅读
神经网络中词向量是怎么表示的?
上一篇我们讲到了在神经网络出现以前的词向量表示方法:基于同义词词典的方法和基于计数统计的方法。想要回....
的头像 深度学习自然语言处理 发表于 02-05 09:22 ? 1109次 阅读
神经网络中词向量是怎么表示的?
一种处理多标签文本分类的新颖推理机制
研究动机 多标签文本分类(multi-label text classification, 简称ML....
的头像 深度学习自然语言处理 发表于 02-05 09:21 ? 990次 阅读
一种处理多标签文本分类的新颖推理机制
tf的优点有哪些
tf的优点介绍
发表于 06-03 09:47 ? 543次 阅读
NLP的tfidf作词向量
NLP之tfidf作词向量
发表于 06-01 17:28 ? 481次 阅读
全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较
放弃幻想,全面拥抱Transformer:NLP三大特征抽取器(CNNRNNTF)比较...
发表于 05-29 10:43 ? 554次 阅读
NLP的面试题目
NLP面试题目6-10
发表于 05-21 15:02 ? 339次 阅读
MaxMatch文本匹配算法的实现
NLP  文本匹配算法
发表于 03-13 11:12 ? 678次 阅读
基于softmax模型的多分类逻辑回归
深度学习核心技术实战 NLP-word2vec
发表于 06-12 15:12 ? 575次 阅读
HanLP 自然语言处理 for nodejs
·支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人...
发表于 04-24 10:05 ? 748次 阅读
浅析word2vec的安装和使用方法
NLP之word2vec:word2vec简介、安装、使用方法之详细攻略...
发表于 12-25 10:32 ? 3161次 阅读
综合在线 日韩欧美 中文字幕_综合在线 日韩欧美 中文字幕精品视频 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>