作者|刘大一恒、齐炜祯、晏宇、宫叶云、段楠、周明
编者按:微软亚洲研究院提出新的预训练模型ProphetNet,提出了一种新的自监督学习目标——同时预测多个未来字符,在序列到序列的多个自然语言生成任务都取得了优异性能。
大规模预训练语言模型在自然语言理解和自然语言生成中都取得了突破性成果。这些模型通常使用特殊的自监督学习目标先在大规模无标记语料中进行预训练,然后在下游任务上微调。
传统自回归语言模型通过估计文本语料概率分布被广泛用于文本建模,序列到序列的建模,以及预训练语言模型中。这类模型通常使用teacher-forcing的方法训练,即每一时刻通过给定之前时刻的所有字符以预测下一个时刻的字符。然而,这种方式可能会让模型偏向于依赖最近的字符,而非通过捕捉长依赖的信息去预测下一个字符。有如以下原因:局部的关系,如两元字符的组合,往往比长依赖更强烈;Teacher-forcing每一时刻只考虑对下一个字符的预测,并未显式地让模型学习对其他未来字符的建模和规划。最终可能导致模型对局部字符组合的学习过拟合,而对全局的一致性和长依赖欠拟合。尤其是当模型通过贪心解码的方式生成序列时,序列往往倾向于维持局部的一致性而忽略有意义的全局结构。
WazirX的联合创始人Nischal Shetty否认离职传言:2月17日消息,据The Economic Times报道,印度加密货币交易所WazirX的联合创始人Nischal Shetty否认离开该公司。
据当地媒体Moneycontrol报道,Shetty和另一位联合创始人Siddharth Menon将退出WazirX,专注于其他风险投资。
报道援引知情人士的话称,此次领导层重组可能是由于币安希望引入自己的领导团队,从而使WarizX能够经受住来自印度其他主要交易所日益激烈的竞争。币安在2019年收购了WazirX。
不过,根据Shetty的说法,他仍将与WazirX的第三位联合创始人、首席技术官Sameer Mhatre一起执掌这家交易所。(U.Today)[2022/2/17 9:58:07]
ProphetNet
针对上述问题,我们提出了一个新的seq2seq预训练模型,我们称之为ProphetNet。该模型带有一个新颖的自监督学习目标函数,即预测未来的N元组。与传统seq2seq的Teacher-forcing每一时刻只预测下一个字符不同,ProphetNet每一时刻将学习去同时预测未来的N个字符。如图1所示:
Theta主网3.0已正式上线:金色财经报道,据官方消息,Theta主网3.0已成功上线。在区块高度10,968,061时,链分叉到MN3.0代码并启用了TFuel抵押。现在已经质押了超过4亿枚TFuel,并且已经分配了第一批TFuel质押奖励。[2021/7/1 0:18:36]
图1:左边是传统的语言模型,每一时刻预测下一时刻的字符。右边是Bigram形式下的ProphetNet,每一时刻同时预测未来的两个字符。
预测未来N元组这一自监督学习目标在训练过程中显式地鼓励模型在预测下一个字符时考虑未来更远的字符,做到对未来字符的规划,以防止模型对强局部相关过拟合。
ProphetNet基于Transformer的seq2seq架构,其设计有两个目标:1.模型能够以高效的方式在训练过程中完成每时刻同时预测未来的N个字符;2.模型可以灵活地转换为传统的seq2seq架构,以在推理或微调阶段兼容现有的方法和任务。为此,我们受XLNet中Two-streamselfattention的启发,提出了用于模型decoder端的N-streamself-attention机制。图2展示了bigram形式下的N-streamself-attention样例。
Synthetix即将部署新版本修复Mimosa版本相关Bug:刚刚,合成资产发行平台Synthetix官方发推称,从现在起接下来一小时,将启动Regulus版本来部署SIP-94提案,该提案针对昨天刚完成部署的Mimosa版本,对SIP-89实现中的一个bug进行了修补。在这段时间内,用户可能无法与系统进行交互,包括SNX或synth转移交互。[2020/11/13 14:12:01]
除了原始的multi-headself-attention之外,N-streamself-attention包含了额外的N个predictingstreamself-attention,用于分别预测第n个未来时刻的字符所示。每一个predictingstream与mainstream共享参数,我们可以随时关闭predictingstream以让模型转换回传统seq2seq的模式。
图2:(a)为mainstreamself-attention;(b)为1-stpredictingstreamself-attention;(c)为2-ndpredictingstreamself-attention;(d)展示了n-streamself-attention的输入输出及流程。
火币VET、THETA和DOGE永续合约已正式上线:据火币官方消息,火币VET(VeChain)、THETA(Theta)和DOGE(DogeCoin)永续合约已于新加坡时间8月12日16点正式上线。用户现可在平台进行划转、交易等操作。
据悉,火币永续合约在每个新品种上线前,平台均会提前配置一定额度风险准备金,以最大可能保护用户权益。在此三大币种上线前,火币合约已向其永续合约风险准备金余额中分别注入5,556,000个VET、334,000个THETA和28,580,000个DOGE。详情请查看火币合约官网公告。[2020/8/12]
由于难以获取到大量带标记的序列对数据,我们用去噪的自编码任务通过大量无标记文本预训练ProphetNet。去噪的自编码任务旨在输入被噪音函数破坏后的序列,让模型学习去复原原始序列。该任务被广泛应于seq2seq模型的预训练中,如MASS、BART、T5等。本文中使用MASS的预训练方式,通过引入提出的predictingn-stream自监督学习目标函数预训练ProphetNet。我们以bigram形式的ProphetNet为例,整个流程如图3所示:
公告 | 币安将于3月12日8时暂停THETA充提:据币安公告,为支持Theta Network(THETA)的主网升级,币安将于3月12日8时暂停THETA充提。主网升级完成后,充值、提现开放时间将另行公告。[2019/3/6]
图3:二元形式下的Prophet整体框架图
实验结果
我们使用两个规模的语料数据训练ProphetNet。ProphetNet包含12层的encoder和12层的decoder,隐层大小为1024。先在BERT所使用的BookCorpus+Wikipedia的数据上预训练模型,将模型在Textsummarization和Questiongeneration两个NLG任务上的三个数据集微调并评估模型性能。与使用同等规模数据的预训练模型相比,ProphetNet在CNN/DailyMail、Gigaword和SQuAD1.1questiongeneration数据集上都取得了最高的性能,如表1-3所示。
表1:CNN/DailyMail测试集结果
表2:Gigaword测试集结果
表3:SQuAD1.1测试集结果SQuAD1.1交换验证测试集结果
除了使用16GB的语料训练模型,我们也进行了更大规模的预训练实验。该实验中,我们使用了160GB的语料预训练ProphetNet。我们展示了预训练14个epoch后的ProphetNet在CNN/DailyMail和Gigaword两个任务上微调和测试的结果。如表4所示。需要注意的是,在相同大小的训练数据下,我们模型的预训练epoch仅约为BART的三分之一。我们模型的训练数据使用量仅约为T5和PEGASUSLARGE的五分之一,约为PEGASUSLARGE的二十分之一。尽管如此,我们的模型仍然在CNN/DailyMail上取得了最高的ROUGE-1和ROUGE-LF1scores。并在Gigaword上实现了新的state-of-the-art性能。
表4:模型经大规模语料预训练后在CNN/DailyMail和Gigaword测试集的结果
为了进一步探索ProphetNet的性能,我们在不预训练的情况下比较了ProphetNet和Transformer在CNN/DailyMail上的性能。实验结果如表5所示,ProphetNet在该任务上超越了同等参数量的Transformer。
表5:模型不经过预训练在CNN/DailyMail验证集结果
总结
本文介绍了微软亚洲研究院在序列到序列模型预训练的一个工作:ProphetNet,该模型提出了一种新的自监督学习目标,在同一时刻同时预测多个未来字符。并通过提出的N-streamself-attention机制高效地实现了模型在该目标下的训练。实验表明,该模型在序列到序列的多个自然语言生成任务都取得了不错的性能。我们将在之后尝试使用更大规模的模型架构和语料进行预训练,并进一步深入地探索该机制。
论文链接:https://arxiv.org/pdf/2001.04063.pdf
原力计划
《原力计划-学习力挑战》正式开始!即日起至3月21日,千万流量支持原创作者!更有专属等你来挑战
Python数据清理终极指南口罩检测识别率惊人,这个Python项目开源了谈论新型冠状病、比特币、苹果公司……沃伦巴菲特受访中的18个金句,值得一看!天猫超市回应大数据杀熟;华为MateXs被热炒至6万元;Elasticsearch7.6.1发布一张图对比阿里、腾讯复工的区别不看就亏系列!这里有完整的Hadoop集群搭建教程,和最易懂的Hadoop概念!|附代码
标签:PROHETNETPROPOrion ProtocolSynthetixgreenlightplanetpropy币是什么币
八宝饭财经早讯2020年03月18日星期三八宝饭财经早讯,区块链营养早餐八宝粥已经送达,纽约联储本周将每天通过隔夜回购操作提供一万亿美元;BTC在5400美元附近窄幅震荡,主流币涨跌互现.
原创文章,未经授权,谢绝转载 作者|马儿 对音乐产业而言,自从实体音乐向数字流媒体服务转变开始,稳固的实体销售模式受到冲击,音乐产业收入从繁盛走入混沌.
众所周知,比特币只有2100万枚,最后一枚终一天将会被挖出。按目前预计,2140年左右将挖掘出最后一个比特币.
中国商报/中国商网在全球可乐市场,除了可口可乐和百事可乐外,几乎没有第三个品牌被消费者熟知。也正因如此,这两大可乐巨头的一举一动,都足以引起市场的重视.
近日,关于FCoin交易所“永久停服”公告,再次把涉嫌非法发售代币票券、非法集资等违法犯罪活动的“FCoin”推上热搜.
EOS的涨幅从底部上来已经快翻倍了,抄底EOS的人,资产翻番,币圈就是这样,暴跌才是机会。 相比EOS从底部翻倍了,以太坊和EOS涨的幅一样才是我们更应该关心的,因为涨用函数的观点来解读,涨是一.