延吉湖北乐清贵港襄阳宜春
投稿投诉
宜春榆林
滕州锦州
襄阳晋中
泰州云南
贵港许昌
娄底河南
乐清寿光
阜阳汉中
湖北漳州
海口陕西
延吉东营
河源海南

5300亿参数,SOTA屠榜!NLP预训练模型登基,微软英伟

12月24日 栀璃鸢投稿
  来源:MicrosoftNvidia
  编辑:好困小咸鱼【新智元导读】微软和英伟达联合发布了迄今为止最大、最强的人工智能语言模型:MegatronTuring自然语言生成模型(MTNLG)。其包含5300亿个参数,在一系列自然语言任务包括阅读理解、常识推理和自然语言推理中实现了无与伦比的准确性。
  啥?NLP预训练模型的规模又被刷新了?
  就在昨天,微软和英伟达联合发布了5300亿个参数的MegatronTuring自然语言生成模型(MTNLG)。
  号称同时夺得单体Transformer语言模型界最大和最强两个称号。
  大!真的大!
  MTNLG汇集了微软DeepSpeed项目和英伟达Megatron项目在并行训练和超大型人工智能模型的训练优化的成功经验。
  作为微软TuringNLG17B和英伟达MegatronLM的后继者,MTNLG的参数量是现有的最大英文语言生成模型(GPT3)的3倍,并在各种自然语言任务如:完形填空、阅读理解、常识推理、自然语言推理、词义消歧中纷纷屠榜。
  基于105层Transformer的MTNLG在zeroshot、oneshot和fewshot方面对现有的SOTA模型进行了改进。
  近年来,在大规模计算、大数据集以及训练模型的先进算法和软件的推动下,基于Transformer的语言模型在自然语言处理(NLP)任务中硕果连连。
  因为具有更多模型参数、更多训练数据和更多训练时间,语言模型获得了对语言更丰富、更细致的理解。因此,它们在许多自然语言处理任务都取得了非常高的准确率,在很多数据集上也展现出了不错的zeroshot或fewshot泛化性能。
  最先进的自然语言处理模型中的参数量正在以指数速度增长,这些大模型在自然语言处理的下游应用包括:摘要、自动对话生成、翻译、语义搜索和代码自动完成等任务中攻城略池。
  大而不强,是训练方式不当
  训练大模型很有挑战性,一个GPU内存再大,也不可能吃下拟合这些模型的全部参数;而且,如果不特别注意优化算法、软件和硬件堆栈的设计,大量的计算操作可能会导致训练到地老天荒。
  英伟达和微软通过将最先进的用于GPU加速训练的基础设施与顶级的分布式学习软件堆栈相融合,实现了前无古人的惊人效率和稳定性,再加上拥有数千亿token的高质量自然语言训练语料库作为模型训练的食谱,这一切努力都为了让训练MTNLG变得可行。
  豪华硬件3D并行计算,全力输出
  模型训练是在基于NVIDIADGXSuperPOD的Selene超级计算机集群上以混合精度完成的,该计算机由560台DGXA100服务器提供动力,通过HDRInfiniBand联网。
  每个DGXA100都有八个NVIDIAA10080GB张量核心图形处理器,通过NVLink和NVSwitch完全相互连接,提供海量计算能力,可以在合理的时间范围内训练具有数万亿参数的大模型。
  然而,要想充分挖掘这些超级计算机的全部潜力,需要跨数千个GPU并行处理,对内存和计算的高效和可扩展都提出了更严苛的要求。
  单独来看,现有的并行策略(如数据并行、管道并行或张量切片)在内存和计算效率上都是有所权衡,不能用于训练MTNLG这种规模的模型。
  这次,英伟达MegatronLM和微软DeepSpeed强强联手,创建了一个高效且可扩展的三维并行系统,将数据、管道和基于张量切片的并行性来个大杂烩。
  具体地说,MegatronLM的张量切片来缩放节点内的模型,并使用DeepSpeed的流水线并行性来跨节点缩放模型。
  例如,对于5300亿模型,每个模型副本会跨越280个NVIDIAA100GPU,在一个节点内有8个张量切片,节点间有35道流水线并行,再被DeepSpeed的数据并行进一步扩展到数千个GPU。
  这样一台经过精心打磨的计算加特林拥有让人叹为观止的系统端到端吞吐量,在Selene超级计算机集群上的420台DGXA100服务器上,设置批处理大小为1920,可以观察到迭代时间最低缩短至44。4秒。这相当于每个GPU都放飞自我,直接飙到每秒113万亿次浮点运算。
  大餐开宴
  MTNLG训练采用15个数据集,总共包含3390亿个token。
  主菜的原料是来自之前的工作ThePile,萃取其精华,构建了从Books3到GitHub,11个数据集。
  小菜是从两个最近的CommonCrawl(CC)原始HTML文件中提取的文本,使用在高质量数据上训练好的分类器对提取的文档进行评分,再根据文档的评分过滤文档。
  为了使训练多样化,最后附上RealNews和CCStories两个数据集作为饭后甜点。
  上菜上重这种事偶尔也会发生,相同的内容可以出现在不同数据集的多个文档中。在文档级别,使用最小哈希LSH计算稀疏文档图和其中的相关组成可以有效识别重复文档。
  训练使用的数据集
  新晋世界第一?拉出来遛遛!
  众所周知,一个强大的预训练语言模型(LM)无需微调就可以在各类NLP任务中取得相当优异的结果。
  微软和英伟达在测试MTNLG零样本和小样本的学习能力方面,选择了横跨五个不同领域的八个任务:
  在文本预测任务LAMBADA中,预测给定段落的最后一个词。在阅读理解任务RACEh和BoolQ中,根据给定段落生成问题的答案。在常识推理任务PiQA、HellaSwag和Winogrande中,每个任务都需要用一定程度的常识,而不是语言的统计模式来解决。对于自然语言推理,ANLIR2和HANS针对过去模型的典型失败案例。词义辨析任务WiC从上下文中评估多义词的理解。
  测试在开源项目lmevaluationharness基础上进行了适当的修改,从而与微软和英伟达之前的工作更加接近。
  评估准确率结果
  MTNLG在PiQA和LAMBADA测试集上刷新了SOTA,并在剩余类别中超过了其他的同类模型。
  此外,MTNLG相比于之前的模型在训练上需要更少的token,也就是说MTNLG具备更快的学习能力。
  除了基准任务的综合指标外,微软和英伟达还对模型的输出进行了定性分析,并得出了有趣的发现:MTNLG可以从上下文中推断出基本的数学运算(样本1),即使符号被严重混淆(样本2)。虽然远未达到宣称的算术能力,但该模型似乎已经超越了对算术的单纯记忆。
  在不同句法结构的自然语言推理任务中,MTNLG的表现也比其他模型更加出色,而且无需进行微调。
  这是来自HANS测试集的任务,一个包含简单句法结构的任务会被作为问题提出来,并提示模型给出答案。尽管这些结构很简单,但现有的自然语言推理(NLI)模型往往很难处理这样的输入。而微调的模型经常从NLI数据集中的系统性偏差中发现某些句法结构和蕴含关系之间的虚假关联。
  关于推断数学运算和不同句法结构下自然语言推理的样本
  那么,代价是什么呢?
  这些大模型从学术角度来看,都令人印象深刻,但造价同样令人印象深刻。
  例如,OpenAI的GPT3的训练数据集大小为45TB,足以填满90个500GB硬盘,在训练过程中需要每秒3。142323次浮点运算(FLOPS)。
  假设OpenAI在一组每秒可以进行28万亿次浮点运算的NvidiaV100GPU上进行运算,那么单次训练的成本就会达到460万美元。一个拥有15万亿次算力的英伟达RTX8000GPU虽然便宜,但完成训练需要665年。
  微软和英伟达表示,在训练MTNLG时,每GPU每秒需要达到113到126万亿次运算,成本可能高达数百万美元。
  当处理万亿字节规模的数据集时,存储成本也会迅速增加。举一个极端的例子,根据CrowdStorage的数据,特斯拉自动驾驶团队积累的1。5千兆字节的视频片段在Azure中存储三个月的成本将超过6。75万美元。
  不过好消息是,在过去几年里,机器学习的成本一直在下降。
  一项OpenAI2020年的调查发现,自2012年以来,在ImageNet图像分类任务中将模型训练到相同的图像分类性能所需的计算量每16个月减少一半。
  大模型正确的道路?
  通常认为,模型的参数越多,它可以完成的任务就越复杂,性能也越好。在机器学习中,参数是模型在进行预测时使用的内部配置变量,通过不同的参数可以对不同的问题进行拟合。
  但是越来越多的研究对这个概念提出了质疑。
  例如,谷歌的研究人员开发了一个参数量远小于GPT3的模型微调语言网络(finetunedlanguagenet,FLAN),并且在许多有难度的基准测试中性能都大幅超过GPT3。
  https:arxiv。orgpdf2109。01652。pdf
  与GPT3的1750亿个参数相比,FLAN拥有1370亿个参数,在研究人员对其进行测试的25项任务中,有19项超过了zeroshot175BGPT3。
  FLAN甚至在ANLI、RTE、BoolQ、AI2ARC、OpenbookQA和StoryCloze上的表现都大大超过了fewshotGPT3。
  自然语言处理研究员、康奈尔大学数据科学家MariaAntoniak表示:谈到自然语言,更大的模型是否是正确的方法是一个悬而未决的问题。虽然目前一些最好的基准性能得分来自大型数据集和模型,但是将大量数据倾倒到模型中的回报是不确定的。
  Antoniak还表示:目前这个领域的结构是以任务为中心的,试图在特定的数据集上解决特定的问题。而这些任务通常非常结构化,可能有自己的弱点,因此虽然它们在某些方面有助于我们的领域向前发展,但也可能会约束我们。大型模型在这些任务上表现良好,但这些任务能否最终引导我们实现真正的语言理解还有待商榷。
  对于偏见这个一直以来困扰着大模型们的问题,微软和英伟达表示,MTNLG依然会从训练数据中学到刻板印象和偏见,不过他们也在致力于解决这个问题。
  对于生产场景中的应用,微软和英伟达强调使用者必须确保采取适当的措施,例如遵循《MicrosoftResponsibleAIPrinciples》中的原则,从而减轻和减少对用户的潜在伤害。
  参考资料:
  https:developer。nvidia。comblogusingdeepspeedandmegatrontotrainmegatronturingnlg530btheworldslargestandmostpowerfulgenerativelanguagemodel
  https:www。microsoft。comenusresearchblogusingdeepspeedandmegatrontotrainmegatronturingnlg530btheworldslargestandmostpowerfulgenerativelanguagemodel
  https:venturebeat。com20211011microsoftandnvidiateamuptotrainoneoftheworldslargestlanguagemodelshttps:t。comd03QzqlxA?amp1
投诉 评论

这只小奶狗火了,袒胸露乳睡姿诱人,网友想抱着rua还记得那只日本小奶猫吗?敞着肚皮的奇特睡姿俘虏了一众铲屎官的心如今它的继承者出现来自菲律宾的小奶狗Paninging一个2岁的小可爱它……孩子喜欢大哭大闹,恐吓是最好的办法吗?前段时间偶然看到一个视频,着实吓了一跳。一位坏叔叔在视频里面目狰狞地告诉孩子要乖乖听话,不然就把他们抓走。(源自抖音澎湃新闻)视频里的主人公说最初录制这种视频……又找一个帅哥当主持,不求人安耐不住了,这次舞台要炸第三届虎牙光复嘉年华最近正在紧张的筹备当中,对于观众们来说,除了想要看精彩的节目之外,主持人,也是非常重要的一个点,所以节目的气氛往往是需要主持人来带动的,其他的节目,为了能保……EXO成员边伯贤即将入伍,发文告别5。5韩国男团EXO成员边伯贤更新INS我会好好回来的。回应即将入伍的事实,5。6其经济公司也表示他将在未来三周接受训练并正式入伍。话说,作为韩国曾经的顶流男团EXO,要知道除……35岁李多熙IG晒完美大长腿网友却把重点放她手上日前韩国女演员李多熙在IG上传新照晒好身材,实在看到女生都羡慕!虽然今年已35岁,可是她却拥有童颜的美貌。提到李多熙最吸睛的地方,必定要提她176厘米的身高,以及一对笔直又纤瘦……金刚川发布新预告,特效炸裂,总票房20亿又稳了?热闹的2020国庆档终于结束,几部国庆档大片都取得了不错的票房。其中《姜子牙》大卖14。6亿,《我和我的家乡》更是大爆22亿,成为国庆档最大的赢家!而接下来,电影市场又将……浪姐2再次证明了没有人气被淘汰,弦子吕一金巧巧意难平《乘风破浪的姐姐2》是不是又开始了走老路,总有几波意难平,节目一公就表现太过明显,弦子、吕一、金巧巧,三人一起呈现的《A级娱乐》已经很努力了,可还是成为倒数第一。不怪当初弦子要……5300亿参数,SOTA屠榜!NLP预训练模型登基,微软英伟来源:MicrosoftNvidia编辑:好困小咸鱼【新智元导读】微软和英伟达联合发布了迄今为止最大、最强的人工智能语言模型:MegatronTuring自然语言生成模型……满月四大女神,鞠婧祎依然很美,而这三位女配角也很惊艳《满月之下请相爱》今晚已经迎来了最后的结局,郑业成饰演的许晓冬和鞠婧祎饰演的雷初夏,十年之后再度重逢,给人留下了一个充满想象的开放式结局,虽然不是那么明确的甜蜜美好,但至少也不……技术主播竟然被警告?大菠萝整活儿,让粉丝压着枪学压枪CSGO是目前非常火爆的FPS游戏,因为在游戏中不仅仅需要精准的枪法,其中队友们的战术配合也是非常重要,除此之外游戏内设置的开箱环节更是让人上头,如果可以开出一个稀有皮肤,那么……男人厌恶婚姻从身体开始,而女人厌恶婚姻却能从容貌展示出来在一次同学聚会上,我见到了校花晓雪。看着眼前这个疲惫不堪的女人,让我很难和以前的她联系在一起。曾经姣好的面容,不用化妆也有一波回头率,但此刻厚厚的粉底也难掩她的疲态……藤原纪香再拍港片赞香港团队很有正能量藤原纪香继2000年演出《雷霆战警》后相隔16年再度参演港产片,欣赏香港团队:他们很有正能量。藤原纪香北京时间9月8日消息,据香港媒体报道,港产片《一夜再成名》集内……
苏联解体形成多个独联体它给中国带来的四大好处!一般认为,苏联解体让美国等西方国家获利巨大,毕竟西方再无对手,美国也可以在世界上指鹿为马,为所欲为。但很多人忽视的是,苏联解体给中国也带来了很多好处。一、减轻外部威……老戏骨张少华离世影视中的平民妈妈,现实中的幸福女人文焱书敏有句话说,一个不断努力的女人,才是一个力量无边的人。平民妈妈张少华,生命定格在75岁。回顾她的一生,努力过,拼搏过,成功过,有酸甜苦辣,更有喜悦和美好……李小璐自称单身快乐?与贾乃亮复合已无可能,否认新恋情一心赚钱李小璐回应恋情知名女星李小璐自从发新歌谋求复出后,她的动态也受到了网友的关注。都说在娱乐圈要想出名,想要恋爱。只有绯闻传得多,最后才能够成功吸引观众的眼球。只有吸引了网友……包丽自杀真相被揭露,妈妈含泪控诉女儿,我宁愿你不善良女人天生卑贱,对自己爱的男人,应该无条件付出和屈从。你不是处女,就对不起我,应该好好去反思、忏悔,见到我就主动跪下来求原谅。我打你是不对,但是你不理我也不对。我比我……我在小学当班主任月入四千,不怕孩子捣蛋,就怕家长不讲理一直以来,都觉得各行各业都有自己的故事。而我,想把这些故事告诉更多人。今天要讲的职业是小学语文教师琳子。她和我是在共同好友一起过生日的时候认识的。她的基本信息如下:……723分学霸淡定查分,数学满分理综仅扣7分,凡尔赛冲击感扑面前言2021年的高考已经过去了,学子们的成绩也逐渐的开始公布了出来,面对成绩,每个人的表现都不一样,有的人淡定,有的人嫉妒,有的人疯狂,还有的人则暗自落泪,每个人的表现虽……朱之文准备起诉造谣他和儿媳妇的人?我说抓紧,动作要快陈亚楠要分割朱之文家产,至少要分500万?我劝劝朱之文:你家里的谣言都是你纵容出来的,或许是你默许的,不然,咋没有人去造谣别人?刚刚刷到一个视频,在头条有一个叫大衣哥文化……有一种整容叫承欢长大,网友判若两人啊想必大家都看过《步步惊心》这部电视剧吧!不知道大家还记不记得在剧中饰演承欢的柴蔚呢?柴蔚在剧中饰演的承欢很是可爱。她的名字是若曦所取,希望她长大后能承欢膝下。绿芜去世后若……吴宣仪小鬼恋情曝光,各方紧急辟谣,这些证据是否能够扭转乾坤?你所喜欢的爱豆,是否值得你一直追随?以郑爽事件的发生为开始,之后接二连三的艺人都有不同程度的受伤害。有人报假警,栽赃王一博;王俊凯被某工作人员一直威胁;有人实名举报……未婚生子还不够,华晨宇整容前照片曝光,张碧晨看完还想嫁吗?华晨宇被曝整容华晨宇发发爱我2021华晨宇方回应整容植发爆料继华晨宇1月份承认荣升奶爸以后,今日有网友发发爱我2021在微博爆出了一连串的大瓜,说华晨宇是自己老公、……面对歌曲收费质疑声,林俊杰回应几块钱不贵,我们应该尊重音乐在网络大发展的今天,不少人都因为网络改善了自己的生活轨迹,各种影视、动画、音乐给我们的生活带来了质的改变,但是慢慢的这些给我们带来改变的东西却在逐步的版权化。我们都知道,……郑爽完了,何炅邓超赵本山全慌了,张恒泄私愤伤及整个娱乐圈?自从张恒爆料郑爽一部戏收入1。6亿,日薪208万而且偷税漏税,一石激起千层浪,网上针对郑爽的声讨一波高过一波,几乎所有的人都在指责郑爽,大有过街老鼠人人喊打之势。因为大部分老百……
友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利