延吉湖北乐清贵港襄阳宜春
投稿投诉
宜春榆林
滕州锦州
襄阳晋中
泰州云南
贵港许昌
娄底河南
乐清寿光
阜阳汉中
湖北漳州
海口陕西
延吉东营
河源海南

浪潮英伟达微软为何狂炼AI大模型?巨头角力已经开始

8月12日 相见欢投稿
  编辑:好困桃子【新智元导读】AI大模型环球影城正式开业!汽车人、霸天虎共集结,这次不是为了赛博坦,也不是元宇宙,而是为了疯狂争夺火种源。现实世界中,AI巨头在也在为这一生命之源大模型展开了无尽的争夺战。
  AI大模型领域的环球影城正式开业!
  汽车人、霸天虎集结,这次不是为了赛博坦,而是为了疯狂争夺火种源。
  现实世界中,AI巨头们在也在为这一生命之源大模型展开争夺战,进行巅峰对决。
  5300亿参数,烧了4480块英伟达GPU,威震天图灵(MTNLG)可以说是当前最大的语言模型。此外,GPT3有1750亿参数,浪潮源1。02457亿参数。。。
  自从2018年谷歌推出BERT模型以来,语言模型做的越来越大,仿佛没有终点。短短几年,模型参数已经从最初的3亿,扩张到万亿规模。
  然而,这并不是终点,争夺火种源角逐还在继续。
  那么,这些AI巨头到底在争什么,在探索什么?
  大模型究竟是否是一条正确的道路?
  下一个模型有多大?
  从国外来看,2018年,谷歌提出3亿参数BERT模型惊艳四座,将自然语言处理推向了一个前所未有的新高度。
  可以说,谷歌最先开启了大模型一股热潮。
  紧接着,OpenAI在2019年初推出GPT2,15亿参数,能够生成连贯的文本段落,做到初步的阅读理解、机器翻译等。
  还有英伟达威震天(MegatronLM)83亿参数,谷歌T5模型110亿参数,微软图灵TuringNLG模型170亿参数。
  这些模型一次次不断地刷新参数规模的数量级,而2020年却成为这一数量级的分界线。
  大火的GPT3,1750亿参数,参数规模达到千亿级别,直逼人类神经元的数量。
  能作诗、聊天、生成代码等等,无所不能。
  就在近日,微软和英伟达联手发布了MegatronTuring自然语言生成模型(MTNLG),5300亿参数。
  号称同时夺得单体Transformer语言模型界最大和最强两个称号。
  除了千亿规模的稠密单体模型,还有万亿规模的稀疏混合模型。
  如果将单体模型比作珠穆朗玛峰,那么混合模型就是喜马拉雅山脉其他的小山峰。
  谷歌在今年年初推出了1。6万亿参数的SwitchTransformer。而智源悟道2。01。75万亿参数再次刷新万亿参数规模的记录。
  好一副百家争鸣之势。
  为什么会这样?一句话,大模型是大势所趋,更是必争的高地!
  如今大模型的这种盛世,与深度学习时代极其相似。
  就好比十几年前深度学习的崛起一样,国内外AI巨头看到了这个技术的未来,于是纷纷入局于此,各种各样深度学习的模型不断涌现。
  现在,大模型更迭速度只会越来越快。
  NLP单体模型大PK
  那么,为什么我们要比较这几个模型呢?
  在讨论这个问题之前,需要先搞懂大模型都有哪些分类。
  比如说,从模型架构角度:单体、混合;功能角度:NLP、CV、对话等等。
  其中,谷歌SwitchTransformer采用MixtureofExperts(MoE,混合专家)模式将模型进行了切分,其结果是得到的是一个稀疏激活模型。虽然节省了计算资源,但是精度却很难提高。
  目前来说,自然语言处理领域单体大模型的顶流是:GPT3、MTNLG以及源1。0。
  https:arxiv。orgpdf2110。04725。pdf
  不过,中文和英文的模型之间区别还是很大的。
  在自然语言理解方面,由于分词方式不同、同一词组不同歧义以及新词汇等方面挑战,所以中文训练的难度更高。
  例如分词难点:中国科学技术大学;中国科学技术大学;中国科学技术大学。这三种不同的分词形式,表达的意思有着天壤之别。这还仅仅是其中之一。
  因此,训练中文NPL模型的训练难度要比同量级英文模型难度更高。
  要做就做最大的
  英文的高质量文本数据集可谓是五花八门。
  有包含HackerNews、Github、StackExchange、ArXiv甚至还有YouTube字幕的TheP有包含了超过50亿份网页元数据的数据平台CommonC甚至还可以用Reddit论坛的内容来进行训练。
  就拿ThePile来说吧,其中包含了825GB的多样化开源语言建模数据,由22个较小的、高质量的数据集合组成。
  GPT3采用了规模超过292TB,包含499亿个token的数据集。
  Tokens(亿)
  Epochs
  有效规模(TB)
  CommonCrawl(www)
  410。00
  0。44
  180。40
  WebText(Redditlinks)
  19。00
  2。90
  55。10
  Books2(Libgenorsimilar)
  55。00
  0。43
  23。65
  Books1BookCorpus(Smashwords)
  12。00
  1。90
  22。80
  Wikipedia(facts)
  3。00
  3。40
  10。20
  总计
  499。00
  292。15
  MTNLG则使用了15个数据集,总共包含3390亿个token。
  相比起来,中文的训练数据就匮乏得多了。
  最大的开源项目CLUECorpus2020只包含了100GB的高质量数据集。
  https:github。comCLUEbenchmarkCLUECorpus2020
  为了获得高质量的数据集,源1。0的团队开发了一套大数据过滤系统MassiveDataFilteringSystem(MDFS),其中包括数据收集、粗略过滤、精细过滤三部分。
  数据预处理流程图
  数据主要来自CommonCrawl、搜狗新闻(SogouN)、搜狗互联网语料库版本(SogouT,2016)、百科数据和书籍数据。
  待清洗的原始数据
  在对原始语料进行粗筛选之后,团队又训练了一个基于Bert的模型来对高质量、低质量和广告内容进行分类,并辅以人工筛查。
  精细过滤之后的高质量语料大小
  最后终于得到了5TB高质量中文数据集,其中包括近5年中文互联网的全部内容和近2000亿个词。
  计算效率up!
  有了数据集,也构建好了模型,现在就可以来谈一谈训练了。
  对于最新的MTNLG,由560台DGXA100服务器提供动力,其中每个DGXA100都有8个NVIDIAA10080GB张量核心图形处理器,也就是4480块A100显卡。每个GPU的算力直接飙到每秒113万亿次浮点运算。
  GPT3的训练则是在超过28。5万个CPU核心以及超过1万个GPU上完成,GPU在训练过程中达到每秒2733亿次浮点运算。
  而源1。0只用了2128张GPU,并在短短的16天就完成了训练。
  这又是如何做到?
  源1。0的团队创新性地采用了张量并行、流水线并行和数据并行的三维并行策略。
  张量并行
  在张量并行策略中,模型的层在节点内的设备之间进行划分。Transformer结构在进行前向计算和反向传播时,注意力层和多层感知机层的张量将会被按行或列进行拆分。输入端的张量首先会发送给每个加速器,在加速器中各张量独立进行前向计算。
  流水线并行
  流水线并行将LM的层序列在多个节点之间进行分割,以解决存储空间不足的问题。每个节点都是流水线中的一个阶段,它接受前一阶段的输出并将结果过发送到下一阶段。如果前一个相邻节点的输出尚未就绪,则当前节点将处于空闲状态。
  数据并行
  采用数据并行时,全局批次规模按照流水线分组进行分割。每个流水线组都包含模型的一个副本,数据在组内按照局部批次规模送入模型副本。
  从结果上看,源1。0的训练共消耗约4095PD(PetaFlopsday),相较于GPT3的3640PD,计算效率得到大幅提升。
  在零样本和小样本学习霸榜
  为什么一说大模型就要提这俩货?
  原因很简单,人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知,而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。
  而是否拥有从少量样本中学习和概括的能力,是将人工智能和人类智能进行区分的明显分界点。其中,零样本学习更是可以判断计算机能否具备人类的推理和知识迁移能力,无需任何训练数据就能够识别出一个从未见过的新事物。
  简单来说,零样本学习,就是训练的分类器不仅仅能够识别出训练集中已有的数据类别,还可以对于来自未见过的类别的数据进行区分;小样本学习,就是使用远小于深度学习所需要的数据样本量,达到接近甚至超越大数据深度学习的效果。
  不管是GPT3还是MTNLG,都在强调自己在这两方面的学习能力。
  当然,二者的区别在于,作为前任SOTA的GPT3被MTNLG以微弱的优势干掉了。
  GPT3在LAMBDA和PIQA测试集上取得的成绩
  MTNLG在LAMBDA和PIQA测试集上取得的成绩
  源1。0虽然没有办法直接和二者进行对比,不过在中文最大规模的语言评估基准CLUE上的成绩还是很有说服力的。
  在ZeroCLUE零样本学习榜单中,源1。0以超越业界最佳成绩18。3的绝对优势遥遥领先。在文献分类、新闻分类,商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军。
  在FewCLUE小样本学习榜单中,源1。0获得了文献分类、商品分类、文献摘要识别、名词代词关系等4项任务的冠军。
  刷榜终究是刷榜,虽然成绩很好,但实战起来还是很容易被人类一眼看穿。
  不过,其实从成绩单上的分数也能看出,不管是英文还是中文的模型,和人类比起来差距还是很大的。
  尤其是在情感理解和话题表达方面这类没有特定规则的情景下,比如作诗、写故事等等。
  大模型,去哪?
  AI巨头竞相追逐模型规模的新高度,这自然带来一个灵魂之问:他们在探索什么?
  当前,语言模型的训练已经从大炼模型走向炼大模型的阶段,巨量模型也成为业界关注的焦点。
  近日,PercyLiang,李飞飞等一百多位学者在发表的200多页的研究综述OntheOpportunitiesandRiskofFoundationModels中阐述了巨量模型的意义在于突现和均质。
  论文中,他们给这种大模型取了一个名字,叫基础模型(foundationmodel),其在NLP领域表现出了强大的通用性和适用性。
  目前AI研究的涌现性和同质化特征
  构建越来越大的模型,真的就会越来越好吗?
  从ELMo到Bert再到之后的GPT3等一系列模型,预训练模型的性能一直在提升,这是一个非常强的证据。
  而现在威震天图灵的参数量是5300多亿,可见,当前模型的参数规模可能也没有达到通用人工智能所要求的水平。
  所以说,更大的模型依旧是刚需。
  那么,构建越来越大的模型,真的能够通向通用人工智能(AGI)吗?
  OpenAI的无监督转化语言模型GPT3,展现出了从海量未标记数据中学习,且不限于某一特定任务的通用能力。
  因此让许多人看到了基于大规模预训练模型探索通用人工智能的可能。
  坦白讲,我们开始对大模型认识不太清晰的时候,认为它只是用来作首诗,对个对子,但其实这些并不是大模型的魅力所在。
  大模型真正的魅力在于不可知,而在于对未来的一个探讨。
  一位清华教授曾表示,GPT3已经越来越接近人类水平,但它有一个阿喀琉斯之踵。
  GPT这说明,GPT3很聪明,但它仍有一些认知局限没有常识。
  自然语言处理研究员、康奈尔大学数据科学家MariaAntoniak表示,谈到自然语言,更大的模型是否是正确的方法是一个悬而未决的问题。
  虽然目前一些最好的基准性能得分来自大型数据集和模型,但是将大量数据倾倒到模型中的回报是不确定的。
  这足以证明,对大模型进行探索是一个持续不断的过程。
  全球AI巨头争的是,探索的是大模型未知领域的处女地,可以说是面向通用智能最高阶智能的探索。
  其实,不仅仅是科学探索,它必然会产生一种催化效应,探索的成果也会带动CV、OCR、语音等领域的发展。
  因为,最终的智能产生是在这基础之上建立的。
  我是谁?我在哪?我将要去向何方。。。
  这对于人类来说是一直探索的哲学问题,那么机器会如何回答?
  当我们输入一些命题时,它能够给出很多灵感式答案。
  源1。0便是一个非常好的开始,但未来的路还很长。
  参考资料:
  https:arxiv。orgpdf2005。14165。pdf
  https:arxiv。orgpdf2004。05986。pdf
  https:arxiv。orgpdf2110。04725。pdf
  https:developer。nvidia。comblogusingdeepspeedandmegatrontotrainmegatronturingnlg530btheworldslargestandmostpowerfulgenerativelanguagemodel
  https:easyai。techaidefinitiontokenization
  https:lifearchitect。aimodelscontents
投诉 评论 转载

盘点国内外十大蠢哭了的奇葩笨贼,好好找份工作它不香吗?奇葩事情经常有,发生在小偷身上的也不少。那么中国十大蠢贼有哪些?来看看这些事件,大家就会知道答案小偷倒掉17万元凉茶,卖空瓶净赚115元;小偷盗走商家一装有253万包保险箱扔河……盘点关咏荷主演的12部电视剧,部部经典,你还记得多少部?1、《情逆三世缘》主演:欧阳震华、关咏荷2、《天下无双》主演:张卫健、关咏荷、陈好3、《烧饼皇后》主演:关咏荷、郭晋安、4、《金装四大才子》……超1亿孩子正在经历隐形饥饿,孩子看似吃饱,实际都是假营养本文由兜妈爱叨叨原创,版权所有,侵权必究生活中,许多妈妈都会遇见一个奇怪的事情:我家孩子每天都吃两大碗饭,怎么6岁了身高还长得特别慢?没错,我家孩子也是,他又……浪潮英伟达微软为何狂炼AI大模型?巨头角力已经开始编辑:好困桃子【新智元导读】AI大模型环球影城正式开业!汽车人、霸天虎共集结,这次不是为了赛博坦,也不是元宇宙,而是为了疯狂争夺火种源。现实世界中,AI巨头在也在为这一生命之源……匆匆三年已逝,又是一场离合悲欢轻声细语缠绵了时光,轻弹浅唱黯淡了流年。那些明灭相随的离合悲欢,都在这一季里化作一纸云烟。不知不觉,已到了初夏。伴随着惊雷和雨滴的声音,才想起当时是自己把时间想的过于仁慈……大衣哥朱之文又建新房,首演报酬一万块,成名大衣卖了51。8万朱之文从田间放牛耕地的农民,成为大衣哥已经10年了。这些年来,朱之文的话题一直不断,在网络上总是能隔三岔五地看到他的消息。最近,大衣哥朱之文为儿媳陈亚男建房却被村民……都错怪拳头了,装备大改是老玩家的召回令,这次轮到英雄们失望了近期有很多很多的玩家表示通过这一次的改动要退游,内容多是作为一个X年老玩家再也不想玩了,并且还吐槽拳头除了不会做游戏,其他的做的都挺好。最初我也是抱着这样的态度,毕竟作为……倪萍宋丹丹和解相拥落泪,曾是闺蜜却形同陌路,原因令人唏嘘地球为什么是圆的?是为了失散的朋友再重逢。1月30日,某恋爱综艺节目邀请了宋丹丹作为飞行嘉宾,倪萍则一直是在该节目中担任征爱主理人。宋丹丹与倪萍之间究竟为何在节目潸……王珞丹退圈,工作室回应引争议,曾经的小花旦如今却靠反炒王珞丹回复粉丝说要脱圈,只想当一个透明人,马上就被网友们发酵,很多人可惜王珞丹竟然年纪轻轻就想退圈。但是在看了工作室的回应后,不仅不说一头雾水,而且感到一阵气愤,这是怎么……江苏某乐园NPC入戏,宁采臣别拦我,我要考研目前,主题乐园相比传统的游乐园而言,更能吸引游客的注意,他们打破了传统的游乐园形式,让员工进行相应的npc扮演,从而激发了游客们的兴趣,但由于主题乐园内部人员不足,所以很多主题……程波良诗歌不肯散场清冷的街,华灯初上,我一个人站在街口没了方向。点上一根烟,看烟火中漂浮的你的脸庞。点上一根烟,看烟火中明灭的谁的感伤。我的心情,就像霓灯一样……黄飞鸿竹梯决战李连杰受伤,三个替身每天16小时拍了31天十三姨,既然外国那么好的话,那你为什么还要回来?这里有的东西外国没有。《黄飞鸿之壮志凌云》全方位揭秘香港龙虎武师六十余年风云变幻的动作纪录片《龙虎武师》,上映……
福原爱晒与日本相扑选手合照,离婚后瘦出尖下巴,整个人状态回春2021溧阳青空音乐节时间表门票价格老北京国营饭店,它不仅是时代的符号,更是老北京人的青春记忆七仔说八卦杨洋倪虹洁张译蔡徐坤龚俊钟楚曦肖战吴亦凡被正式批捕,粉丝还执迷不悟吗?中转剖宫产率需要硬性规定达标吗?曾出演历史的天空,和黄磊姜武是同学,二婚嫁体操冠军李大双刚习惯戴头盔,电动车又来一条新规,车主还能不能好好骑车了?选秀明星家暴后续报道,女方公开打人者身份,男方经纪公司否认赵丽颖献身直播间,直言我命由我不由天与莉莉亲吻照曝光后,50岁多米尼克坚称自己婚姻牢固明日之子完美收官!最强厂牌张钰琪或用原创出圈服用铁剂有哪些注意事项?让孩子养生从头开始,一份大脑说明书开始释怀淡水白鲳鱼怎么养?白鲳鱼的养殖技术介绍在县城坐了3小时车到男友家,阿姨做了7盘菜招待,这菜也太抠了竹林书舍火灾损失国家有补助吗战争与和平祖玛珑梅花香水好不好?祖玛珑梅花香水怎么样四年级上学期数学教学工作计划红着红着就过气的明星,快来看看,你当年追过他们吗?奥斯卡原创剧本奖电影寄生虫影评三则

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找七猫云易事利