深圳南财多媒体有限公司介绍

您當前的位置 :環球傳媒網>科技 > 正文
全球最大規模NLP模型誕生:5300億參數!
2021-10-13 09:48:18 來源:量子位 編輯:

5300億參數!全球最大規模NLP模型誕生。

由微軟聯手英偉達推出,名叫威震天-圖靈自然語言生成模型(Megatron Turing-NLG)。

據他們介紹,這樣的量級不僅讓它成為全球規模最大,同時也是性能最強的NLP模型。

訓練過程一共使用了4480塊英偉達A100 GPU,最終使該模型在一系列自然語言任務中——包括文本預測、閱讀理解、常識推理、自然語言推理、詞義消歧——都獲得了前所未有的準確率。

三倍規模于GPT-3

此模型簡稱MT-NLG,是微軟Turing NLG和英偉達Megatron-LM兩者的“繼任者”。

Turing NLG由微軟于2020年2月推出,參數為170億;Megatron-LM來自英偉達,2019年8月推出,參數83億。

它倆在當時分別是第一、二大規模的Transfomer架構模型。

我們都知道大參數規模的語言模型效果會更好,但訓練起來也很有挑戰性,比如:

即使是最大容量的GPU,也存不下如此規模的參數;

如果不特別注意優化算法、軟件和硬件堆棧,那么所需的大量計算操作可能會導致訓練時間過長。

那這個參數已是GPT-3三倍的MT-NLG又是如何解決的呢?

答案就是汲取“兩家”所長,融合英偉達最先進的GPU加速訓練設備,以及微軟最先進的分布式學習系統,來提高訓練速度。

并用上千億個token構建語料庫,共同開發訓練方法來優化效率和穩定性。

具體來說,通過借鑒英偉達Megatron-LM模型的GPU并行處理,以及微軟開源的分布式訓練框架DeepSpeed,創建3D并行系統。

對于本文中這個5300億個參數的模型,每個模型副本跨越280個NVIDIA A100 GPU,節點內采用Megatron-LM的8路張量切片(tensor-slicing),節點間采用35路管道并行(pipeline parallelism)。

然后再使用DeepSpeed的數據并行性進一步擴展到數千個GPU。

最終在基于NVIDIA DGX SuperPOD的Selene超級計算機上完成混合精度訓練。

(該超級計算機由560個DGX A100服務器提供支持,每個DGX A100有8個NVIDIA A100 80GB Tensor Core GPU,通過NVLink 和 NVSwitch相互完全連接)。

該模型使用了Transformer解碼器的架構,層數、hidden dimension和attention head分別為 105、20480和128。

訓練所用數據集包括近20萬本書的純文本數據集Books3、問答網站Stack Exchange、維基百科、學術資源網站PubMed Abstracts、ArXiv、維基百科、GitHub等等,這些都是從他們先前搭建的Pile數據集中挑出的質量較高的子集。

最終一共提取了2700億個token。

五大任務上的準確度測試

開發者在以下5大任務上對MT-NLG進行了準確度測試。

在文本預測任務LAMBADA中,該模型需預測給定段落的最后一個詞。

在閱讀理解任務RACE-h和BoolQ中,模型需根據給定的段落生成問題的答案。

在常識推理任務PiQA、HellaSwag和Winogrande中,每個任務都需要該模型具有一定程度的常識了解。

對于自然語言推理,兩個硬基準,ANLI-R2和HANS考驗先前模型的典型失敗案例。

詞義消歧任務WiC需該模型從上下文對多義詞進行理解。

結果該模型在PiQA開發集和LAMBADA測試集上的零樣本、單樣本和少樣本三種設置中都獲得了最高的成績。

在其他各項任務上也獲得了最佳。

除了報告基準任務的匯總指標外,他們還對模型輸出進行了定性分析,并觀察到,即使符號被嚴重混淆,該模型也可以從上下文中推斷出基本的數學運算。

當然,該模型也從數據中也提取出了刻板印象和偏見。微軟和英偉達表示也在解決這個問題。

另外,他們表示在生產場景中使用MT-NLG都必須遵守微軟的“負責任的AI原則”來減少輸出內容的負面影響,但目前該模型還未公開。

關鍵詞: 微軟 英偉達 5300億 NLP模型

分享到:
版權和免責申明

凡注有"環球傳媒網"或電頭為"環球傳媒網"的稿件,均為環球傳媒網獨家版權所有,未經許可不得轉載或鏡像;授權轉載必須注明來源為"環球傳媒網",并保留"環球傳媒網"的電頭。

Copyright ? 1999-2017 cqtimes.cn All Rights Reserved 環球傳媒網-重新發現生活版權所有 聯系郵箱:8553 591@qq.com
主站蜘蛛池模板: 亿诺千企网-企业核心产品贸易| 博博会2021_中国博物馆及相关产品与技术博览会【博博会】 | 吊篮式|移动式冷热冲击试验箱-二槽冷热冲击试验箱-广东科宝 | 微波消解仪器_智能微波消解仪报价_高压微波消解仪厂家_那艾 | 膜片万向弹性联轴器-冲压铸造模具「沧州昌运模具」 | 伺服电机_直流伺服_交流伺服_DD马达_拓达官方网站 | 博医通医疗器械互联网供应链服务平台_博医通 | 中细软知识产权_专业知识产权解决方案提供商| DNA亲子鉴定_DNA基因检测中心官方预约平台-严选好基因网 | 塑胶跑道施工-硅pu篮球场施工-塑胶网球场建造-丙烯酸球场材料厂家-奥茵 | 临朐空调移机_空调维修「空调回收」临朐二手空调 | 全自动变压器变比组别测试仪-手持式直流电阻测试仪-上海来扬电气 | 五轴加工中心_数控加工中心_铝型材加工中心-罗威斯 | 选宝石船-陆地水上开采「精选」色选机械设备-青州冠诚重工机械有限公司 | 手持式浮游菌采样器-全排二级生物安全柜-浙江孚夏医疗科技有限公司 | 苹果售后维修点查询,苹果iPhone授权售后维修服务中心 – 修果网 拼装地板,悬浮地板厂家,悬浮式拼装运动地板-石家庄博超地板科技有限公司 | 储气罐,真空罐,缓冲罐,隔膜气压罐厂家批发价格,空压机储气罐规格型号-上海申容压力容器集团有限公司 | 软文世界-软文推广-软文营销-新闻稿发布-一站式软文自助发稿平台 | 视频直播 -摄影摄像-视频拍摄-直播分发 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 首页|光催化反应器_平行反应仪_光化学反应仪-北京普林塞斯科技有限公司 | 合肥触摸一体机_触摸查询机厂家_合肥拼接屏-安徽迅博智能科技 | 快速卷帘门_硬质快速卷帘门-西朗门业 | 危废处理系统,水泥厂DCS集散控制系统,石灰窑设备自动化控制系统-淄博正展工控设备 | bkzzy在职研究生网 - 在职研究生招生信息咨询平台 | 佛山商标注册_商标注册代理|专利注册申请_商标注册公司_鸿邦知识产权 | 真空上料机(一种真空输送机)-百科| 吊篮式|移动式冷热冲击试验箱-二槽冷热冲击试验箱-广东科宝 | 金属检测机_金属分离器_检针验针机_食品药品金属检探测仪器-广东善安科技 | 光照全温振荡器(智能型)-恒隆仪器 | 东莞ERP软件_广州云ERP_中山ERP_台湾工厂erp系统-广东顺景软件科技有限公司 | 开业庆典_舞龙舞狮_乔迁奠基仪式_开工仪式-神挚龙狮鼓乐文化传媒 | 纸张环压仪-纸张平滑度仪-杭州纸邦自动化技术有限公司 | 皮带式输送机械|链板式输送机|不锈钢输送机|网带输送机械设备——青岛鸿儒机械有限公司 | 全自动贴标机-套标机-工业热风机-不干胶贴标机-上海厚冉机械 | 河南档案架,档案密集架,手动密集架,河南密集架批发/报价 | 广州物流公司_广州货运公司_广州回程车运输 - 万信物流 | 液氮罐_液氮容器_自增压液氮罐-北京君方科仪科技发展有限公司 | atcc网站,sigma试剂价格,肿瘤细胞现货,人结肠癌细胞株购买-南京科佰生物 | 广州展览制作工厂—[优简]直营展台制作工厂_展会搭建资质齐全 | 济南展厅设计施工_数字化展厅策划设计施工公司_山东锐尚文化传播有限公司 |