英偉達(dá)放大招！算力殺器來了 CPU已落伍？

2023-05-30 06:21:19來源：中國(guó)基金報(bào)

【英偉達(dá)放大招！算力殺器來了CPU已落伍？】黃仁勛在29日的COMPUTEX大會(huì)上重大發(fā)布新型大內(nèi)存AI超級(jí)計(jì)算機(jī)

堪稱“算力之王”的近萬億美元巨頭英偉達(dá)，又拋出“大殺器”。

【資料圖】

5月29日，英偉達(dá)CEO黃仁勛在COMPUTEX大會(huì)上拋出多個(gè)重磅信息。其中最為引人矚目的是，搭載256顆GH200 Grace Hopper超級(jí)芯片的新型DGX GH200人工智能超級(jí)計(jì)算機(jī)，堪稱“算力殺器”。

據(jù)透露，谷歌云、Meta和微軟是首批預(yù)計(jì)將獲得DGX GH200訪問權(quán)的客戶，以探索其在生成型AI工作負(fù)載方面的能力。值得注意的是，算力的突破，將使得AI應(yīng)用再次獲得巨大提升，AI賽道有望向下一個(gè)節(jié)點(diǎn)邁進(jìn)。

按照黃仁勛所言，“我們已到達(dá)生成式AI引爆點(diǎn)。從此，全世界的每個(gè)角落，都會(huì)有計(jì)算需求?！?

256塊GH200芯片組成

黃仁勛在29日的COMPUTEX大會(huì)上重大發(fā)布新型大內(nèi)存AI超級(jí)計(jì)算機(jī)——DGX GH200超級(jí)計(jì)算機(jī)。

這款超算由英偉達(dá)GH200 Grace Hopper超級(jí)芯片和NVLink交換機(jī)系統(tǒng)提供支持，旨在為生成型AI語言應(yīng)用、推薦系統(tǒng)和數(shù)據(jù)分析工作負(fù)載開發(fā)新一代巨型模型。

據(jù)了解，這款超算專為大規(guī)模生成式AI的負(fù)載所設(shè)計(jì)，由256塊GH200超級(jí)芯片組成，擁有1 exaflop 的AI性能、144TB內(nèi)存（是英偉達(dá)目前DGX A100系統(tǒng)的近500倍）、150英里光纖、2000多個(gè)風(fēng)扇。需要提及的是，之前型號(hào)（DGX A100）只有8個(gè)GPU。

DGX GH200重達(dá)40000磅（約合18143千克），堪比四只成年大象的體重。

黃仁勛表示，“DGX GH200人工智能超級(jí)計(jì)算機(jī)，集成了英偉達(dá)最先進(jìn)的加速計(jì)算和網(wǎng)絡(luò)技術(shù)，以拓展人工智能的前沿?！?有海外知名媒體對(duì)此評(píng)價(jià)道，英偉達(dá)的新人工智能超級(jí)計(jì)算機(jī)將改變“游戲規(guī)則”。

黃仁勛透露，DGX GH200集成的GH200 Grace Hopper超級(jí)芯片已進(jìn)入全面生產(chǎn)，英偉達(dá)方面預(yù)計(jì)DGX GH200將于今年年底投入問世。

不過至于價(jià)格方面，英偉達(dá)也暫未公布價(jià)格。谷歌云、Meta和微軟是首批預(yù)計(jì)將獲得DGX GH200訪問權(quán)的客戶，以探索其在生成型AI工作負(fù)載方面的能力。

同時(shí)，黃仁勛還宣布，英偉達(dá)也正在打造基于DGX GH200的大型AI超級(jí)計(jì)算機(jī)NVIDIA Helios，以支持其研究和開發(fā)團(tuán)隊(duì)的工作。其中采用4個(gè)DGX GH200系統(tǒng)、1024顆Grace Hopper超級(jí)芯片，每個(gè)都將與英偉達(dá)Quantum-2 InfiniBand網(wǎng)絡(luò)連接，帶寬高達(dá)400Gb/s，將于今年年底上線。

在今年3月21日，英偉達(dá)在GTC大會(huì)上，曾宣布“AI的iPhone即將到來”，并發(fā)布了與多個(gè)行業(yè)重要客戶的合作成果，包括量子計(jì)算、計(jì)算光刻、數(shù)字孿生等，并且推出了新一代的超級(jí)計(jì)算機(jī)NVIDIA DGX AI，集成8個(gè)H100 GPU模組，大幅提升了單機(jī)算力。不難看出，此次DGX GH200超級(jí)計(jì)算機(jī)發(fā)布將進(jìn)一步推升算力等級(jí)。

算力成為AI剛需

自去年年底OpenAI發(fā)布ChatGPT以來，生成式人工智能就成為熱度居高不下的新趨勢(shì)。該項(xiàng)技術(shù)需要通過超強(qiáng)算力來創(chuàng)建文本、圖像、視頻等內(nèi)容。

在這一背景下，算力成為AI的剛需，而芯片巨頭英偉達(dá)所生產(chǎn)的人工智能芯片對(duì)該領(lǐng)域至關(guān)重要。

此前，英偉達(dá)在AI訓(xùn)練端先后推出了V100、A100、H100三款芯片，以及為了滿足美國(guó)標(biāo)準(zhǔn)，向中國(guó)大陸銷售的A100和H100的帶寬縮減版產(chǎn)品A800和H800。

其中，V100能加快 AI、高性能計(jì)算 (HPC) 和圖形技術(shù)的發(fā)展。其采用NVIDIA Volta架構(gòu)，并帶有16 GB和32GB 兩種配置，在單個(gè)GPU中即可提供高10個(gè)CPU的性能。

A100 采用NVIDIA Ampere架構(gòu)，是NVIDIA數(shù)據(jù)中心平臺(tái)的引擎。A100的性能比上一代產(chǎn)品提升高達(dá)20倍，并可劃分為七個(gè)GPU實(shí)例，以根據(jù)變化的需求進(jìn)行動(dòng)態(tài)調(diào)整。A100提供40GB/80GB顯存兩種版本，A100 80GB將GPU顯存增加了一倍，并提供超快速的顯存帶寬（每秒超過2萬億字節(jié) [TB/s]），可處理超大型模型和數(shù)據(jù)集。

而H100則使用 NVIDIA NVLink Switch系統(tǒng)，可連接多達(dá)256個(gè)H100來加速百億級(jí) (Exascale) 工作負(fù)載，另外可通過專用的Transformer引擎來處理萬億參數(shù)語言模型。與上一代產(chǎn)品相比，H100的綜合技術(shù)創(chuàng)新可以將大型語言模型的速度提高30倍，從而提供業(yè)界領(lǐng)先的對(duì)話式AI。

CPU已落伍？

值得注意的是，本次大會(huì)上，黃仁勛向傳統(tǒng)CPU服務(wù)器集群發(fā)起“挑戰(zhàn)”。他直言，認(rèn)為在人工智能和加速計(jì)算這一未來方向上，GPU服務(wù)器有著更為強(qiáng)大的優(yōu)勢(shì)。

黃仁勛解釋稱，傳統(tǒng)上電腦或服務(wù)器最重要的CPU，這個(gè)市場(chǎng)主要玩家包括英特爾和AMD。但隨著需要大量計(jì)算能力的AI應(yīng)用出現(xiàn)，GPU將成為主角，英偉達(dá)主導(dǎo)了當(dāng)前全球AI GPU市場(chǎng)。

黃仁勛在演講上展示的范例，訓(xùn)練一個(gè)LLM大語言模型，將需要960個(gè)CPU組成的服務(wù)器集群，這將耗費(fèi)大約1000萬美元（約合人民幣7070萬元），并消耗11千兆瓦時(shí)的電力。

相比之下，同樣以1000萬美元的成本去組建GPU服務(wù)器集群，將以僅3.2千兆瓦時(shí)的電力消耗，訓(xùn)練44個(gè)LLM大模型。

如果同樣消耗11千兆瓦時(shí)的電量，那么GPU服務(wù)器集群能夠?qū)崿F(xiàn)150倍的加速，訓(xùn)練150個(gè)LLM大模型，且占地面積更小。而當(dāng)用戶僅僅想訓(xùn)練一個(gè)LLM大模型時(shí)，則只需要一個(gè)40萬美元左右，消耗0.13千兆瓦時(shí)電力的GPU服務(wù)器即可。

換言之，相比CPU服務(wù)器，GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來訓(xùn)練一個(gè)LLM，這將帶來巨大的成本節(jié)省。

根據(jù)Trend Force的數(shù)據(jù)，2022年搭載GP GPU的AI服務(wù)器年出貨量占全部服務(wù)器的比重接近1%，2023年在ChatGPT等人工智能應(yīng)用加持下，AI服務(wù)器出貨量有望同比增長(zhǎng)8%，2022~2026年出貨量CAGR有望達(dá)10.8%，以AI服務(wù)器用GPU，主要以公司H100、A100、A800（主要出貨中國(guó)）以及AMD MI250、MI250X系列為主，而英偉達(dá)與AMD的占比約8：2。

基于IDC預(yù)測(cè)2026年全球服務(wù)器出貨量1877萬臺(tái)、AI服務(wù)器的占比逐年提升1%，同時(shí)AI服務(wù)器中GPU的搭載數(shù)量逐年提升0.5個(gè)百分點(diǎn)、隨著GPU產(chǎn)品迭代，GPU單價(jià)逐年提升2000美元，國(guó)金證券基于上述基礎(chǔ)預(yù)測(cè)，2026年全球數(shù)據(jù)中心GPU市場(chǎng)規(guī)模有望達(dá)224億美元。

為游戲NPC注入“靈魂”

值得注意的是，游戲一直是備受關(guān)注的一大AI應(yīng)用落地領(lǐng)域，英偉達(dá)此次也在大會(huì)上宣布，推出面向游戲的定制AI模型代工服務(wù)NVIDIA Avatar Cloud Engine（ACE）。

據(jù)英偉達(dá)方面透露，ACE能賦予非玩家角色（NPC）更智能且不斷進(jìn)化的對(duì)話技能，中間件、工具和游戲開發(fā)者可使用它來構(gòu)建和部署定制的語音、對(duì)話和動(dòng)畫AI模型。

其中包括：英偉達(dá)NeMo，使用專有數(shù)據(jù)構(gòu)建、定制和部署語言模型；英偉達(dá)Riva，用于自動(dòng)語音識(shí)別和文本轉(zhuǎn)語音實(shí)現(xiàn)實(shí)時(shí)語音對(duì)話；英偉達(dá)Omniverse Audio2Face，用于即時(shí)創(chuàng)建游戲角色表情動(dòng)畫，以匹配任何語音軌道。開發(fā)人員可選擇集成整個(gè)NVIDIA ACE for Games解決方案，也可僅使用需要的組件。

NVIDIA高管John Spitzer表示：“生成式AI有潛力徹底改變玩家與游戲角色互動(dòng)的方式，并大幅提高游戲的沉浸感?！?