NVIDIA představuje 7nm AMPERE grafickou sérii – pro výpočetní i herní nasazení v čele s GA100!
Napsal Jan "DD" Stach   
Thursday, 14 May 2020
alt

 

 

 

 

  • NVIDIA AMPERE - pro HPC i herní grafiky!

Společnost NVIDIA dnes zveřejní kompletní předtočené video na Youtube, kde představí novou generaci grafických a výpočetních karet. Je to samozřejmě netradiční, protože situace speciálně v USA neumožňuje pořádání klasického GTC, takže alespoň takto NVIDIA po 3 letech odhalí nástupce VOLTA a oficiálně také říká, že nástupce 2 roky staré herního TURING série! Ano, NVIDIA oficiálně potvrzuje, že AMPERE bude existovat jak ve verzích pro HPC, tak pro herní grafiky řady GeForce. Nebude se tedy opakovat situace, kdy VOLTA GV100 existovala jen pro profesionální HPC segment (a jednu speciální grafiku TITAN V), zatímco později vydaný TURING, který je ale odvozený od VOLTA v mnoha ohledech, vyšel jen pro klasické grafické karty (profesionální i herní). AMPERE architektura bude tedy pro obojí, což je trochu překvapení, ovšem důvody vám prozradím později.

(7nm NVIDIA GA100 "AMPERE")

NVIDIA ještě před zveřejněním celé prezentace, ukázala a prozradila první věci kolem GA100 včetně ukázky samotné jednotky. Jak vidíte, opět jde o obří čip. Víme, že je vyráběný 7nm u TSMC a má plochu srovnatelnou s předchůdcem, tedy kolem 800mm2! To je ohromné číslo, speciálně na 7nm monolitický čip, cena jistě bude astronomická, ale odpovídat tomu bude i výkon, kdy NV prozradila, že v klasickém double precision je novinka 2,5x výkonnější než předchozí VOLTA V100. To je v souladu s očekáváním, kdy jsem předpovídal, že bude minimálně 2x výkonnější. Přeci jen bavíme se o třech letech odstupu, kdy novinka staví na podstatně lepším výrobním procesu, má tedy při podobných rozměrech podstatně více jednotek a současně má podstatně lepší HBM paměti. Současně jsem říkal, že v některých oblastech, jako RayTracing nebo AI strojové učení, bude ještě výrazně výkonnější a to se také potvrzuje. NVIDIA říká, že GA100 je až 20x výkonnější v AI učení než předchozí VOLTA GV100.

(TESLA A100/DGX-A100 system)

Podrobnosti NVIDIA představí dnes. Článek tedy doplníme později o další informace. Firma již dodává první systémy DGX-A100 s až 8 jednotkami GA100 GPU a jako celek stojí 200 tisíc dolarů (5 milionů korun bez DPH). Než pro vás budeme mít další informace, zatím můžete obdivovat, jak šéf NVIDIA upekl novinku doma:

Šéf NVIDIA upekl největší grafickou kartu. Doslova.


Doplnění č.1: NVIDIA vydala sérií videí z kuchyně šéfa (doslova), kde představil podrobně několik novinek kolem nové generace AMPERE a technologií. Upozorňuji, že jde o GTC, tedy je to určeno pro profesionální zákazníky NVIDIA, tedy hlavně firmy, nikoliv běžné uživatele a hráče :


Doplňujeme článek o specifikace a výkon a překvapivě výkon zaostává za očekáváním. Více v další kapitole ...

  • NVIDIA AMPERE GA100 v parametrech:

                                                     7nm, 826mm2, 54 miliard tranzistorů …

Nový čip GA100 je tu, vůbec první 7nm GPU od NVIDIA využívající samozřejmě 7nm EUV výrobu od TSMC a je mnohem větší, než jsme čekali, což indikuje, že 7nm EUV výroba TSMC je na tom docela dobře, ale ne perfektně. Novinka je dokonce větší než 12nm VOLTA V100, která měla 815mm2 a 21,1 miliardy tranzistorů.

GA100 AMPERE má 826mm2 a 54 miliard tranzistorů, to je slušný mezigenerační posun, škoda že není každoroční, ale trvalo to přeci jen přesně 3 roky. TESLA V100 měla 5120 CUDA jednotek, novinka GA100 má překvapivě „jen“ 6912 s tím, že evidentně není plně aktivní a fyzicky je jich tam ještě více. Ovšem kvůli výtěžnosti prostě není čip plně aktivní. Novinka má zcela přepracované TENSOR jednotky a další věci, takže přímé srovnávání je složité. Mimochodem má jen 432 TENSOR jader proti 640 u předchozí VOLTA.

(Zdroj: videocarzd.com)

A pokud se podíváte na parametry podrobněji, nevypadá AMPERE od NVIDIA vůbec tak dobře, jak se čekalo …

 

  • Výkon překvapivě zaostává za očekáváním. A o hodně!

NVIDIA také moc neulehčuje srovnání, kdy záměrně hlavně uvádí výkon ve speciálních SW režimech, které mohou nastávat jen ve velmi specifických situacích a aplikacích (kam ale samozřejmě celé řešení také směřuje). Každopádně ten standardní výkon je v případě nové AMPERE GA100 jen 19,5 TFLOPS (FP32). To zní jako hodně, ale ve skutečně je to málo. Mnohem méně, než jsme všichni čekali. Překvapivě malý nárůst výkonu proti 15,7TFLOPS (FP32) u předchozí VOLTA V100! Ta v nejvýkonnější variantě (V100S) má dokonce 16,4 TFLOPS, takže 7nm o tři roky mladší novinka nové generace je o pouhých 19%(!) výkonnější než 12nm 3 roky starý předchůdce! Tohle už tak dobře nezní a není divu, že se NVIDIA schovává za své speciální případy a hodnoty s „až“.

Novinka je tedy jen maximálně o pouhých maximálně 24%(!) klasickým výkonem lepší, což je extrémně malý posun a zdaleka neodpovídá očekáváním po 3 letech čekání. Tady tedy přiznávám, že jsem se zmýlil, protože jsem očekával opravdu reálně 2x větší klasický výpočetní výkon. A ono to má jen 1,24x vyšší výkon. Zdaleka to tedy není těch 2,5x více, o čem NV mluvila, kdy takový posun prostě nastává jen ve specifických případech u speciálních aplikací apod. Doufejme, že v těch optimalizovaných aplikacích ten posun výkonu bude větší, protože jinak by tohle byla pěkně mizerná nová generace GPU po 3 letech čekání.

AMPERE A100 má přitom 5120-bit sběrnici a 40GB HBM2e pamětí s propustností 1134 GB/s, místo jen 4096-bit a 32GB s 900GB/s u předchůdce. TDP celého řešení je 400W! To je podstatný nárůst proti 300W u TESLA V100 a 250W u V100s. Technologicky je tedy AMPERE A100 velký posun, ale na papíře to výkonově na velký posun moc nevypadá. Spekuluje se o tom, že NVIDIA jednoduše nedokáže pořádně využít 7nm technologie a původně prostě neplánovala TSMC technologii používat a tohle je prostě výsledek.

Zajímavost na závěr. NVIDIA již dodává DGX-A100 počítače, což jsou prostě „serverová řešení“ a nová generace s AMPERE má místo Intel XEON procesorů dva 64jádrové AMD EPYC procesory! Takže když už i NVIDIA volí AMD místo Intelu, to už je vážně něco. AMD tedy poprvé také samo něco vydělá na nové platformě NVIDIA. Mimochodem, jednotka s 8 GA100 grafikami a 320GB HBM2 paměti s dvojící AMD EPYC 7742 a 1TB systémové paměti, vychází na 200 tisíc dolarů (5,1 milionů korun bez DPH) a celé to žere maximálně 6,5kW :).

 

  • Závěr aneb kde jsou herní AMPERE grafiky?

NVIDIA zatím neřekla nic ohledně herních AMPERE grafik, kdy máme ale potvrzeno, že budou využívat stejnou architekturu. Nutno říci, že vzhledem k tomu výkonovému posunu, který je jen 24% proti 12nm VOLTA, jsem trochu na vážkách co reálně očekávat od herních karet. A musím říci, že z posledních úniků a informací, které se ke mně dostaly, je to divnější a divnější. Herní 7nm AMPERE grafiky RTX 3000 od NVIDIA se obecně očekávají na trhu nejdříve v říjnu, spíše v listopadu a reálně běžně dostupné spíše později. Oficiální oznámení by ale mohlo proběhnout už v srpnu/září. Samozřejmě vše pro vás stále sleduji a brzy prozradím více.

 

 


 

AUTOR: Jan "DD" Stach
Radši dělám věci pomaleji a pořádně, než rychle a špatně.

Starší články


Komentáře
Přidat Nový
ŽaloDedo [Zobrazit profil] [Poslat zprávu] - UFFF 2020-05-14 14:50:56

54 miliárd tranzistorov. Mľask mľask
snajprik [Zobrazit profil] [Poslat zprávu] 2020-05-15 06:23:03

Keď sa na to pozrieš lepšie tak aj ked ma 54 miliard tranzistorov, len že polovica je vypnuta, preto skoro 2x vačšia spotreba a preto len o 23% vyšši vykon.
Doslova teraz Nvidia predava nepodarky (len 50% čipu je aktivna) a dobre čipi si odklada na ďalšiu novinku.
ŽaloDedo [Zobrazit profil] [Poslat zprávu] - Tie tvoje kecy 2020-05-15 09:13:35

Snajprik, ty prestaň kecať. Tie tvoje žvásty sa nedajú čítať. A nauč sa matiku
Sukh [Zobrazit profil] [Poslat zprávu] 2020-05-15 15:55:51

a pravopis ("čipi")
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-15 09:19:51
avatar
vypnutá je jen 1/8 toho čipu
potooczech [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:23:32

A v jednom monolitu, kdy tedy 1/8 je vypnutá ... to je mazec ... to už je celkem dovaha zkoušet produkovat takové macky s plochou přes 800mm. V podstatě na limitu možností výroby.
martin.666 [Zobrazit profil] [Poslat zprávu] 2020-05-14 17:55:35
avatar
Citace:
Novinka je tedy jen maximálně o pouhých maximálně 24%(!) klasickým výkonem lepší, což je extrémně malý posun a zdaleka neodpovídá očekáváním po 3 letech čekání.

vypadá to že A100 je hlavně výrazně lepší v AI oproti V100 díky nové generaci Tensor jader i když počet jader je nižší, což by mělo u herních karet znamenat výrazně lepší výkon DLSS ale předpokládám že u herních karet budou vyšší boost frekvence a ne jen nějakých 1400 Mhz takže rozdíl ve výkonu oproti TITAN V bude vyšší než "jen" 24%
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-14 18:30:03
avatar
jo hlavně má jen 6912 jednotek aktivních místo 8000 něco co to má ve skutečnosti, takže nějaký výkon tam ještě je ...

ale je to docela divný že tak nízký takt a tak hodně uzamčený, že by NV úplně nezvládala 7nm výrobu?
martin.666 [Zobrazit profil] [Poslat zprávu] 2020-05-14 20:24:04
avatar
To je snad TSMC kdo má výrobní linky na 7nm a nezvládá tu výrobu tak dobře jako tomu bylo u např.12nm ( kde bylo na V100 na Titan V vypnutých jen 256 jednotek pokud se nepletu i když boost clock byl také jen něco přes 1400 Mhz, až na Tesla V100 SXM2 Která vyšla koncem března 2018 byl těch 1533 Mhz jak je v tabulce a také Quadro GV100 kde byl boost 1627 Mhz a výkon v FP32 16,66 TFLOPS - tedy skoro 4 měsíce po tom co vyšel Titan V a výroba na tom byla asi už lépe a tak se bylo možné dostat na vyšší takty, to stejné se může stát se 7nm výrobou a koncem roku tu můžeme už mít karty které budou mít podobně velký čip jako A100 a na výrazně vyšších taktech a třeba i z větší části aktivní), když se Nvidia rozhodla 1/8 čipu uzamknout tak bych řekl že jich měli hodně né úplně 100%, resp. byla nízká výtěžnost ale třeba AMD nebo Intel udělá podobně velký čip na 7nm a pak budeme moci porovnávat kdo ho má z větší části aktivní nebo na vyšší frekvenci
potooczech [Zobrazit profil] [Poslat zprávu] 2020-05-15 09:57:53

Je to prostě 54 miliard tranzistorů v jednom obřím monolitu, ta chybovost tam bude velká a chtít 100% čipy by znamenalo mít pár čipů z waferu ... navíc to prostě i přes 7nm proces vyrobí nějakého tepla ... až 400W z takové plochy, to je už celkem problém to odvádět. A pokud by ten čip byl aktivní celý, tak jsme kolem 460-470W, to už je slušné množství tepla na to, aby to efektivně proteklo přes 800mm čtverečních.
Ona ta vypnutá osmina čipu bude v podstatě sloužit pro lepší rozvod tepla, aby se to dalo uchladit.
QWERTY [Zobrazit profil] [Poslat zprávu] 2020-05-14 17:49:45
avatar
Som dosť prekvapený, že sa použili procesory Epyc. Aspoň je vidno, že v tej Nvidii nie sú až tak zakonzervovaný. Samozrejme je to výhoda pre tento výpočetný systém. Xeony boli prevdepodobne nedostačujúce. Epyc to je proste už iný level.
mittar [Zobrazit profil] [Poslat zprávu] 2020-05-14 17:58:03
avatar
Ja si myslim, ze treba je to protoze PCIE4, Epic je maji, Intel jeste ne, takze bych to s nadeji videl, ze i nVidia u Amperu bude mit PCIE4 minimalne.
Ganimoth [Zobrazit profil] [Poslat zprávu] 2020-05-14 20:39:35
avatar
Jo, proste potrebuji bandwith jako prase a jedina dalsi alternativa s pcie4 je PowerPC, takze volba je jasna
hor410 [Zobrazit profil] [Poslat zprávu] 2020-05-15 09:22:39

Na různých serverech se píše, že toto monstrum je vyráběné na "obyčejném" 7nm TSMC (N7), stejně jako Ryzeny a ne na vylepšené variantě N7P ani na N7+EUV. Jak to teda je?
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-15 09:46:13
avatar
zjišťuji .....
martin.666 [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:39:35
avatar
je to tak stačí se podívat na oficiální dev blog nvidia Odkaz

Citace:
Key features
Fabricated on the TSMC 7nm N7 manufacturing process, the NVIDIA Ampere architecture-based GA100 GPU that powers A100 includes 54.2 billion transistors with a die size of 826 mm2.


a také vyšší propustnost pamětí, ne "jen" 1134 GB/s jak je v té tabulce z videocardz ale 1555 GB/s a jde o HBM2, ne o HBM2e :

Citace:
40 GB HBM2 and 40 MB L2 cache
To feed its massive computational throughput, the NVIDIA A100 GPU has 40 GB of high-speed HBM2 memory with a class-leading 1555 GB/sec of memory bandwidth—a 73% increase compared to Tesla V100.
potooczech [Zobrazit profil] [Poslat zprávu] 2020-05-15 09:52:04

Ono těch tensor cores je méně, ale nově toho umí podstatně více a jejich výkon je doslova neskutečný. V podstatě se to dá srovnat s dobou, kdy do x86 procesorů přišly SIMD instrukce. Aplikace optimalizované pro tensor cores v A100 budou dosahovat obrovského výkonu hodně daleko od toho, co dokáží poskytnout klasické stream procesory.

Pro příklad výkony v FP16 tensor, TF32 tensor a BF16 tensor se pohybují ve stovkách Tflops (až 624 Tflops v FP16 tensor), kdy těch 19,5 TFlops produkovaných klasickými stream procesory v FP32 nebo 78 Tflops v FP16 je najednou velice chabý výkon.
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:09:11
avatar
jenže ono to umí jen někde, ve specifickém nasazení (AI) a za specifických podmínek .... sama NVIDIA přiznává že některé ty hodnoty ani v nejlepší praxi nenastanou ...

pokud se bavíme o AI nasazení, ano, ten výkon bude lepší, ale všude jinde ten nárůst výkonu u AMPERE proti VOLTA je velmi malý ....
potooczech [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:20:29

Tohle je ale čip jasně prezentovaný pro využití v rámci AI. Tam byl mířen veškerý nárůst výkonu. A100 je čip v podstatě navržen kompletně kolem nových tensor cores a tak nemá smysl jej využívat na aplikace, kde ty jednotky nevyužijete.
Typickým příkladem využití je aktuálně AI. To ale neznamená, že by se ty jednotky nedaly využít v jiným oborech. Doposud byly jejich možnosti značně omezené jen na FP16 tensor, nově toho umí podstatě víc. Zjednodušeně řečeno to nyní přes matice umí všechny základní počty FP XX, BF XX a INT X, které doposud jely přes stream procesory. Tedy těch možností nasazení se nyní může také najít podstatě více. Je to v podstatě dokonalá analogie na SIMD v procesorech.
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:32:28
avatar
čip bude použit i u dalších karet a řešení ... nicméně prezentovaná verze "karet" je samozřejmě hlavně pro AI to je pravda ...

je samozřejmě otázkou, jak budou vypadat AMPERE GPU pro klasické herní grafiky, protože tohle AMPERE nemá podle NV ani RayTracing jednotky ;)

nicméně i tak není výsledné 7nm GA100 v současné podobě zrovna to, co jsme čekali a takový posun proti 12nm GV100 ... posun výkonu je velmi malý, nárůst TDP je vysoký, takty jsou nízko a čip je ještě z velké části zamčený ...
potooczech [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:48:10

Podle mne to Nvidia od sebe hodně odsekne a herní GPU budou vypadat dost odlišně. Ono TCores v herní grafice tak nějak nebudou mít smysl, podobně jako RT jádra v čipu pro AI a proto tam ani nejsou.
Podle mne Nvidia pochopila, že to musí rozseknout, protože jinak by to bylo jen plýtvání křemíkem a herní GPU budou hodně odlišná. Jenom mne už tedy celkem "straší" ty počty texturovacích jednotek. Přeci jen pamatuji čipy, kde se daly spočítat na prstech jedné ruky
Ono z mého pohledu jsou TCores v herní grafice slepá větev, Nvidia se pomocí nich snažila vylepšit obraz, ale prakticky to nepřineslo pozitivní citelný efekt ve hrách a na jádře to jenom zabíralo haldu křemíku.
Podobně pak RT jednotky. Zajímavý nápad a obecně pokus jak RTX dostat pod "svoji" technologii a tak trochu ji uzamknout před AMD. Ale bohužel pro Nvidii, AMD ukázalo, že RTX jde bez problémů řešit přes stream procesory a navíc v nových konzolích bude zase APU od AMD, takže RTX na hrách pro konzole pojede přes stream procesory a otevřený standard, takže pro Nvidii tak nějak nemá smysl dál zkoušet protlačovat svoji technologii, když to všechny porty z konzolí budou řešit stejně jinak, její verze RTX by tak byla omezena jen na pár her a RT jádra by zase zabírala zbytečný křemík v jádře. To už je snad lepší ten prostor zaplnit klasickou kombinací jednotek, nebo ten prostor ušetřit a dostat z čipu vyšší frekvence.
Tedy pokud se bude Nvidia tvrdošíjně držet TCores a RT jednotek v herní GPU, tak může mít s novými grafikami AMD celkem problém.
Dexter1 [Zobrazit profil] [Poslat zprávu] 2020-05-15 11:38:59
avatar
A zase ta dojmologie.

Nastuduj si co je DXR a RTX a co nvidia dělala nedělala. Nikdy netlačily žádnou svoji RT technologii a nikdo před nikým nic neuzavíral. To co tu píšeš jsou úplné bláboly.

Jistě, že se bude nvidia dál držet RT i Tensor jednotek.
martin.666 [Zobrazit profil] [Poslat zprávu] 2020-05-15 11:49:01
avatar
Tensor a RT jednotky tam určitě budou u Nvidia herních karet (jen tam asi nebude tolik těch FP64 jader oproti A100 kde jich je 32 na SM stejně jako v V100 ale TU102 má jen 2 FP64 na SM takže asi tak), stejně tak jako jsou Tensor a RT i v konzolových čipech pro PS5 a Xbox s. X od AMD a v dalších založených na RDNA 2 architektuře, potvrzuje to např. článek který vyšel na Eurogameru Odkaz kde byl rozhovor s Andrew Goossen z Mcrosoftu a říkal že by RT šlo i přes shadery ale spotřebovalo by to přes 13 TFLOPs takže na Series X to běží na dedikovaným hardwaru a ne přes shadery ...
Citace:
The ray tracing difference
RDNA 2 fully supports the latest DXR Tier 1.1 standard, and similar to the Turing RT core, it accelerates the creation of the so-called BVH structures required to accurately map ray traversal and intersections, tested against geometry. In short, in the same way that light 'bounces' in the real world, the hardware acceleration for ray tracing maps traversal and intersection of light at a rate of up to 380 billion intersections per second.

"Without hardware acceleration, this work could have been done in the shaders, but would have consumed over 13 TFLOPs alone," says Andrew Goossen. "For the Series X, this work is offloaded onto dedicated hardware and the shader can continue to run in parallel with full performance. In other words, Series X can effectively tap the equivalent of well over 25 TFLOPs of performance while ray tracing."
renmou [Zobrazit profil] [Poslat zprávu] 2020-05-15 13:29:45

Probůh už by to chtělo zastavit tady ty fikce. Nvidia nedělá z RT žádnou uzavřenou záležitost. RT je standard, o který se stará DXR. Nvidia jen přišla s vlastním HW, který ho bude počítat. Nikdo nikomu neřekl, že se to musí počítat přes jádra, která má Nvidia ve svých kartách. Nvidia jen přidala jádra, která to počítají rychleji než shadery. Takže AMD přijde se svým řešením. Buď to bude chtít počítat přes shadery, nebo si implementuje svůj HW na výpočet RT.
ReveNCZ [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:24:41

no potom je taky otazka jestli se tyto gpu budou vubec pouzivat i k necemu jinymu nez AI, a kdyz jo tak kolik % tech karet takle vyuzito bude, dost mozna drtiva mensina..NV sama rika ze AI nasazeni melo top prioritu.
aDDmin [Zobrazit profil] [Poslat zprávu] 2020-05-15 10:30:17
avatar
to určitě nerozporuji, nicméně samotný čip bude použit i jinde ....
Yamaha [Zobrazit profil] [Poslat zprávu] 2020-05-16 06:42:30

Co se furt divíte?Je to furt stejný.Prostě zase rychlejsi o 15-30%. 3080TI bude konečne Karta na 4K při 60FPS(na nynejsi hry).Dale bude zajistovat 4K kde vam to nespadne pod 30FPS v budoucích hrách.Furt dokola
Pouze registrovaní uživatelé mohou přidat komentář!