Výpočetní grafika NVIDIA Titan V dělá chyby ve výpočtech stěžují si vědci – HW není neomylný. Tisk E-mail
Napsal Jan "DD" Stach   
Čtvrtek, 22 březen 2018
altPokud spoléháte na přesné výpočty pomocí GPU či CPU, asi nepředpokládáte, že budou dělat chyby.

 

 

 

 

Není to příliš časté, ale bohužel to není ani úplně neobvyklé. Procesory i grafiky mohou dělat chyby ve výpočetních operacích. Jednoduše prostě vyhazují nesprávný výsledek, kdy důvody mohou být různé. Jak skutečně HW chyba v návrhu čipu, tak samozřejmě SW chyba. Aktuálně řeší někteří vědci problém, že nejvýkonnější výpočetní karta současnosti, NVIDIA TITAN V, poskytuje špatné výsledky v některých úlohách.

Výpočetní GPU mají dnes široké spektrum použití, všude se samozřejmě vyžaduje a předpokládá, že ten výpočetní HW spočítá vše správně. Vědci zkoušeli několik kusů grafik TITAN V na stejné úloze a některé kusy došly překvapivě k jinému, nesprávnému výsledku. Což je samozřejmě problém. Otázkou je, v čem vězí. V současnosti to vypadá na fyzickou chybu u konkrétních kusů grafik, což je špatné, ale bohužel možné, protože obří VOLTA V100 čip s 815mm2 je pořádný oříšek vyrobit a výtěžnost (tedy čipy bez chyb) musí být rekordně nízká v rámci jakéhokoliv běžně prodávaného GPU v historii. Ostatně proto také jedna TITAN V karta stojí 3000 dolarů (75 tisíc korun vč. DPH). Vypadá to, že u některých karet jednoduše není vše úplně v pořádku, podezření padá na paměťový systém a komunikaci s HBM2 atd.   

NVIDIA nechce situaci komentovat, nicméně zprávy naznačují, že o problémech se ví už delší dobu a řešení se zatím nenašlo. Problém navíc měly i předchozí generace, kde se to řešilo různými záplatami apod. Samozřejmě to představuje velký problém, protože dnes na počítačových výpočtech závisí miliardy životů v mnoha aspektech dnešního světa, i když si to mnozí neuvědomují. Když udělá chybu člověk, je to pochopitelné, lidské, když ale udělá chybu stroj, který by jí dělat neměl, je to těžké zkousnout.

Nutno dodat, že jak současné čipy všeho druhu a GPU obzvlášť, jsou extrémně komplexní zařízení, stejně tak aplikace atd. takže chyby jsou nutnou součástí toho všeho, nicméně je zvláštní, když některé kusy jinak identického hardware tu velmi specifickou chybu dělají a některé ne. To je na celé věci asi to nejzajímavější. Ale nemusí to být tak divné, jak to zní. Mnozí zapomínají, že v podstatě každý křemíkový čip je vlastně originál. A i když vznikl na stejném zařízení, má stejné parametry, je ze stejného materiálu, stejně je každý čip (ať CPU, GPU nebo paměťový čip) vlastně unikát. Což může vést k unikátním chybám, což může být vysvětlení i v tomto případě, proč některé kusy NVIDIA karet ty chyby dělají a některé ne.

Samozřejmě fakt, že stroje nejsou neomylné, je poněkud problém, zejména s rozmachem umělé inteligence mohou mít chyby ve výpočtech vážné následky. Ostatně v těchto dnech se vyšetřuje první smrtelná nehoda, kdy AI auto zabilo člověka a v tuto chvíli to vypadá, že selhal jak celý AI systém, tak člověk, který ho měl hlídat. Samozřejmě v zásadě je to vždy lidská chyba, protože člověk to měl lépe navrhnout, lépe vyrobit apod. Nicméně vše nám jen připomíná, že počítače jsou také různé a také mohou dělat chyby a budou dělat chyby. Bylo by hloupé považovat počítače za 100% neomylné.

 

AUTOR: Jan "DD" Stach
Radši dělám věci pomaleji a pořádně, než rychle a špatně.

Starší články


Komentáře
Přidat Nový
shipo [Zobrazit profil] [Poslat zprávu] 2018-03-22 18:25:34

Selhal hlavně Uber když Googlu ukradl 3D systém, a pak se stejně pro snížení nákladů rozhodl používat jenom normální kamery(které oproti člověku nevidí dobře v noci).
Stejně tak nVidia by měla zmetky prodávat jen jako herní grafiky.
YORGi [Zobrazit profil] [Poslat zprávu] 2018-03-23 11:01:03

A jak by to asi měla nvidia kontrolovat když to dělají jen některé karty v některých situacích? To mají každou kartu zkoušet na každém možném druhu práce a porovnávat výsledky?...NEREÁLNÉ Samozřejmě, že vadné kusy má bez keců vyměnit, a řekl bych,že i vyzkoušet na stejném typu úlohy jako na té u které se na vadu přišlo.
net.Xtreme [Zobrazit profil] [Poslat zprávu] 2018-03-23 10:56:30
avatar
Chyby jsou normální, mělo by se to řešit pomocí double precision, kdy se to spočítá dvakrát a zkontroluje. Pokud to generuje tu samou chybu je něco špatně. Ale při složitosti dnešního HW nebude snadné přijít na to, kde je chyba. Tím spíše, pokud je chyba jen u některých karet.
Belka [Zobrazit profil] [Poslat zprávu] 2018-03-23 14:18:09
avatar
kazdopadne je smutne ze nvidia zase "mlci" ta jejich taktika zatloukani a strkani hlavy do pisku je uz celkem trapná
aDDmin [Zobrazit profil] [Poslat zprávu] 2018-03-23 17:18:16
avatar
trapná možná, ale to ji nezajímá co si o ní kdo myslí, zajímá ji jen business ... a funguje to .... NVIDIA má komunkační a jednací strategii, že mluví jen tak, že vše je skvělé, bezvadné a ona je nejlepší. Jakákoliv výtka natož kritika je nepřípustná, problémy NV oficiálně neexistují a je jí srdečně jedno co si o tom myslíš (buď jsi s ní, nebo proti ní, žádnou jinou variantu u NV neznají) ... pokud nějaké trable jsou tak se prostě nepřiznávají, nikdy ne veřejně je to součást komunikační strategie NV ... žádné strkání hlavy do písku ... strategie komunikace chyb a problémů směrem k veřejnosti je jasně daná a když jsou nějaké opravdu vážné problém, přiznávají se až po dlouhých měsících a pokud možno co nejvíce potichu .... každá firma má jinou komunikační strategii, jinou firemní politiku a jinou firemní kulturu .... NV hlavu do písku nestrká, to se ti jen zdá, komunikuje přesně tak, jak má ve zvyku ...
Dzmijak [Zobrazit profil] [Poslat zprávu] 2018-03-24 09:10:19
avatar
Dvojnásobná presnosť (anglicky double precision) neznamená 2x zopakovať výsledok, znamená to že sa na reprezentáciu čísla použije 2x viac bitov (64b namiesto 32b).

Tak či tak.: tuto je problém iný a inak sa to aj rieši.
Fobos224 [Zobrazit profil] [Poslat zprávu] - 0 x moc 2018-03-23 21:59:45

Ať to pošlou,jím to přes noc sčotnu.

vladislavpokorny [Zobrazit profil] [Poslat zprávu] - Bulvár 2018-03-24 09:15:23

Takže když nějaká grafika někde udělá nějakou chybu, tak umřu? Och! Začínám se bát o svůj život!

Nebo jak bylo myšleno, že na nich závisí miliardy životů?
Dzmijak [Zobrazit profil] [Poslat zprávu] 2018-03-24 09:28:48
avatar
Mierny pokus o senzáciu ale problém je niekde inde.

V pamätiach sa s určitou pravdepodobnosťou vyskytujú chyby ktorým sa proste nedá predísť. Toto nieje len prípad V100, rovnaký problém postihuje aj CPU. Preto sa používa ECC. Každý kto staval počítač na nejaké serióznejšie výpočty alebo simulácie vie, že bez ECC to proste nejde.

A tu je zakopaný pes. Použili lacnú hernú kartu ktorá je navrhnutá na render alebo AI výpočty, kde nejaká tá chyba až tak fatálna nieje.

Presne toto je význam profesionálnych GPU (a nie len GPU).
harrym [Zobrazit profil] [Poslat zprávu] 2018-03-24 10:04:47

Nevím, jaké druhy výpočtů na těchto strojích běhají, ale nejspíše to nejsou výpočty typu "najdi šťastné číslo ve sportce", ale něco alá metoda konečných prvků, atp. Tj. hromada výpočtů jednoduššího rázu. Např. simulace proudění vzduchu kolem křídla, atp. Takže když 1 výpočetní operace z mnoha ulítne, tak se v zásadě nic neděje.
Dzmijak [Zobrazit profil] [Poslat zprávu] 2018-03-24 10:15:50
avatar
Jedná sa o balík "Amber".

Odkaz

Citace:
Mar 2018: Titan-V reliability concerns. We have received conflicting reports about Titan-V cards failing the validation tests. Early reports suggested problems, but many subsequent tests have failed to reproduce this. You should probably treat Titan-V cards with care, making sure that repeated runs give identical results; but this is also good advice for all GPU cards: we know of examples where brand new cards failed, and also of cases where failures began to show up after years of use.
Oldis [Zobrazit profil] [Poslat zprávu] 2018-03-25 11:19:59

Protože současná jádra mají prediktivní systémy založený na neuronových sítích, tak záleží jaké měli startovní podmínky a tedy jak bylo jádro nacvičený.
Pouze registrovaní uživatelé mohou přidat komentář!
 
Poslední příspěvky v diskuzích


Videa
S.T.A.L.K.E.R. 2 v nové ukázce
S.T.A.L.K.E.R. 2 v nové ukázceČtvrtek, 25 duben 2024
Vložil: aDDmin
Kategorie: Počítačové hry
Spuštěno: 1230x
Komentářů: 4
Manor Lords – hra jednoho vývojáře boří herní svět
Manor Lords – hra jednoho vývojáře boří herní světStředa, 24 duben 2024
Vložil: aDDmin
Kategorie: Počítačové hry
Spuštěno: 1636x
Komentářů: 1
Deadpool & Wolverine – očekávaný film v parádní ukázce
Deadpool & Wolverine – očekávaný film v parádní ukázceÚterý, 23 duben 2024
Vložil: aDDmin
Kategorie: Film
Spuštěno: 1150x
Komentářů: 0
Fallout seriál se dočká druhé řady. Zájem je i o hry.
Fallout seriál se dočká druhé řady. Zájem je i o hry.Pondělí, 22 duben 2024
Vložil: aDDmin
Kategorie: Film
Spuštěno: 1212x
Komentářů: 1
Unreal Engine 5.4 představuje další masivní vylepšení
Unreal Engine 5.4 představuje další masivní vylepšeníPátek, 19 duben 2024
Vložil: aDDmin
Kategorie: PC a IT
Spuštěno: 3794x
Komentářů: 0
Česká 3 roky stará hra Vigor brzy na PC
Česká 3 roky stará hra Vigor brzy na PCStředa, 17 duben 2024
Vložil: aDDmin
Kategorie: Počítačové hry
Spuštěno: 1475x
Komentářů: 0