Van CUDA ati radeon kártyákra?

Van CUDA ati radeon kártyákra?
2013-01-29T16:31:33+01:00
2013-02-21T14:53:10+01:00
2022-10-24T07:20:41+02:00
  • Vegre kijott egy ütôs chippel az NVidia is:

    GTX Titan: 4.7 TFlops/s, 288 GB/s, 1/3 DP/SP ratio

    Ez az elozo valtozathoz kepest (GTX680: 3.2, 192, 1/24) jokora ugras.
    A legerosebb AMD chipnek is odavág: (HD8970: 4.3, 288, 1/4)
    Mutasd a teljes hozzászólást!
  • Tök érdekes látni egy fehérjét vagy enzimet működés közben. Ezt úgyse tudom megnézni még mikroszkóp alatt sem. Ha megveszem a kártyát, akkor megpróbálom a Reverz transzkiptáz enzimet szimulálni(ez képes RNS-kódról DNS-re "portolni" kvázi olyan mintha c kódot java-ra portolnál) És hogy hogy működik. Hasraütés szerű DNS láncal mit kezd. Kíváncsi leszek rá...


    Mutasd a teljes hozzászólást!
  • Extrém hobbi

    Mutasd a teljes hozzászólást!
  • Extrém hobbi. Tavaly az egyetem szuperszámítógépét használtam erre. (1,5 Terraflops, bár voltak Tesla kártyák is, de arra nem volt lehetőségem kipróbálni)
    Nem erre gondoltam hanem h az oprendszer használná a 256 bites buszszélességet és a memóriasávszélességet ami több mint egy normál ramé egy op.rendszer és 2 gigában kényelmesen elfér egy linux...
    Mutasd a teljes hozzászólást!
  • Szerinted egy linux kernel mennyivel lenne beljebb egy olyan utasitassal, ami mondjuk osszead két int[8192] arrayt? :p Persze ossze tud adni ket int[1] 'arrayt' is, de az is ugyanannyi ideig tart, mint a nagy arrayok eseteben.

    Van x2 kartya is, de az csak ipari kivitelben (ECC ram van benne es 5x annyiba kerul). Es nem a legerosebb 7970 duplája, hanem csak a 7950-é. firepro s10000
    A 6970-nek regen volt 'otthoni' x2 valtozata is, lehet hogy, akkor az ipari valtozat nem fogyott :D

    Ez a feherje szimulacio amugy nalad munka, vagy egy extrém hoddy? o.O
    Mutasd a teljes hozzászólást!
  • LOL azért megdöbbentő, hogy a 7970-8970 között alig van különbség. De ezek szerint a technológia nem túl nagy különbség. És gondolom valamilyen módszerrel biztosan húzható egy 7970 órajele. Bár nem értek hozzá, csak elgondolkodtam rajta, ha tényleg nincs különbség csak a clock, akkor ezt simán meg lehet tenni, egy jó hűtő mellett.

    Teszett a videó. Én se fogom fel a Schrödringer egyenletet. Tudom mire jó, mit lehet vele kiszámolni, de nem tudom mit jelenthet. Egyszer próbáltam megérteni, de nem jött össze. Bár a sci-fi szerintem néha közel lehet a megértéséhez...
    Az egyenlet megértésével mai napig így van sztem minden fizikus:)

    Mindenesetre nagyon örülök hogy ilyen extrém nagy-ok lettek a mostani GPU-k. Pár éve még csak a PLAYSTATION 3-nak volt 1 Terraflops fölötti a számítási teljesítménye. Lehet akkor veszek egy ( de ha lenne pénzem akkor 2 db) 7970-es Ati Radeont. Bekötöm a kettőt, egy DUAL PCI-os alaplapba. Aztán 7,6 TerraFlops sztem nagyon jó darabig elég lenne sokmindenre...
    Ha nagyon ráérnék még a LINUX kernelbe is beírnám, hogy használja a videó-gput, a processzorral.... Kíváncsi lennék, hogy ezzel az extrém teljesítménnyel mennyi lenne a boot-ideje egy SSD-ről....
    Na jó csak álom lenne egy ilyen szintű dolog dolog. De azért 3,8 Terraflops-al is tudnék olyan fehérje-szimulációkat, illetve akkor már kipróbálnám,hogy a WPA-PSK-t mennyi idő alatt végezne ki( természtesen saját router nél).
    Mutasd a teljes hozzászólást!
  • Itt talaltam a hd8xxx-rol specifikaciokat:
    http://www.amd.com/us/products/desktop/graphics/oem-solutions/Pages/..

    Pontosan ugyan az a chip van benne, mint a 7xxx sorozatban. Csak egy kicsit fejlebb vittek az orajelet es ha megjelennek ezek, akkor a 7xxx-nek csokkenhet majd az ára.

    "A 8000 széria 8550-nél 3,4 TerraFlops single-nél
    A 8750-pedig 4,2 terraflops lesz."

    Ez nem igaz: Minden sorozatnal a HD?9?? jeluek a legnagyobbak, a 800,700,600,500 veguek csak butitasok:
    - kisebb chip van benne (nem 2048 core, hanem csak 1536, 1280, 768 vagy kevesebb)
    - kisebb orajelen mennek (a chip nem birta a tesztek soran a magasabbat, ezert alacsonyabb kategorias lett)
    - Nem 384, hanem csak 256, 128 bites memoria busz

    Szoval a 900-asok most a 4TFlops kategoria, a 800-asok meg a 2-3 TFlops, es igy tovabb.

    A legerosebb chip-ek szeriankent ezek:
    5750: 2.32 TFlops
    6970: 2.72 TFlops Kicsit valtozott a chip, de a gyorsulas az orajelbol jott
    7970:3.8 TFlops Teljesen uj chip, es 28nm-es technologia
    8970:4.2 TFlops ua, mint 7xxx, csak nagyobb clock

    A 7970-ben amugy szerintem hatalmas tartalekot hagytak: 925MHz az orajele, de ugy el sem éri a 80 fokot, 1125MHz-en is tok megbizhatoan ment, tartosan 85 fokon, az 4.35TFlops. Szoval gondolom a 8xxx szeria ezt a tartalekot fogja kihasznalni.

    Nyelv/Api: Tenyleg nem ez a lenyeg sztem. Mindkettoben kell kernelt irni/forditani, adatokat mozgatni a CPU/GPU kozott, ki kell osztani szinkronban mukodo thread-et ugy, hogy a hardvernek minden resze (memory vezerlok, ALU-k) le legyen terhelve.
    Emiatt teljesen szet kell ganyolni az unparalell cpun jol attekintheto programot, es ezt tok mind1, hogy milyen api-n keresztul es milyen nyelvvel ered el: CUDA, PTX, OpenCL, AMD_IL, Fortran, (vagy gpu-Asm )

    "Scrödringer-egyenlet finoman szólva is bonyolult" Az, fel se fogom :D De ahogy latom van rá Monte Carlo Solution is, az meg idealis a mass paralell hardverre.


    Lazán kapcsolódik: Schrodingers Cat
    Mutasd a teljes hozzászólást!
  • Okés ezt én értem, nem vagyok kutató csak egyetemista, a programozással meg soha nem volt ( nagyobb) gond. Persze nem vagyok profi programozó, de attól még tudok egy pár dolgot megcsinálni c-ben, c++-ban, javaban is akár ugyanazt. De engem monjduk ezek az adatok meggyőztek.
    1.)2,5 Terraflops nyilván jobb mint 1,421...
    2.) A HD8000-es széria olcsóbb lesz elméletben ennél( legalább is a pletykák szerint, bár őszintén nem tudom ki jött-e már)
    A 8000 széria 8550-nél 3,4 TerraFlops single-nél
    A 8750-pedig 4,2 terraflops lesz.
    Nvidiánál meg ugyanazek megvannak csak jóval drágábban. Tisztában vagyok, hogy ezek elméleti maximumok, de attól még vannak olyan gyorsak, hogy tudjak ilyen szimulációkat írni rá. Az OPENCL-re meg ahogy láttam nem túl nehéz átmennem. Főleg, hogy az OPENCL nem feltétlenül "csak" a GPU proramozását jeleneti. Utóbbi tetszik leginkább, hogy a Prcesszort meg a GPU-t is tudnám használni egyszerre. Persze tudom, hogy egy CPU jóval kisebb mint egy ilyen GPU, de azért a CUDA-nal csak vidikártyahasználat van, míg az OPENCL másra is használható. Ha nekem kell optimalizálni az sem lesz túl gond. Szerintem megbírkotok vele legalább is remélem...
    Mutasd a teljes hozzászólást!
  • Én nem vagyok benne biztos, hogy az OpenCL le fogja nyomni a CUDA-t, gondolj a kutatókra, akik használják, még Fortranra is elkészült a CUDA az igényeik szerint, mert ők némileg konzervatívabbak az informatikusoknál, ami a nyelv/technológia váltásokat illeti. Miután ebben a szférában elterjedt a CUDA, nekik nyomósabb ok kell a váltásra, mint egy mezei programozónak.
    Mutasd a teljes hozzászólást!
  • Például, amit mondtál olyat szeretném szimulálni. A Scrödringer-egyenlet finoman szólva is bonyolult...( emlékszek amikor gép nélkül megoldottam hidrogénre 10 A/4 oldalra jött ki. A hélium az utolsó amire van egzakt megoldás. Utána már csak közelítések léteznek. Érdekes volt,hogy pl. az urán atom full elekronpályáinak kiszámítása megdolgoztatott egy régebbi generációs core 2-es procit( 2,7 Gigahertzes ). Jó fél órán át. Meg csináltam olyat is, hogy még nem létező elemek elektronszerkezetéből következtettem a tulajdonságaira. Az is szép volt. De a fehérje molekulák egzakt szerkezetei is nagyon érdekelne.
    Akkor azt mondod érdemesebb az ATI kártyát megvenni? Ha kell foglalkozok magam az optimalizációval ez számomra nem probléma. A 2560 GigaFlops meg azért mégis azért odaver. Tavaly szimuláltam egy egyszerűbb fehérjemolekula( dohány-mozaik vírus) az egyetem szuperszámítógépén( jegyzem meg "csak" 1,5 Terraflops-os volt, tehát minden volt csak nem "nagy" számítógép a maiakhoz képest.
    Mutasd a teljes hozzászólást!
  • Úgy hallottam, hogy a CUDA compiler opensource lett, ebből kifolyólag nem volna kizárt, hogy megjelenne ATI-ra, de én nem tudok róla, hogy ez megtörtént volna.

    Én éppen emiatt (most a hó elején) döntöttem a GTX 650 Ti mellett (azon belül is a Gigabyte 2gb-s verziója mellett - túlhúzott, 4 normális kimenete van, valamint a túlméretezett hűtő miatt nincsen hangja).


    A TeraFlops-os összehasonlítás azért nem teljesen tiszta, az ugyanis az elméleti maximum.
    Ezt azonban átlag programokkal szinte soha nem használod ki. Innentől kezdve sokkal többet számít, hogy hogyan tudja a kártya optimalizálni a dolgokat. Arról nem is beszélve, hogy az adott framework (opencl / cuda) mennyit tud kihozni belőle. Én inkább a gpgpu benchmarkoknak hinnék.



    Mindenesetre a tiszta adatokat nézve a HD7870 lehet a jobb választás, én egészen egyszerűen a CUDA miatt vettem meg az Nvidiás kártyát.
    A cudát már ismerem, nem múlik semmilyen óriási dolog azon, hogy a saját gépemen milyen gyorsan futnak le a dolgok (ha nagyon lényeges, akkor bemegyek az egyetemre és ott van pár tesla), új eszközt meg egyszerűen nincs kedvem megtanulni, nekem bőven jó a CUDA. (Meg például az OpenCV is csak cudát tud as far as I know, már pedig azt gyakran használom)

    Ha most kezdenéd a dolgokat, akkor viszont hagyd a cudát és foglalkozz az OpenCL-el.
    Mutasd a teljes hozzászólást!
  • Ugy tudod a kulonbozo kartyakat osszehasonlitani, hogy megnézed, hogy melyik mennyi TeraFlops/s teljesitmennyel bir, illetve ha memoriazabalo az programod, akkor szamit a memory savszelesseg is.

    GTX 650 TI
    ----------------------------------------
    Cores: 768
    Clock: 925MHz
    Single Precision FLops: 1421 GFlops/s
    Double Precision Flops: 59.2 GFlops/s
    Memory Bus width: 128bit
    Memory Freq: 1350MHz GDDR5 (effective:4x)
    Memory Bandwidth: 86.4 GBytes/s
    Memory: 1..2GB
    ár: 27e (1GB) vagy 32e (2GB)

    A memoria ugye csak feladattol fuggo alapkovetelmeny.

    A Single Precision Flops annyit jelent, hogy a kartya 1 sec alatt az res=a*b+c (ahol a,b,c:float32) muveletek sorozatabol allo programbol ennyi elemi muveletet (*,+) tud elvégezni.
    Tehat: 768 core vegzi az res=a*b+c muveleteket (ez egy MAD utasitas = 2 Flops/s). Minden egyes core 925MHz-n megy.
    -> 925MHz*768Core*2Ops = 1420800 MFlops/s = 1420.8 GFlops/s

    A Double precision (float64) teljesitmeny pedig abbol adodik, hogy az adott hardveren 1/24 az DP/SP arány, azaz minden 32bites muveletvegzo magra jut 1 darab 64bites muveletvegzo. (Olyan nincs, hogy a ketto egyutt megy :p)

    Memory Bandwidth: A 128bit bus az 16byte széles. Ezt még meg kell szorozni 4-el (a GDDR5 vagy mi miatt) es igy kilon, hogy 1 orajel alatt 64byte mozog azon a buszon. A busz frekvenciája 1350MHz -> 64Bytes*1350MHz = 86.4 GBytes/sec.

    HD7870
    ----------------------------------------
    Cores: 1280
    Clock: 1000MHz
    Single Precision FLops: 2560 GFlops/s
    Double Precision Flops: 160 GFlops/s (DP/SP ratio:1/16)
    Memory Bus width: 256bit
    Memory Freq: 1200MHz GDDR5 (effective 4x)
    Memory Bandwidth: 156.5 GBytes/s
    Memory: 2GB
    ár: 26e

    A CUDA az egy C-szeru nyelv+api KIZAROLAG az NV-hez (ahogy irjak is elottem).
    Az OpenCL pedig egy C-szeru nyelv+api az NV-hez, AMD-hez illetve IA32/64 cpu-khoz.
    A ket api 'kulalaki' kulonbsegei itt vannak osszefoglalva: porting cuda -> ocl
    Ha adott hardverre kell optimizalni a feladatot, akkor persze figyelembe kell venni, hogy milyen architektura a cél. Tehat a kozos nyelvvel nem uszod meg azt, hogy tudd, hogy hogy mukodik az NV vagy az AMD vagy a CPU.


    >OpenCl-ben lehet streamer magokat programozni matematikai műveletekre?
    Persze hogy lehet. Ha erdekel, akkor itt van a HD7870 utasitaskeszlete is: AMD_Southern Islands Instruction Set Architecture
    Az NV Kepler architektura doksijat nem talalom, de az is hasonlo. Izelitonek ez az NV 'köztes nyelve' -> Paralell Thread Execution ISA
    Szoval ezeket a dolgokat tudjak a kartyak hardverbol, illetve ha nem, akkor leemulaljak.

    Es hogy honnan jon ez az arkulonbseg:
    Szvsz onnan, hogy az NV jobban odafigyel a driverre, softwarere, dokumentaciora (ez utobbi latszik azon is, hogy nem sporolnak a szinekkel a pdf-ekben haha).
    Egyeb kulonbség még, hogy az amd hardver Flops/s-re viszonyitva egyszerubb (kevesebb tranzisztorbol all), mint az nv hardver, emiatt ugyanakkora chip-feluletre az amd tobb core-t tud rapakolni, mint az nv. Az nv core pedig 'okosabb', mert az kepes a rosszul optimizalt programbol is tobbet kihozni. Viszont ez az 'okos' core nem sokat ér, ha eleve jol optimalizalt programot kap. Ezzel az uj Kepler architekturaval amugy 'butább' lett az NV core. Az uj amd-nel meg 64 nagyon 'buta' core-ra jut 1 okos, ami a vezerlesrol gondoskodik, ez a vezerles mar nincs beledrotozva a hardverbe es ezzel a vezerlo core-val ugyanazokat a dolgokat is el lehet vegezni, mint egy hagyomanyos cpu-val, a munkavegzo core-ok, pedig 64*32bit SIMD muveletvegzok. Pl. ilyet lehet mar hardverileg, hogy szubrutin hivas (eddig ugye csak if/else meg loop volt, osszevissza ugralas a programon belul NEM).

    Remelem igy most még nehezebb lesz donteni.

    (A molekula szerkezet szimulacional amugy mit kell szimulalni? Azt, hogy pl. egy adott feherjemolekula milyen terbeli alakzatba tekeredik? Csak tippelek, bocs, ha total hulyeseg :D)
    Mutasd a teljes hozzászólást!
  • OpenCl-ben lehet streamer magokat programozni matematikai műveletekre? Ha igen tudsz valami példát mutatni?
    Vagy mindenképpen NVIDIA kártyát vegyek szimulációkra?
    Mutasd a teljes hozzászólást!
  • Legjobb tudomásom szerint nincsen Cuda Ati kártyákra. Nyilván a Cuda az Nvidia-hoz tartozik, de ha jól tudom nyílt platformmá vált egy ideje, csak az AMD inkább az OpenCL-t nyomatja, ezért nincs, és lehet sosem lesz Cuda a radeonokhoz.

    Szóval Nvidia kártyát vegyél ilyen célra.
    Mutasd a teljes hozzászólást!
  • A jövőben szertnék egy videókártyára beruházni. Viszont az a bajom, hogy amit kinéztem NVIDIából( GEforce Gtx 650 TI, jóval kevesebbet tud, mint a hasonló árkategóriás HD7870-es Radeon. Nem feltételnül játékra használnám. Szeretnék CUDA programokat is írni, szimulációkat atom és molekula-szerkezetre. Ez bizonyos esetekben igényel elég komoly processzort. A hd7870 több szálon kezel, több streamer mag-ot, a GTX 650 Ti pedig értelemszerűen kevesebbet ráadásul drágább is, de ott legalább biztosan van a CUDA. A neten egy két helyen találtam rövidebb írást, hogy talán van CUDA ati kártyán is. Tud valaki valami ilyet?
    Mutasd a teljes hozzászólást!
Tetszett amit olvastál? Szeretnél a jövőben is értesülni a hasonló érdekességekről?
abcd