Sèrie GeForce 400

Sèrie GeForce 400
Característiques de CPUs
Conjunt d'instruccions	Fermi
Microarquitectura	Fermi
	← Sèrie GeForce 300 Sèrie GeForce 500 →

Servint com a introducció de Fermi, la sèrie GeForce 400 és una sèrie d'unitats de processament de gràfics desenvolupades per Nvidia. El seu llançament estava previst originalment el novembre de 2009; ^[1] tanmateix, després de retards, es va llançar el 26 de març de 2010, amb la disponibilitat següent a l'abril de 2010.

El seu competidor directe era la sèrie Radeon HD 5000 d'ATI.^[2]

Arquitectura

Nvidia va descriure la microarquitectura Fermi com el següent pas important en la seva línia de GPU després de la microarquitectura de Tesla utilitzada des del G80. El GF100, el primer producte d'arquitectura Fermi, és gran: 512 processadors de flux, en setze grups de 32, i 3.000 milions de transistors, fabricats per TSMC en un procés de 40 nm. És el primer xip de Nvidia que admet OpenGL 4.0 i Direct3D 11. No es va vendre mai cap producte amb una GPU GF100 totalment activada. El GTX 480 tenia un multiprocessador de transmissió desactivat. El GTX 470 tenia dos multiprocessadors de transmissió i un controlador de memòria desactivats. El GTX 465 tenia cinc multiprocessadors de transmissió i dos controladors de memòria desactivats. Les targetes GeForce per a consumidors venien amb 256 MB connectats a cadascun dels controladors de memòria GDDR5 habilitats, per a un total d'1,5, 1,25 o 1,0 GB; el Tesla C2050 tenia 512 MB a cadascun dels sis controladors i el Tesla C2070 tenia 1024 MB per controlador. Les dues targetes Tesla tenien catorze grups actius de processadors de flux.

Els xips que es troben a la marca Tesla d'alt rendiment inclouen memòria amb ECC opcional i la capacitat de realitzar una operació de punt flotant de doble precisió per cicle per nucli; les targetes GeForce de consum estan restringides artificialment a una operació DP per quatre cicles. Amb aquestes funcions, combinades amb el suport per a Visual Studio i C++, Nvidia es va dirigir als mercats professionals i comercials, així com a l'ús en informàtica d'alt rendiment.

Fermi rep el nom del físic italià Enrico Fermi.^[3]

Història

El 30 de setembre de 2009, Nvidia va publicar un llibre blanc que descrivia l'arquitectura: el xip compta amb 16 "multiprocessadors de streaming" cadascun amb 32 "nuclis CUDA" capaços d'una operació de precisió única per cicle o una operació de doble precisió cada altre cicle, un espai d'adreces virtuals de 40 bits que permet mapejar la memòria de l'amfitrió a l'espai d'adreces del xip, el que significa que només hi ha un tipus de punter i fa que el suport C++ sigui molt més fàcil, i una interfície de memòria GDDR5 de 384 bits d'ample. Igual que amb el G80 i el GT200, els fils estan programats en 'warps', conjunts de 32 fils cadascun que s'executen en un únic nucli de shader. Tot i que el GT200 tenia 16 KB de "memòria compartida" associada a cada clúster d'ombres, i les dades requerien que es llegissin a través de les unitats de textura si es necessitava una memòria cau, el GF100 té 64 KB de memòria associada a cada clúster, que es pot utilitzar com a 48 KB de memòria cau més 16 KB de memòria compartida, o com a memòria cau de 16 KB més 48 KB de memòria compartida, juntament amb una memòria cau L2 de 768 KB compartida pels 16 clústers.

Productes

¹ SP - Processadors Shader - Shaders unificats: unitats de mapatge de textures: unitats de sortida de renderització
² Cada Streaming Multiprocessor (SM) de la GPU de l'arquitectura GF100 conté 32 SP i 4 SFU. Cada Streaming Multiprocessor (SM) de la GPU de l'arquitectura GF104/106/108 conté 48 SP i 8 SFU. Cada SP pot complir 2 operacions de multiplicació i suma fusionada de precisió (FMA) per cicle. Cada SFU pot realitzar quatre operacions SF per cicle. Una operació FMA compta per a dues operacions de coma flotant. Per tant, el rendiment màxim teòric de precisió única, amb el recompte de shader [n] i la freqüència de shader [f, GHz], es pot estimar amb el següent, FLOPS _sp ≈ f × n × 2 (FMA). Potència de processament total: per a GF100 FLOPS _sp ≈ f × m × (32 SP × 2 (FMA) + 4 × 4 SFU) i per a GF104/106/108 FLOPS _sp ≈ f × m × (48 SP × 2 (FMA) + 4 × 8 SFU) o per a GF100 FLOPS _sp ≈ f × n × 2,5 i per a GF104/106/108 FLOPS _sp ≈ f × n × 8 / 3.

SP - Shader Processor (Unified Shader, CUDA Core), SFU - Special Function Unit, SM - Streaming Multiprocessor.

³ Cada SM del GF100 conté 4 unitats de filtratge de textura per a cada unitat d'adreça de textura. La matriu GF100 completa conté 64 unitats d'adreça de textura i 256 unitats de filtratge de textura Cada SM de l'arquitectura GF104/106/108 conté 8 unitats de filtratge de textura per a cada unitat d'adreça de textura. La matriu GF104 completa conté 64 unitats d'adreça de textura i 512 unitats de filtratge de textura, la matriu GF106 completa conté 32 unitats d'adreça de textura i 256 unitats de filtratge de textura i la matriu GF108 completa conté 16 unitats d'adreça de textura i 128 unitats de filtratge de textura.

Tots els productes es fabriquen en un procés de fabricació de 40 nm. Tots els productes admeten Direct3D 12.0 en un nivell de funció 11_0, OpenGL 4.6 i OpenCL 1.1. L'única excepció és la GeForce 405, una targeta només OEM, que es basa en el nucli GT218 (Tesla) que només admet DirectX 10.1, OpenGL 3.3 i sense suport OpenCL, i és l'única targeta de la gamma GeForce 400 que no es basa en el Microarquitectura Fermi. Pels paràmetres, la GeForce 405 és idèntica a la GeForce 310, també una targeta OEM només, que es basa en la GeForce 210. Tots els productes tenen un únic connector VGA DB15 en una targeta d'alçada i longitud completa, tret que s'indiqui el contrari.

El 8 de novembre de 2010, Nvidia va llançar el xip GF110, juntament amb el GTX 580 (reemplaçament de 480). Es tracta d'un xip GF100 redissenyat, que utilitza significativament menys energia. Això va permetre a Nvidia habilitar els 16 SM (els 16 nuclis), cosa que abans era impossible al GF100.«Nvidia GeForce GTX 580». Diverses característiques de l'arquitectura GF100 només estaven disponibles a les sèries de targetes Quadro i Tesla més cares.^[4] Per als productes de consum GeForce, el rendiment de doble precisió és una quarta part del de l'arquitectura "completa" de Fermi. La comprovació i correcció d'errors de memòria (ECC) tampoc no funciona a les targetes de consum. Les targetes GF100 proporcionen la capacitat de càlcul 2.0, mentre que les targetes GF104/106/108 proporcionen la capacitat de càlcul 2.1.

Referències

↑ «OFFICIAL: NVIDIA says GT300 on schedule for Q4 2009, yields are fine - Bright Side Of News*» (en anglès). Brightsideofnews.com, 25-09-2009. [Consulta: 20 setembre 2010].
↑ «MSN» (en anglès). [Consulta: 16 gener 2024].
↑ «https://videocardz.com/nvidia/geforce-400» (en anglès americà). [Consulta: 16 gener 2024].
↑ «Statement by NVIDIA on their General CUDA GPU Computing Discussion forum» (en anglès).

[1] «OFFICIAL: NVIDIA says GT300 on schedule for Q4 2009, yields are fine - Bright Side Of News*» (en anglès). Brightsideofnews.com, 25-09-2009. [Consulta: 20 setembre 2010].

[2] «MSN» (en anglès). [Consulta: 16 gener 2024].

[3] «https://videocardz.com/nvidia/geforce-400» (en anglès americà). [Consulta: 16 gener 2024].

[4] «Statement by NVIDIA on their General CUDA GPU Computing Discussion forum» (en anglès).

[1]

[2]

[3]

[4]