Titan (superordinador)

superordinador al Laboratori Nacional d'Oak Ridge

Titan o OLCF-3 va ser un superordinador construït per Cray al Laboratori Nacional d'Oak Ridge per utilitzar-lo en una varietat de projectes científics. Titan va ser una actualització de Jaguar, un superordinador anterior a Oak Ridge, que utilitza unitats de processament gràfic (GPU) a més de les unitats de processament central (CPU) convencionals. Titan va ser el primer híbrid d'aquest tipus a fer més de 10 petaFLOPS. L'actualització va començar l'octubre de 2011, va començar les proves d'estabilitat a l'octubre de 2012 i es va posar a disposició dels investigadors a principis de 2013. El cost inicial de l'actualització va ser de 60 milions de dòlars, finançats principalment pel Departament d'Energia dels Estats Units.[1]

Infotaula equipament informàticTitan (superordinador)

Modifica el valor a Wikidata
FabricantCray Inc.
Hewlett Packard Enterprise Modifica el valor a Wikidata
Llançament2012 Modifica el valor a Wikidata
Final de vida2020 Modifica el valor a Wikidata
Característiques de CPUs
Rendiment17.590 PFLOPS
27.112,55 PFLOPS Modifica el valor a Wikidata
Nuclis299.008 i 560.640 Modifica el valor a Wikidata
Característiques
CPUOpteron a 2,2 GHz Modifica el valor a Wikidata
Sistema operatiuUNICOS Modifica el valor a Wikidata
Id. TOP500177975
Lloc webolcf.ornl.gov… Modifica el valor a Wikidata
Jaguar Modifica el valor a Wikidata
Summit Modifica el valor a Wikidata

Titan va ser eclipsat a Oak Ridge per Summit el 2019, que va ser construït per IBM i compta amb menys nodes amb una capacitat de GPU molt més gran per node, així com una memòria cau no volàtil local per node de dades de fitxers del sistema de fitxers paral·lel del sistema.[2]

Titan va emprar CPU AMD Opteron juntament amb les GPU Nvidia Tesla per millorar l'eficiència energètica alhora que proporcionava un augment d'ordre de magnitud de la potència computacional sobre Jaguar. Va utilitzar 18.688 CPU que es van emparellar amb un nombre igual de GPU per funcionar a un màxim teòric de 27 petaFLOPS; al punt de referència LINPACK utilitzat per classificar la velocitat dels superordinadors, va tenir un rendiment de 17,59 petaFLOPS. Això va ser suficient per ocupar el primer lloc a la llista de novembre de 2012 de l'organització TOP500, però Tianhe-2 el va superar a la llista de juny de 2013.[3]

Titan estava disponible per a qualsevol propòsit científic; l'accés depèn de la importància del projecte i del seu potencial per explotar l'arquitectura híbrida. Qualsevol programa seleccionat també ha de ser executable en altres superordinadors per evitar la dependència exclusiva de Titan. Sis programes d'avantguarda van ser els primers seleccionats. S'ocupaven principalment de la física a escala molecular o els models climàtics, mentre que 25 més estaven a la cua darrere d'ells. La inclusió de GPU va obligar els autors a modificar els seus programes. Les modificacions solen augmentar el grau de paral·lelisme, atès que les GPU ofereixen molts més fils simultanis que les CPU. Els canvis sovint donen un major rendiment fins i tot en màquines només amb CPU.

Maquinari modifica

Titan utilitza els 200 armaris de Jaguar, que cobreixen 404 metres quadrats (4.352 ft2), amb components interns substituïts i xarxes actualitzades. La reutilització dels sistemes d'energia i refrigeració de Jaguar va estalviar aproximadament 20 milions de dòlars. L'alimentació es proporciona a cada armari a 480 V trifàsics. Això requereix cables més prims que l'estàndard nord-americà 208 V, estalviant 1$ milions en coure. En el seu punt àlgid, Titan treu 8,2 MW, 1.2 MW més que Jaguar, però funciona gairebé deu vegades més ràpid en termes de càlculs de coma flotant. En cas de fallada de corrent, l'emmagatzematge d'energia del volant de fibra de carboni pot mantenir la infraestructura de xarxa i emmagatzematge en funcionament fins a 16 segons. Després de 2 segons sense energia, els generadors dièsel s'encenen, triguen aproximadament 7 segons per assolir tota la potència. Poden proporcionar energia indefinidament. Els generadors estan dissenyats només per mantenir els components de xarxa i emmagatzematge alimentats de manera que un reinici sigui molt més ràpid; els generadors no són capaços d'alimentar la infraestructura de processament.[4]

Titan en té 18.688 nodes (4 nodes per blade, 24 fulles per armari), cadascun amb una CPU AMD Opteron 6274 de 16 nuclis amb 32 GB de memòria ECC DDR3 i una GPU Nvidia Tesla K20X amb 6GB de memòria ECC GDDR5. Hi ha un total de 299.008 nuclis de processador i un total de 693,6 TiB de RAM de CPU i GPU.

Inicialment, Titan va utilitzar el Jaguar 10 PB d'emmagatzematge de Lustre amb una velocitat de transferència de 240 GB/s, però l'abril de 2013, l'emmagatzematge es va actualitzar a 40 PB amb una taxa de transferència d'1,4 TB/s. Les GPU es van seleccionar per la seva eficiència de processament paral·lel molt més alta sobre les CPU. Tot i que les GPU tenen una velocitat de rellotge més lenta que les CPU, cada GPU conté 2.688 nuclis CUDA a 732 MHz, resultant en un sistema global més ràpid. En conseqüència, els nuclis de les CPU s'utilitzen per assignar tasques a les GPU en lloc de processar directament les dades com en els superordinadors convencionals.

Titan executa l'entorn Cray Linux, una versió completa de Linux als nodes d'inici de sessió als quals accedeixen directament els usuaris, però una versió més petita i eficient als nodes de càlcul.

Els components de Titan es refreden per aire mitjançant dissipadors de calor, però l'aire es refreda abans de ser bombejat a través dels armaris. El soroll del ventilador és tan fort que la protecció auditiva és necessària per a les persones que passen més de 15 minuts a la sala de màquines. El sistema té una capacitat de refrigeració de 23,2 MW (6600 tones) i funciona refrigerant l'aigua a 5,5 °C (42 °F), que al seu torn refreda l'aire recirculat.

Projectes modifica

El 2009, l'Oak Ridge Leadership Computing Facility que gestiona Titan va reduir la cinquantena d'aplicacions per al primer ús del superordinador a sis codis "d'avantguarda" escollits per la importància de la investigació i per la seva capacitat per utilitzar plenament el sistema. Els sis projectes d'avantguarda per utilitzar Titan van ser:

  • S3D, un projecte que modela la física molecular de la combustió, pretén millorar l'eficiència dels motors dièsel i biocombustible. El 2009, utilitzant Jaguar, va produir la primera simulació totalment resolta de flames d'hidrocarburs autoinflamables rellevants per a l'eficiència dels motors dièsel d'injecció directa.
  • WL-LSMS simula les interaccions entre electrons i àtoms en materials magnètics a temperatures diferents del zero absolut. Una versió anterior del codi va ser la primera a funcionar a més d'un petaFLOPS a Jaguar.
  • Denovo simula reaccions nuclears amb l'objectiu de millorar l'eficiència i reduir els residus dels reactors nuclears. El rendiment de Denovo a les màquines convencionals basades en CPU es va duplicar després dels ajustaments de Titan i funciona 3,5 vegades més ràpid a Titan que a Jaguar.
  • El simulador atòmic/molecular massivament paral·lel a gran escala (LAMMPS) és un codi de dinàmica molecular que simula partícules a una gamma d'escales, des de quàntica fins a relativista, per millorar la ciència dels materials amb aplicacions potencials en el desenvolupament de semiconductors, biomolècules i polímers.
  • CAM-SE és una combinació de dos codis: Community Atmosphere Model, un model d'atmosfera global, i High Order Method Modeling Environment, un codi que resol equacions de fluids i termodinàmiques. CAM-SE permetrà una major precisió en les simulacions climàtiques.
  • La difusió de radiació sense equilibri (NRDF) representa partícules no carregades a través de supernoves amb aplicacions potencials en fusió làser, dinàmica de fluids, imatge mèdica, reactors nuclears, emmagatzematge d'energia i combustió. El seu codi Quimera utilitza centenars d'equacions diferencials parcials per fer un seguiment de l'energia, l'angle, l'angle de dispersió i el tipus de cada neutrin modelat en una supernova d'estrella, donant lloc a milions d'equacions individuals. El codi va rebre el nom de Quimera en honor a la criatura mitològica perquè té tres "caps": el primer simula l'hidrodinàmica del material estel·lar, el segon simula el transport de radiació i el tercer simula la combustió nuclear.
  • Bonsai és un codi d'arbre gravitatori per a la simulació de n-cossos. S'ha utilitzat per a la nominació al premi Gordon Bell 2014 per simular la Via Làctia estrella per estrella, amb 200 mil milions d'estrelles. En aquesta aplicació, l'ordinador va assolir una velocitat sostinguda de 24.773 petaFlops.
  • VERA és una simulació de reactors d'aigua lleugera escrita al Consorci per a la simulació avançada de reactors d'aigua lleugera (CASL) a Jaguar. VERA permet als enginyers supervisar el rendiment i l'estat de qualsevol part del nucli d'un reactor durant tota la vida útil del reactor per identificar punts d'interès. Tot i que no era un dels sis primers projectes, es va planificar que VERA funcionés a Titan després de l'optimització amb l'assistència de CAAR i proves a TitanDev. L'informàtic Tom Evans va trobar que l'adaptació a l'arquitectura híbrida de Titan era més difícil que a superordinadors anteriors basats en CPU. El seu objectiu era simular el cicle complet del combustible d'un reactor, un procés de divuit a trenta-sis mesos, en una setmana a Tità.

Referències modifica

  1. «[https://www.olcf.ornl.gov/olcf-resources/compute-systems/titan/ Titan Advancing the Era of Accelerated Computing]» (en anglès). [Consulta: 17 març 2024].
  2. «Summit FAQs» (en anglès). ornl.gov. Oak Ridge National Laboratory, 14-11-2014. [Consulta: 15 novembre 2014].
  3. «U.S. Lab's "Titan" Named World's Fastest Supercomputer» (en anglès), 30-10-2012. [Consulta: 17 març 2024].
  4. Shimpi, Anand Lal. «Inside the Titan Supercomputer: 299K AMD x86 Cores and 18.6K NVIDIA GPUs» (en anglès). [Consulta: 17 març 2024].