AMD anuncia la disponibilidad de su acelerador informático Instant MI210. Diseñado como una tarjeta enchufable para conectividad PCI Express 4.0, Accelerator usa el mismo chip «Aldebaraan» con la configuración CDNA2 que ya se usa para supercomputadoras y centros de datos, como se usa en Instant MI250 y MI250X, pero en paquetes dobles. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 vatios a través del conector EPS de 12 V y deben ser enfriadas por el (fuerte) flujo de aire de la carcasa del servidor.
Las tarjetas no tienen versiones de gráficos, pero tienen enlaces para hasta cuatro tarjetas y hasta tres accesorios Infiniti Fabric para conexión compatible con caché. Estos transfieren hasta 300 GB/s entre dos GPU.
Se incluyen 64 GB de memoria local en chips de pila HBM2E, que transfieren 1,6 TB/s a 4096 líneas de datos paralelas. Memoria y caché, como es habitual en el centro de datos, protección de memoria ECC.
A pesar de tener solo una GPU, AMD quiere reemplazar el antiguo chip A100 de Nvidia de la generación de amperios y depende completamente de la potencia informática de los motores de núcleo de matriz compatibles con FP32 y FP64 de CDNA2. De acuerdo con los criterios internos del fabricante, es posible obtener un rendimiento de entre el 30 y el 110 por ciento en aplicaciones informáticas de alto rendimiento, incluidas HP Linpack, LAMMPS o nBody Solver, en comparación con el A100 de Nvidia.
El Instinct MI210 es compatible con la plataforma de software ROCm 5 de AMD y recibe controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen conectores de servidor en el formato blade de integración de tarjetas MI210 de hasta 4U.
Descripción general de CDNA2
AMD ha actualizado completamente el marco CDNA2 para la carga de trabajo de cómputo, por lo que no lleva el lastre de chip adecuado para aplicaciones gráficas, pero aún llama a los chips «matriz de cómputo de gráficos» (GCD).
La tecnología de fabricación moderna se utiliza para los chips «aldeferon». Los procesadores se fabrican en TSMC en estructuras con un mínimo de 6 nanómetros. Esto aumenta la velocidad de reloj máxima posible a 1,7 GHz y le permite instalar unidades de cómputo AMD 128, cada una con 64 procesadores de flujo, GCD. De estos, 104 están activos en el MI210, uno es el MI250 o MI250X tiene dos chips y hay un total de 208 o 220 unidades de computadora activas.
Luego están los núcleos matriciales, que pueden procesar unidades vectoriales a la misma velocidad que FP32 y FP64, pero el doble de rápido con la multiplicación matriz-matriz y la aritmética empaquetada FP32. Hasta 45.3 FP64 / Packed FP32 TFlops, superan a otros aceleradores como el A100 de Nvidia, capturan núcleos tensoriales con formatos de datos especializados como TF32 y avanzan al rango numérico completo para hipótesis de IA.
Instinto MI210 (PCIe) |
MI250X intuitivo (OAM) |
MI250 intuitivo |
Instinto MI100 (PCIe) |
A100 (SXM) |
|
Fabricante |
AMD |
AMD |
AMD |
AMD |
nvidia |
GPU |
CDNA2 Aldeferón |
2x CDNA2 Aldebarán |
2x CDNA2 Aldebarán |
CDNA Arcturo |
A100 (amperios) |
CU / SM |
104 |
220 |
208 |
120 |
108 |
FP32 colores / CU |
64 |
64 |
64 |
64 |
64 |
Núcleos FP32/GPU |
6656 |
14080 |
13312 |
7680 |
6912 |
FP64 colores / CU |
64 |
64 |
64 |
32 |
32 |
Núcleos FP64/GPU |
6656 |
14080 |
13312 |
3840 |
3456 |
Matrix Múltiples Motores / GPS |
416 |
880 |
832 |
480 |
432 |
Reloj de refuerzo de GPU |
1700 MHz |
1700 MHz |
1700 MHz |
1502 |
kA |
Máximo FP32 / FP64 TFlops |
22,6 / 22,6 |
47,9 / 47,9 |
45,3 / 45,3 |
23.07 / 11.54 |
19,5 / 9,7 |
Núcleos de tensor Peak TFlops / Motor Matrix Core |
45.3 (FP32 y FP64) |
95,7 (FP32 y FP64) |
90,5 (FP32 y FP64) |
46.1 (FP32) |
156 (TF32) / 312 (TF32 Esporosidad estructural) |
Pico FP16 / BF16 TFlops |
181/181 |
308/308 |
362/362 |
184,6 / 92,3 |
312/312 (624/624 Esporosidad estructural) |
Tapas superiores INT8 / INT4 |
kA |
308/308 |
362/362 |
184,6 / 184,6 |
624/1248 (1248/2496 Esporosidad estructural) |
Interfaz de memoria |
4096 bits HBM2E |
2 × 4096 bits HBM2E |
2 × 4096 bits HBM2E |
4096 bits HBM2 |
HBM2 de 5120 bits |
Tamaño de la memoria |
64GB |
128 gigas |
128 gigas |
32GB |
40 – 80GB |
Tasa de transferencia de memoria |
1,6 dByte/v |
3,2 dByte/v |
3,2 dByte/v |
1,2 dByte/v |
1,55 – 2,0 TByte/s |
autoedición |
300 vatios |
560 vatios (refrigeración líquida) / 500 vatios (flujo de aire) |
560 vatios (refrigeración líquida) / 500 vatios (flujo de aire) |
300 vatios |
400 vatios (SXM) |
Transistores (miles de millones) |
58 mil millones |
58 Sr. (GPU profesional) |
58 Sr. (GPU profesional) |
kA |
54 mil millones |
Producción |
6nm |
6nm |
6nm |
7nm |
7nm |
(CSP)
«Amante de los viajes extremos. Fanático del tocino. Alborotador. Introvertido. Apasionado fanático de la música».