Acelerador PCIe para servidores: 64 GB disponibles con AMD Instinct MI210

AMD anuncia la disponibilidad de su acelerador informático Instant MI210. Diseñado como una tarjeta enchufable para conectividad PCI Express 4.0, Accelerator usa el mismo chip «Aldebaraan» con la configuración CDNA2 que ya se usa para supercomputadoras y centros de datos, como se usa en Instant MI250 y MI250X, pero en paquetes dobles. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 vatios a través del conector EPS de 12 V y deben ser enfriadas por el (fuerte) flujo de aire de la carcasa del servidor.

Las tarjetas no tienen versiones de gráficos, pero tienen enlaces para hasta cuatro tarjetas y hasta tres accesorios Infiniti Fabric para conexión compatible con caché. Estos transfieren hasta 300 GB/s entre dos GPU.

Se incluyen 64 GB de memoria local en chips de pila HBM2E, que transfieren 1,6 TB/s a 4096 líneas de datos paralelas. Memoria y caché, como es habitual en el centro de datos, protección de memoria ECC.

A pesar de tener solo una GPU, AMD quiere reemplazar el antiguo chip A100 de Nvidia de la generación de amperios y depende completamente de la potencia informática de los motores de núcleo de matriz compatibles con FP32 y FP64 de CDNA2. De acuerdo con los criterios internos del fabricante, es posible obtener un rendimiento de entre el 30 y el 110 por ciento en aplicaciones informáticas de alto rendimiento, incluidas HP Linpack, LAMMPS o nBody Solver, en comparación con el A100 de Nvidia.

El Instinct MI210 es compatible con la plataforma de software ROCm 5 de AMD y recibe controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen conectores de servidor en el formato blade de integración de tarjetas MI210 de hasta 4U.

READ Comprar teléfonos móviles y productos tecnológicos adicionales

Descripción general de CDNA2

AMD ha actualizado completamente el marco CDNA2 para la carga de trabajo de cómputo, por lo que no lleva el lastre de chip adecuado para aplicaciones gráficas, pero aún llama a los chips «matriz de cómputo de gráficos» (GCD).

Según AMD, el Instinct MI210 debería ser más rápido que el A100 de Nvidia, aunque solo tiene un chip CDNA2.

(Imagen: AMD)

La tecnología de fabricación moderna se utiliza para los chips «aldeferon». Los procesadores se fabrican en TSMC en estructuras con un mínimo de 6 nanómetros. Esto aumenta la velocidad de reloj máxima posible a 1,7 GHz y le permite instalar unidades de cómputo AMD 128, cada una con 64 procesadores de flujo, GCD. De estos, 104 están activos en el MI210, uno es el MI250 o MI250X tiene dos chips y hay un total de 208 o 220 unidades de computadora activas.

Luego están los núcleos matriciales, que pueden procesar unidades vectoriales a la misma velocidad que FP32 y FP64, pero el doble de rápido con la multiplicación matriz-matriz y la aritmética empaquetada FP32. Hasta 45.3 FP64 / Packed FP32 TFlops, superan a otros aceleradores como el A100 de Nvidia, capturan núcleos tensoriales con formatos de datos especializados como TF32 y avanzan al rango numérico completo para hipótesis de IA.

	Instinto MI210 (PCIe)	MI250X intuitivo (OAM)	MI250 intuitivo (OAM)	Instinto MI100 (PCIe)	A100 (SXM)
Fabricante	AMD	AMD	AMD	AMD	nvidia
GPU	CDNA2 Aldeferón	2x CDNA2 Aldebarán	2x CDNA2 Aldebarán	CDNA Arcturo	A100 (amperios)
CU / SM	104	220	208	120	108
FP32 colores / CU	64	64	64	64	64
Núcleos FP32/GPU	6656	14080	13312	7680	6912
FP64 colores / CU	64	64	64	32	32
Núcleos FP64/GPU	6656	14080	13312	3840	3456
Matrix Múltiples Motores / GPS (Motor Matrix Core / Núcleos tensoriales)	416	880	832	480	432
Reloj de refuerzo de GPU	1700 MHz	1700 MHz	1700 MHz	1502	kA
Máximo FP32 / FP64 TFlops	22,6 / 22,6	47,9 / 47,9	45,3 / 45,3	23.07 / 11.54	19,5 / 9,7
Núcleos de tensor Peak TFlops / Motor Matrix Core	45.3 (FP32 y FP64)	95,7 (FP32 y FP64)	90,5 (FP32 y FP64)	46.1 (FP32)	156 (TF32) / 312 (TF32 Esporosidad estructural)
Pico FP16 / BF16 TFlops	181/181	308/308	362/362	184,6 / 92,3	312/312 (624/624 Esporosidad estructural)
Tapas superiores INT8 / INT4	kA	308/308	362/362	184,6 / 184,6	624/1248 (1248/2496 Esporosidad estructural)
Interfaz de memoria	4096 bits HBM2E	2 × 4096 bits HBM2E	2 × 4096 bits HBM2E	4096 bits HBM2	HBM2 de 5120 bits
Tamaño de la memoria	64GB	128 gigas	128 gigas	32GB	40 – 80GB
Tasa de transferencia de memoria	1,6 dByte/v	3,2 dByte/v	3,2 dByte/v	1,2 dByte/v	1,55 – 2,0 TByte/s
autoedición	300 vatios	560 vatios (refrigeración líquida) / 500 vatios (flujo de aire)	560 vatios (refrigeración líquida) / 500 vatios (flujo de aire)	300 vatios	400 vatios (SXM)
Transistores (miles de millones)	58 mil millones	58 Sr. (GPU profesional)	58 Sr. (GPU profesional)	kA	54 mil millones
Producción	6nm	6nm	6nm	7nm	7nm