Acelerador PCIe para servidores: 64 GB disponibles con AMD Instinct MI210

Acelerador PCIe para servidores: 64 GB disponibles con AMD Instinct MI210

AMD anuncia la disponibilidad de su acelerador informático Instant MI210. Diseñado como una tarjeta enchufable para conectividad PCI Express 4.0, Accelerator usa el mismo chip «Aldebaraan» con la configuración CDNA2 que ya se usa para supercomputadoras y centros de datos, como se usa en Instant MI250 y MI250X, pero en paquetes dobles. Las tarjetas tienen 64 GB de memoria, absorben hasta 300 vatios a través del conector EPS de 12 V y deben ser enfriadas por el (fuerte) flujo de aire de la carcasa del servidor.

Las tarjetas no tienen versiones de gráficos, pero tienen enlaces para hasta cuatro tarjetas y hasta tres accesorios Infiniti Fabric para conexión compatible con caché. Estos transfieren hasta 300 GB/s entre dos GPU.

Se incluyen 64 GB de memoria local en chips de pila HBM2E, que transfieren 1,6 TB/s a 4096 líneas de datos paralelas. Memoria y caché, como es habitual en el centro de datos, protección de memoria ECC.

A pesar de tener solo una GPU, AMD quiere reemplazar el antiguo chip A100 de Nvidia de la generación de amperios y depende completamente de la potencia informática de los motores de núcleo de matriz compatibles con FP32 y FP64 de CDNA2. De acuerdo con los criterios internos del fabricante, es posible obtener un rendimiento de entre el 30 y el 110 por ciento en aplicaciones informáticas de alto rendimiento, incluidas HP Linpack, LAMMPS o nBody Solver, en comparación con el A100 de Nvidia.

El Instinct MI210 es compatible con la plataforma de software ROCm 5 de AMD y recibe controladores para distribuciones de Linux de 64 bits. Fabricantes como Asus, Dell, Gigabyte, HPE, Lenovo y Supermicro ofrecen conectores de servidor en el formato blade de integración de tarjetas MI210 de hasta 4U.

READ  Comprar teléfonos móviles y productos tecnológicos adicionales

Más de la revista c't

Más de la revista c't

Más de la revista c't

AMD ha actualizado completamente el marco CDNA2 para la carga de trabajo de cómputo, por lo que no lleva el lastre de chip adecuado para aplicaciones gráficas, pero aún llama a los chips «matriz de cómputo de gráficos» (GCD).

Según AMD, el Instinct MI210 debería ser más rápido que el A100 de Nvidia, aunque solo tiene un chip CDNA2.

(Imagen: AMD)

La tecnología de fabricación moderna se utiliza para los chips «aldeferon». Los procesadores se fabrican en TSMC en estructuras con un mínimo de 6 nanómetros. Esto aumenta la velocidad de reloj máxima posible a 1,7 GHz y le permite instalar unidades de cómputo AMD 128, cada una con 64 procesadores de flujo, GCD. De estos, 104 están activos en el MI210, uno es el MI250 o MI250X tiene dos chips y hay un total de 208 o 220 unidades de computadora activas.

Luego están los núcleos matriciales, que pueden procesar unidades vectoriales a la misma velocidad que FP32 y FP64, pero el doble de rápido con la multiplicación matriz-matriz y la aritmética empaquetada FP32. Hasta 45.3 FP64 / Packed FP32 TFlops, superan a otros aceleradores como el A100 de Nvidia, capturan núcleos tensoriales con formatos de datos especializados como TF32 y avanzan al rango numérico completo para hipótesis de IA.

Instinto MI210 (PCIe)

MI250X intuitivo (OAM)

MI250 intuitivo
(OAM)

Instinto MI100 (PCIe)

A100 (SXM)

Fabricante

AMD

AMD

AMD

AMD

nvidia

GPU

CDNA2 Aldeferón

2x CDNA2 Aldebarán

2x CDNA2 Aldebarán

CDNA Arcturo

A100 (amperios)

CU / SM

104

220

208

120

108

FP32 colores / CU

64

64

64

64

64

Núcleos FP32/GPU

6656

14080

13312

7680

6912

FP64 colores / CU

64

64

64

32

32

Núcleos FP64/GPU

6656

14080

13312

3840

3456

Matrix Múltiples Motores / GPS
(Motor Matrix Core / Núcleos tensoriales)

416

880

832

480

432

Reloj de refuerzo de GPU

1700 MHz

1700 MHz

1700 MHz

1502

kA

Máximo FP32 / FP64 TFlops

22,6 / 22,6

47,9 / 47,9

45,3 / 45,3

23.07 / 11.54

19,5 / 9,7

Núcleos de tensor Peak TFlops / Motor Matrix Core

45.3 (FP32 y FP64)

95,7 (FP32 y FP64)

90,5 (FP32 y FP64)

46.1 (FP32)

156 (TF32) / 312 (TF32 Esporosidad estructural)

Pico FP16 / BF16 TFlops

181/181

308/308

362/362

184,6 / 92,3

312/312 (624/624 Esporosidad estructural)

Tapas superiores INT8 / INT4

kA

308/308

362/362

184,6 / 184,6

624/1248 (1248/2496 Esporosidad estructural)

Interfaz de memoria

4096 bits HBM2E

2 × 4096 bits HBM2E

2 × 4096 bits HBM2E

4096 bits HBM2

HBM2 de 5120 bits

Tamaño de la memoria

64GB

128 gigas

128 gigas

32GB

40 – 80GB

Tasa de transferencia de memoria

1,6 dByte/v

3,2 dByte/v

3,2 dByte/v

1,2 dByte/v

1,55 – 2,0 TByte/s

autoedición

300 vatios

560 vatios (refrigeración líquida) / 500 vatios (flujo de aire)

560 vatios (refrigeración líquida) / 500 vatios (flujo de aire)

300 vatios

400 vatios (SXM)

Transistores (miles de millones)

58 mil millones

58 Sr. (GPU profesional)

58 Sr. (GPU profesional)

kA

54 mil millones

Producción

6nm

6nm

6nm

7nm

7nm


(CSP)

A la página de inicio

Recommended For You

About the Author: Leopoldo Cardenas

"Amante de los viajes extremos. Fanático del tocino. Alborotador. Introvertido. Apasionado fanático de la música".

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *