NVIDIA anuncia oficialmente Pascal GP100; 16nm FinFET con 3840 CUDA Cores y HBM2
Jen-Hsun Huang, CEO de NVIDIA, anuncio el nuevo NVIDIA Tesla P100, el acelerador mas avanzado jamas construido. Basado en el nuevo GPU NVIDIA Pascal GP100 y potenciado por nuevas tecnologías, Tesla P100 entrega un desempeño sin igual para HPC, computo técnico, aprendizaje profundo y muchas otras aplicaciones computacionalmente intensivas dentro de servidores.
La arquitectura de GPU ha sido modificada y ahora cada Streaming Multiprocesor de Pascal tendrá 64 núcleos CUDA (Maxwell tenia 128) ademas hay 60 SMx en GP100 con lo que se hace un total de 3840 CUDA Cores. Cada SM tiene 4 TMU (Texture Mapping Unit) lo que nos entrega 240 TMUs.
Cada SM tiene un radio 2:1 de unidades FP32 a FP64. Esto significa que el rendimiento FP64 ha sido enormemente mejorado comparado con Kepler y Maxwell.
El GPU esta hecho en el nodo de fabricacion Fin-FET de 16nm. GP100 entregará soporte para 16GB de memoria HBM2, el procesador tiene ocho controladores de memoria de 512-bit con un total de 4096-bit de ancho. El ancho de banda maximo reportado fue de 720GB/s.
Tambien cabe señalar de que Tesla P100 no está utilizando el chip completo.
Caracteristicas principales de GP100:
- Desempeño extremo – Potenciando HPS, Deep Learning y muchas áreas de computo de GPU
- NVLink – El nuevo interconector de NVIDIA de alta velocidad para máxima escalabilidad de aplicaciones
- HBM2 – Una arquitectura de memoria estacable de GPU mas rápida, de mas tamaño y extremadamente eficiente
- Memoria Unificada y Computo Preferente – Modelo de programación significativamente mejorado.
- 16nm FinFET – Activa mas características, mejor desempeño y una eficiencia energética superior.
Especificaciones NVIDIA GP100 |
---|
Tesla Products | Tesla K40 | Tesla M40 | Tesla P100 |
---|---|---|---|
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) |
SMs | 15 | 24 | 56 |
TPCs | 15 | 24 | 28 |
FP32 CUDA Cores / SM | 192 | 128 | 64 |
FP32 CUDA Cores / GPU | 2880 | 3072 | 3584 |
FP64 CUDA Cores / SM | 64 | 4 | 32 |
FP64 CUDA Cores / GPU | 960 | 96 | 1792 |
Base Clock | 745 MHz | 948 MHz | 1328 MHz |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz |
FP64 GFLOPs | 1680 | 213 | 5304 |
Texture Units | 240 | 192 | 224 |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 |
Memory Size | Up to 12 GB | Up to 24 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB |
TDP | 235 Watts | 250 Watts | 300 Watts |
Transistors | 7.1 billion | 8 billion | 15.3 billion |
GPU Die Size | 551 mm² | 601 mm² | 610 mm² |
Manufacturing Process | 28-nm | 28-nm | 16-nm |
Capacidades de Computo
La Capacidad de Computo ha sido actualizada a 6.0.
Capacidad de Computo |
---|
GPU | Kepler GK110 | Maxwell GM200 | Pascal GP100 |
---|---|---|---|
Compute Capability | 3.5 | 5.3 | 6.0 |
Threads / Warp | 32 | 32 | 32 |
Max Warps / Multiprocessor | 64 | 64 | 64 |
Max Threads / Multiprocessor | 2048 | 2048 | 2048 |
Max Thread Blocks / Multiprocessor | 16 | 32 | 32 |
Max 32-bit Registers / SM | 65536 | 65536 | 65536 |
Max Registers / Block | 65536 | 32768 | 65536 |
Max Registers / Thread | 255 | 255 | 255 |
Max Thread Block Size | 1024 | 1024 | 1024 |
CUDA Cores / SM | 192 | 128 | 64 |
Shared Memory Size / SM Configurations (bytes) | 16K/32K/48K | 96K | 64K |
La Arquitectura Pascal GP100: Rápida en todas las formas.
Con cada nueva arquitectura de GPU, NVIDIA introduce mejoras substanciales en el desempeño y eficiencia energética. El corazón del computo en los GPUs Tesla es el SM, o Streaming Multiprocessor. El SM, crea, administra, programa y ejecutar instrucciones de varios hilos en paralelo.
Como en anteriores GPUs Tesla, GP100 está compuesto de un arreglo de GPCs (Graphic Processing Clusters), SMs (Streaming Multiprocessors) y controladores de memoria. GP100 logra su rendimiento colosal al entregar seis GPCs, hasta 60 SMs y ocho canales de memoria de 512-bit cada uno dando un total de 4096-bit. La arquitectura computacional Pascal es más que fuerza bruta: aumenta su desempeño no solo agregando mas SMs que en GPUs anteriores, si no que también hace que cada SM sea más eficiente. Ahora, cada SM tiene 64 núcleos CUDA y cuatro unidades de textura, para un total de 3840 CUDA Cores y 240 unidades de textura.
Entregar alto desempeño y mejorar la eficiencia energética son los dos factores principales para una nueva arquitectura de GPU. Un numero de cambios en los SM de la arquitectura Maxwell hizo que se mejorara la eficiencia comparada con Kepler. Pascal se basa en esto e incorpora mejoras adicionales que aumentan el desempeño por watt incluso mas allá que Maxwell. Mientras que el proceso de manufactura de TSMC en 16nm Fin-FET juega un rol importante, muchas modificaciones arquitectónicas en el GPU fueron implementadas para reducir el consumo de energía y mantener el alto desempeño. La siguiente
Fuente: Blog de NVIDIA