NVIDIA anuncia oficialmente Pascal GP100; 16nm FinFET con 3840 CUDA Cores y HBM2

By J. Pablo Hurtado • 9 años ago • Noticias, GPU, Hardware

Jen-Hsun Huang, CEO de NVIDIA, anuncio el nuevo NVIDIA Tesla P100, el acelerador mas avanzado jamas construido. Basado en el nuevo GPU NVIDIA Pascal GP100 y potenciado por nuevas tecnologías, Tesla P100 entrega un desempeño sin igual para HPC, computo técnico, aprendizaje profundo y muchas otras aplicaciones computacionalmente intensivas dentro de servidores.

La arquitectura de GPU ha sido modificada y ahora cada Streaming Multiprocesor de Pascal tendrá 64 núcleos CUDA (Maxwell tenia 128) ademas hay 60 SMx en GP100 con lo que se hace un total de 3840 CUDA Cores. Cada SM tiene 4 TMU (Texture Mapping Unit) lo que nos entrega 240 TMUs.

Cada SM tiene un radio 2:1 de unidades FP32 a FP64. Esto significa que el rendimiento FP64 ha sido enormemente mejorado comparado con Kepler y Maxwell.

gp100_SM_diagram

El GPU esta hecho en el nodo de fabricacion Fin-FET de 16nm. GP100 entregará soporte para 16GB de memoria HBM2, el procesador tiene ocho controladores de memoria de 512-bit con un total de 4096-bit de ancho. El ancho de banda maximo reportado fue de 720GB/s.

GP100-Block-Diagram

Tambien cabe señalar de que Tesla P100 no está utilizando el chip completo.

Caracteristicas principales de GP100:

Desempeño extremo – Potenciando HPS, Deep Learning y muchas áreas de computo de GPU
NVLink – El nuevo interconector de NVIDIA de alta velocidad para máxima escalabilidad de aplicaciones
HBM2 – Una arquitectura de memoria estacable de GPU mas rápida, de mas tamaño y extremadamente eficiente
Memoria Unificada y Computo Preferente – Modelo de programación significativamente mejorado.
16nm FinFET – Activa mas características, mejor desempeño y una eficiencia energética superior.

Especificaciones NVIDIA GP100

Tesla Products	Tesla K40	Tesla M40	Tesla P100
GPU	GK110 (Kepler)	GM200 (Maxwell)	GP100 (Pascal)
SMs	15	24	56
TPCs	15	24	28
FP32 CUDA Cores / SM	192	128	64
FP32 CUDA Cores / GPU	2880	3072	3584
FP64 CUDA Cores / SM	64	4	32
FP64 CUDA Cores / GPU	960	96	1792
Base Clock	745 MHz	948 MHz	1328 MHz
GPU Boost Clock	810/875 MHz	1114 MHz	1480 MHz
FP64 GFLOPs	1680	213	5304
Texture Units	240	192	224
Memory Interface	384-bit GDDR5	384-bit GDDR5	4096-bit HBM2
Memory Size	Up to 12 GB	Up to 24 GB	16 GB
L2 Cache Size	1536 KB	3072 KB	4096 KB
Register File Size / SM	256 KB	256 KB	256 KB
Register File Size / GPU	3840 KB	6144 KB	14336 KB
TDP	235 Watts	250 Watts	300 Watts
Transistors	7.1 billion	8 billion	15.3 billion
GPU Die Size	551 mm²	601 mm²	610 mm²
Manufacturing Process	28-nm	28-nm	16-nm

Capacidades de Computo

La Capacidad de Computo ha sido actualizada a 6.0.

Capacidad de Computo

GPU	Kepler GK110	Maxwell GM200	Pascal GP100
Compute Capability	3.5	5.3	6.0
Threads / Warp	32	32	32
Max Warps / Multiprocessor	64	64	64
Max Threads / Multiprocessor	2048	2048	2048
Max Thread Blocks / Multiprocessor	16	32	32
Max 32-bit Registers / SM	65536	65536	65536
Max Registers / Block	65536	32768	65536
Max Registers / Thread	255	255	255
Max Thread Block Size	1024	1024	1024
CUDA Cores / SM	192	128	64
Shared Memory Size / SM Configurations (bytes)	16K/32K/48K	96K	64K

NVIDIA blog:

La Arquitectura Pascal GP100: Rápida en todas las formas.

Con cada nueva arquitectura de GPU, NVIDIA introduce mejoras substanciales en el desempeño y eficiencia energética. El corazón del computo en los GPUs Tesla es el SM, o Streaming Multiprocessor. El SM, crea, administra, programa y ejecutar instrucciones de varios hilos en paralelo.

Como en anteriores GPUs Tesla, GP100 está compuesto de un arreglo de GPCs (Graphic Processing Clusters), SMs (Streaming Multiprocessors) y controladores de memoria. GP100 logra su rendimiento colosal al entregar seis GPCs, hasta 60 SMs y ocho canales de memoria de 512-bit cada uno dando un total de 4096-bit. La arquitectura computacional Pascal es más que fuerza bruta: aumenta su desempeño no solo agregando mas SMs que en GPUs anteriores, si no que también hace que cada SM sea más eficiente. Ahora, cada SM tiene 64 núcleos CUDA y cuatro unidades de textura, para un total de 3840 CUDA Cores y 240 unidades de textura.

Entregar alto desempeño y mejorar la eficiencia energética son los dos factores principales para una nueva arquitectura de GPU. Un numero de cambios en los SM de la arquitectura Maxwell hizo que se mejorara la eficiencia comparada con Kepler. Pascal se basa en esto e incorpora mejoras adicionales que aumentan el desempeño por watt incluso mas allá que Maxwell. Mientras que el proceso de manufactura de TSMC en 16nm Fin-FET juega un rol importante, muchas modificaciones arquitectónicas en el GPU fueron implementadas para reducir el consumo de energía y mantener el alto desempeño. La siguiente

2016-04-05-19_23_53-NVIDIA-Events-on-USTREAM_-For-more-than-two-decades-NVIDIA-has-pioneered-visual

Pascal-HBM2

NVIDIA-P100

Fuente: Blog de NVIDIA

Corporativo

Contenido