Aunque AMD no ha lanzado la segunda generación de APU Trinity del todo, faltando sus versiones desktop, la compañía ya trabaja en su sucesor Kaveri. De esta tercera generación APU, que fue desvelada por primera vez en la Financial Analyst Day  2012, ya sabemos muchos detalles importantes y queremos repasarlos en este artículo, especulando con unos cuantos datos las interesantes  características faltantes.

Después de un altibajo 2011, con el lanzamiento de la primera generación de APUs y la polémica nueva arquitectura Bulldozer, AMD ha encontrado la forma de unir estos dos sucesos con Trinity. Este nuevo APU fue lanzado el 15 de mayo para las versiones móviles y poco a poco se ha masificado, esperando sobrepasar a Llano con 40 millones de chips vendidos. Pero la compañía no espera que la segunda generación de APUs permanezca mucho tiempo en el mercado y sea rival para los nuevos chips Haswell de Intel, por ello el 2013 será el año en que veamos a la tercera generación de APUs de AMD con el nombre código Kaveri.

La tercera generación de APUs “Kaveri”

 

Kaveri fue presentado a principios de año en la Financial Analyst Day 2012, donde se le nombró junto a los nuevos GPU “Sea Island” (serie HD 8000), los APU de bajo consumo “Kabini” y los APU de ultra bajo consumo “Temash”, estos últimos la evolución de la plataforma Brazos. Todos estos productos, fabricados en 28 nm, serán lanzados este 2013 prácticamente en mismo orden; Nueva serie gráfica HD 8000 a inicios de año, la tercera generación de APUs el Q2 y los APU de bajo y ultra bajo consumo en la segunda mitad del año.

El producto principal para AMD, sin duda, continuarán siendo sus APU, en especial Kaveri para portátiles. Este chip habitará en cientos de equipos notebooks y ultrathins. Pero ¿De que estará compuesto Kaveri? AMD ya lo reveló. El lado CPU poseerá 4 núcleos (en los chips tope de línea) de la nueva arquitectura steamroller (evolución de Pelidriver), junto a un poderoso GPU con arquitectura GCN, la misma que vemos en la actual serie gráfica HD 7000. Tanto Steamroller como GCN brindarán a Kabini un mayor performace.

 AMD tendrá este 2013 un proceso en 28 nm unificado para todos sus chips

De Pelidriver a Steamroller


Actualmente AMD ha logrado optimizar su arquitectura modular desde Bulldozer a Pelidriver. Esta optimización la hemos visto en el APU Trinity, donde la potencia del IPC (instrucciones por clock) ha mejorado entre un 10 a un 15% y menores fugas eléctricas le han dado un menor consumo, logrando un chip mucho más equilibrado. Pero a Pelidriver aun le falta una mayor optimización que le permita tener una potencia real que rivalice con Intel y sus Ivy Bridge. Este núcleo aun sienta sus bases en Bulldozer, por lo que tiene deficiencias de la arquitectura original. Este “pulido de impurezas” llegará en mayor medida con Steamroller, chip que recivirá un par de optimizaciones, nuevas instrucciones y al que se le agregará una mayor potencia en calculo paralelo. Esto tiene mucho que ver con la integración en el uso del GPU en tareas compartidas, algo que AMD ha comenzado a llamar HSA. “Hetereogeneous System Architecture” (HSA), pretende darle un mayor protagonismo al GPU, o en otras palabras le dará una mayor potencia al APU, en si, en tareas que hoy son propiamente tal del CPU.

Uno de los rumores con los que cuenta Kaveri, es el uso de memoria compartida entre el CPU y GPU. Una característica que vendría a aumentar los recursos compartidos entre los núcleos, aumentando el rendimiento en paralelo y que va muy ligado al concepto HSA.

Steamroller, un paso antes del gran salto a Excavator

Las buenas frecuencias de Bulldozer permitirán a Steamroller mantener e incluso aumentar los clocks de trabajo, por lo que AMD ya nos adelanta que su chip podrá gozar de frecuencias de 4 GHz. Aun es posible que, gracias a las optimizaciones de la arquitectura, un nuevo proceso más reducido y un uso más maduro de la tecnología  “Resonant Clock Mesh” (que en Pelidriver permite entre un 10 a un 24% de ahorro energético), le permitan a Steamroller aumentar sus frecuencias. Pero posiblemente AMD prefiera mantener chips menos consumidores, dado el escenario actual que gira en la potabilidad, o le de más enfasis al gran GPU que Steamroller tendrá a su lado. Todo dependerá de que tan bueno le “calce” el proceso en 28 nm.

El paso de los 32 nm a los 28 nm

AMD el 2011 dio el gran paso a los 32 nm, proceso por el cual fueron construidos sus primeros APU de alto rendimiento y sus chips FX (Bulldozer). Este paso fue costoso para AMD y no le permitió alcanzar el éxito óptimo con sus primeros  APU, al tener problemas con el stock de chip y rendimiento del mismo (se esperaba mayores frecuencias tanto en el CPU y GPU ). Incluso este forzoso paso a los 32 nm fue uno de los factores del bajo rendimiento de Bulldozer, el que no alcanzó un estado maduro y tuvo muchas fugas de energía, mermando un consumo adecuado como espacios muertos e inoperativos dentro del chip.

Ahora AMD quiere dar el salto a los 28 nm, un nuevo proceso al cual se están adaptando los fabricantes y que espera alcanzar la cúspide el año 2013. AMD no quiere tener los mismos problemas en este salto entre procesos y los altos ejecutivos de AMD ya han reconocido estos costosos pasos, por lo que la compañía podrá estar más preparada en esta ocasión. Ya no hay nuevas arquitecturas ni GPUs que adaptar al nuevo proceso. Por otro lado AMD ya tiene la experiencia con chips gráficos en 28 nm y Steamroller no será una arquitectura completamente nueva, y como dijimos, todos los fabricantes (a excepción de Intel) trabajaran a toda maquina en el proceso de 28 nm. El fantasma del paso de los 45 nm a los 32 nm podrá quedar en el pasado para AMD y GlobalFoundries, compañía aliada de AMD y por donde hoy se fabrican sus APU.

Los 28 nm permitirán optimizar a Kaveri, sobretodo en la reducción de espacios, mejora de la arquitectura y le darán un menor consumo.

384 cores VLIW 4 a 512 cores GCN

Para AMD el núcleo gráfico integrado en sus APUs nunca ha sido el problema para balancear el rendimiento del chip. De hecho es la principal característica. En el primer APU de alto rendimiento, Llano, AMD integró 400 unidades Stream procesors (SP), o ahora llamados de forma “marketera” Radeon cores. Estos pequeños núcleos poseían en su estructura las bases de la arquitectura VLIW 5 con la que AMD trabajó y optimizó durante largo años hasta la serie HD 5000. Luego, la nueva serie HD 6900 dio paso a la arquitectura VLIW 4, arquitectura que se usó para construir el núcleo gráfico de Trinity. En este APU vemos 384 SP, los que si bien son menores al de los visto en su antecesor, no poseen el mismo rendimiento. VLIW 4 es una arquitectura optimizada y su organización de unidades SP es mejor, gracias a un mayor número de unidades SIMD. En Llano las 80 unidades SP daban vida a una SIMD, por lo que el GPU contaba con 5 de ellas. En Trinity la mejor organización de los SP permiten llegar a 6 unidades SIMD, ya que sólo se necesitan 64 SP para cada SIMD, totalizando 6 de estas unidades. La optimización del núcleo gráfico, la mayor frecuencia y las 6 unidades SIMD le dan a Trinity un mejor rendimiento gráfico que Llano. Pues bien, ahora Kaveri apunta a aumentar nuevamente los SP y unidades SIMD, según lo que nos detalló AMD.

8 CU son los que AMD calcula que tendrá Kaveri

Con la actual arquitectura GCN AMD introdujo nuevas optimizaciones y reorganizó su chip, manteniendo similitudes con VLIW 4, la que a su vez mantenía similitudes con VLIW 5. GCN introdujo una nueva unidad llamada Compute Unit (CU), esta unidad reemplaza a la SIMD, pero mantiene el mismo número de SP para conformarla. 8 CU (o SIMD) son los que contendrá Kaveri en su interior totalizando los 512 SP, un 33% más . Un aumento considerable, pesando que con Triniry AMD no aumento el número de estas unidades y para Kaveri se esperan frecuencias mayores de trabajo.

A modo de potencia referencial que podría poseer el APU Kaveri en el apartado gráfico, tenemos que los 512 SP son los mismos que usa una actual HD 7750, por lo que el rendimiento sería muy similar a esta tarjeta actual. Esto sin considerar la frecuencia de trabajo, que para la HD 7750 es de 860 MHz y para el APU Kaveri son unos teóricos 900MHz.

¿1 TFLOP de potencia?

AMD califica a sus APU con  la potencia combinada en GFLOPs de su CPU y GPU usando la siguiente formula:

 (CPU Cores x freq x 8 FLOPS) + (GPU Cores x freq x 2 FLOPS)

Con esta formula es fácil calcular por matemáticas lo que AMD espera en frecuencias, tanto en el CPU como en el GPU. Sabemos que Kaveri contendrá 512 SP y poseerá 4 núcleos por lo que adherimos estas factores en la formula y nos daría lo siguente:

(4 CPU Cores x freq x 8 FLOPS) + (512 GPU Cores x freq x 2 FLOPS) = X GFLOPS

Ahora resumimos de forma sencilla en una ecuación y descubrimos que la frecuencia del CPU es 4 GHz y la frecuencia del GPU es de 900 MHz. Esto nos da los 1050 GFLOPs que AMD espera de su APU Kaveri este 2013.

(4 CPU Cores x 4 GHz x 8 FLOPS) + (512 GPU Cores x 0,9 GHz x 2 FLOPS) = 1050 GFLOPS

Obviamente esto sería en teoría lo que espera AMD (dependiendo en gran medida de la frecuencia que espera de sus chips en 28 nm), pero dado el caso de Trinity, donde se esperaban cerca de 819 GFLOPS de potencia y que finalmente se obtuvieron 736 GLOPs (nuevamente fallaron las frecuencias de trabajo en el calculo final), es de esperar que la tercera generación de APUs Kaveri vea reducida la potencia real.

FLOPS es el acrónimo de Floating point Operations Per Second (operaciones en coma flotante por segundo). Se usa como una medida del rendimiento de una computadora, especialmente en cálculos científicos que requieren un gran uso de operaciones de punto flotante. 

 AMD espera obtener una potencia de 1050 GLOPs en sus APU Kaveri. Sería el primer APU con potencia combinada entre CPU y GPU que sobrepasa la unidad TeraFlops. 

Sin duda, los GFLOPS con los que AMD clasifica el rendimiento de sus APUs, no son exactamente una unidad de medida real. Pero sí nos entregan un punto de referencia y de comparación entre APUs. Kaveri sería un 40 % más potente que Trinity en este apartado.

Resumiendo…

Finalmente, recopilamos los datos que nos ayudarán a comparar a Kaveri con los APUs antecesores. A continuación la tabla comparativa.

Kaveri Trinity
Llano
Fabricación 28 nm 32 nm 32 nm
Núcleos GPU (SP)
512 384 400
Arquitectura GPU GCN VLIW 4 VLIW 5
CU/ SIMD 8 6 5
Frecuencias GPU ~900 MHz 800 MHz 600 MHz
Núcleos CPU 4 4
Arquitectura CPU Steamroller Pelidriver Husky
Frecuencias CPU ~4 GHz 3,8 GHz 3 GHz
Soporte DDR3 2133 MHz 1866 MHz 1866 MHz
TDP 100W 100W 100W
Tamaño ~200 mm² 244 mm² 218 mm²
Transistores (Mill.) ~1800M 1303M 1178M
GFLOPs  1050 736 576

 Para los datos de tamaño y cantidad de transistores se uso un valor aproximado, basado en un núcleo “Cape Verde” (HD 7750) con 512 SP el que nos entrega alrededor de 100 mm² y 1200M de transistores. El GPU ya ocupa cerca del 50% de espacio en Trinity, por lo que en Kaveri (sobre todo con un aumento en la cantidad de SP) el espacio entre controlador de memoria y CPU ya estaría limitado alrededor o menor al 50%.

A pesar de que hemos especulado en algunos datos, se han encontrado razones fundamentadas en la información entregada por AMD, y creémos que los valores finales podrían ser muy similares a los entregados en este artículo. Por otro lado AMD debe trabajar muy a conciencia el GPU y no descuidarlo, por que si bien, como dijimos en un inicio, el GPU es la parte más llamativa del APU, este puede encontrarse con una gran competencia este 2013 con Haswell de Intel. Por ello sería un suicidio que AMD mantuviera la actual cantidad de SP y sólo aumentara la frecuencia sobrepasando el GHz (con 1,2 GHz en el GPU y 384 SP mantiene la potencia de 1050 GLOPS esperada). Esto no le significaría un aumento considerable de rendimiento como el que entregaría un GPU más robusto con 512 SP. Por otro lado su CPU viene a aportar un mejor rendimiento, escapándose del fantasma de Bulldozer, pero mantendrá una acción secundaría apoyando al GPU en rendimiento y menor consumo.

Esperamos que AMD se mantenga en forma para dar este 2013 una buena competencia en un mercado plagado de compañías que quieren su pedazo de la torta.