Video: Nvidia could be on its way to a half-trillion dollar market cap: Analyst (Noviembre 2024)
Si bien gran parte del entusiasmo de los chips la semana pasada provino del anuncio de Broadwell de Intel, hubo una serie de otros chips discutidos en detalle en la conferencia anual Hot Chips, que ha tendido a centrarse principalmente en chips diseñados para servidores y centros de datos.
El programa es conocido por los chips de alta gama, con Intel, Oracle e IBM discutiendo sus últimas entradas, pero solo el Sparc M7 de Oracle fue realmente nuevo. En cambio, gran parte del programa terminó centrándose en productos basados en ARM, incluidos los primeros detalles de la próxima versión "Denver" de 64 bits de Nvidia de su procesador Tegra K1
Oracle, Intel e IBM apuntan alto con chips de servidor
De los chips de gama alta, las noticias más impresionantes vinieron de Oracle, que habló sobre la próxima generación de su procesador SPARC, conocido como M7. Este chip tendrá 32 núcleos S4 SPARC (cada uno con hasta ocho subprocesos dinámicos), 64 MB de caché L3, ocho controladores de memoria DDR4 (hasta 2 TB por procesador y 160 GBps de ancho de banda de memoria con DDR4-2133) y ocho aceleradores de análisis de datos conectados a través de Una red en chip.
El chip está organizado en ocho clústeres con cuatro núcleos cada uno con caché L2 compartida y 8 MB de caché L3 particionado con un ancho de banda de más de 192 GBps entre un clúster central y su caché L3 local. En comparación con el M6 (un chip de 28 nm con 12 núcleos SPARC S3 de 3.6 GHz), el M7 ofrece un rendimiento 3-3.5 veces mejor en ancho de banda de memoria, rendimiento de enteros, sistemas OLTP, Java, ERP y rendimiento de punto flotante. Stephen Phillips, director sénior de arquitectura SPARC de Oracle, dijo que el objetivo era un aumento de la función escalonada en el rendimiento, en lugar de ganancias incrementales.
El M7 puede escalar hasta 8 zócalos sin pegamento (hasta 256 núcleos, 2, 000 hilos y 16 TB de memoria), y con un conmutador ASIC para administrar el tráfico entre ellos en una configuración SMP, hasta 32 procesadores, para que pueda terminar con un sistema con 1, 024 núcleos, 8, 192 hilos y hasta 64TB de memoria. Muy impresionante. Oracle dijo que ofrece un rendimiento de 3 a 3.5 veces mejor en una variedad de pruebas, en comparación con el SPARC M6 del año pasado. La compañía dijo que esto se optimizará para la propia pila de software de Oracle, fabricada en un proceso de 20 nm y disponible en sistemas en algún momento del próximo año.
IBM también dio más detalles sobre su línea Power8, que anunció en el show del año pasado. Esa versión del chip tenía 12 núcleos, cada uno con hasta ocho subprocesos con 512 KB de caché SRAM de nivel 2 por núcleo (6 MB de L2 total) y 96 MB de DRAM incrustado compartido como caché de nivel 3. Este enorme chip, que mide 650 milímetros cuadrados con 4.200 millones de transistores, se fabrica en el proceso SOI de 22 nm de IBM y comenzó a enviarse en junio, según IBM.
Hace unos meses, IBM anunció una versión con seis núcleos que mide 362 mm 2. La charla de este año fue sobre cómo IBM puede combinar dos de las versiones de seis núcleos en un solo paquete con 48 carriles de PCIe Gen 3. IBM dijo que una versión de dos sockets con un total de 24 núcleos y 192 hilos superará a un procesador de dos procesadores Servidor Xeon Ivy Bridge con 24 núcleos (con 48 hilos). IBM vende Power principalmente en mercados especializados y de alto rendimiento, por lo que la mayoría de las personas no compararán los dos, pero es interesante. En un esfuerzo por hacer que la arquitectura Power sea más convencional, IBM anunció el año pasado el Open Power Consortium, y este año, la compañía dijo que tenía una pila completa de software de código abierto para la plataforma. Pero hasta ahora, nadie más que IBM ha anunciado un servidor basado en la plataforma.
Intel habló sobre "Ivytown", la versión del servidor de Ivy Bridge, que incluye las versiones del Xeon E5 introducidas hace un año, y el Xeon E7 presentado en febrero. La charla de este año se centró en cómo Intel ahora tiene básicamente una arquitectura que puede cubrir ambos mercados, con chips que permiten hasta 15 núcleos, dos controladores de memoria DDR3, tres enlaces QPI y 40 carriles PCI Gen 3, que están dispuestos en un piso modular plan que se puede convertir en tres troqueles diferentes, cada uno diseñado para diferentes enchufes, con un total de más de 75 variantes. Esto se puede usar en servidores de dos, cuatro y ocho sockets sin interconexiones especiales.
Estos chips, por supuesto, constituyen la mayor parte de las compras de servidores en estos días, ya que Intel representa la gran mayoría de las unidades de servidor. Pero gran parte de la información se cubrió anteriormente en ISSCC, e Intel espera presentar la próxima versión de la familia E5 (E5-1600v3 y E5-2600 v3) muy pronto, basada en una versión actualizada que utiliza una variante del Arquitectura de Haswell llamada Haswell-EP. (La semana pasada, Dell anunció nuevas estaciones de trabajo basadas en estos nuevos chips).
Intel también habló sobre su Atom C2000, conocido como Avoton, que entró en producción a fines de 2013. Este chip y los chips Ivy Bridge y Haswell se basan en el proceso de 22 nm de Intel.
Nvidia, AMD, Micro Aim aplicado en nuevos mercados para ARM
La mayor sorpresa del programa fue probablemente el enfoque en la tecnología basada en ARM, incluidas las notas clave de los altavoces ARM y los detalles de Nvidia de su próxima versión "Denver" de su procesador Tegra K1.
En una nota clave, el CTO de ARM, Mike Muller, discutió las limitaciones de energía en todo, desde sensores hasta servidores, y se centró en cómo ARM estaba tratando de expandirse en la empresa. Muller también impulsó el concepto de usar chips sensores ARM para Internet de las cosas, un tema que también se hizo eco en una nota clave de Rob Chandhok de Qualcomm. Pero ninguna de las compañías anunció nuevos núcleos o procesadores.
En cambio, la gran noticia en ese frente vino de Nvidia, que dio muchos más detalles de la nueva versión de su procesador K1. Cuando se anunció por primera vez el proyecto de la compañía en Denver, parecía que este chip iba a estar dirigido al mercado informático de alto rendimiento, pero ahora la compañía parece haberse centrado más en cosas como las tabletas y el mercado automotriz. El Tegra K1 vendrá en dos versiones. El primero, que se anunció a principios de este año y ahora se envía en la tableta Shield de la compañía, tiene cuatro núcleos ARM Cortex-A15 de 32 bits más un "núcleo complementario" de baja potencia en la configuración 4 + 1 que Nvidia ha estado implementando su línea Tegra desde hace varios años.
La versión de Denver es bastante diferente con dos nuevos núcleos patentados de 64 bits diseñados por Nvidia, y la compañía realmente está promocionando las ganancias de rendimiento que obtiene. El núcleo es superescalar de siete vías (lo que significa que puede ejecutar hasta siete microoperaciones al mismo tiempo), y tiene un caché de instrucciones L1 de cuatro vías de 128 KB y un caché de datos L1 de cuatro vías de 64 KB. El chip combina dos de estos núcleos, junto con un caché de nivel 2 de 2 MB que sirve a ambos núcleos, ya que los 192 "núcleos CUDA" (núcleos gráficos) que comparte con el K1 de 32 bits. Como tal, representa una gran desviación de la arquitectura 4 + 1.
Un gran cambio incluye lo que Nvidia llama "optimización de código dinámico", que está diseñado para tomar código ARM de uso frecuente y convertirlo en microcódigo especialmente optimizado para el procesador. Esto se almacena en 128 MB de memoria caché (extraída de la memoria principal del sistema tradicional). El objetivo es darle el rendimiento de una ejecución fuera de orden sin requerir tanta potencia como la que suele usar esa técnica. El concepto no es nuevo: Transmeta lo intentó hace años con su chip Crusoe, pero Nvidia dice que ahora funciona notablemente mejor.
Nvidia mostró varios puntos de referencia, en los que afirmó que el nuevo chip puede alcanzar un rendimiento significativamente mayor que las CPU móviles existentes de cuatro u ocho núcleos, específicamente citando Snapdragon 800 (MSM8974) de Qualcomm, el Apple A7 (a veces llamado Cyclone) utilizado en el iPhone 5s, e incluso algunos procesadores de PC convencionales. Nvidia dijo que superó al procesador Atom (Bay Trail) y que era similar al procesador Celeron (Haswell) de doble núcleo de 1.4GHz de Intel. Por supuesto, tiendo a tomar los números de rendimiento del proveedor con un grano de sal: no solo los proveedores eligen los puntos de referencia, no está del todo claro que estamos hablando de las mismas velocidades de reloj o el mismo consumo de energía.
Mientras tanto, en los chips dirigidos más a los servidores, AMD habló más sobre su Opteron A1100, conocido como "Seattle", y la compañía dijo que actualmente estaba muestreando y que debería estar disponible en los servidores a fines de este año. Este chip tiene ocho núcleos de CPU Cortex A57 de 64 bits; 4 MB de caché L2 y 8 MB de caché L3; dos canales de memoria para hasta 128 GB de memoria DDR3 o DDR4 con corrección de errores; gran cantidad de E / S integradas (8 carriles de PCIe Gen3 y SATA de 6 Gbps y dos puertos Ethernet de 10 Gbps); un "procesador de control del sistema" Cortex A5 para un arranque seguro; y un acelerador para acelerar el cifrado y descifrado. Se fabrica en el proceso de 28 nm de GlobalFoundries. AMD aún no ha dado detalles sobre la frecuencia, la potencia o el rendimiento del chip, pero mostró un diagrama básico del chip. (encima)
Applied Micro ha afirmado durante mucho tiempo que tiene el primer chip de servidor ARM en el mercado, con su X-Gene 1 (conocido como Storm) que contiene 8 núcleos ARMv8 patentados de 2.4GHZ, cuatro controladores de memoria DDR3, PCIe Gen3 y SATA de 6Gbps y Ethernet de 10Gbps. Esto se encuentra actualmente en producción en el proceso de 40 nm de TSMC, dice la compañía.
En Hot Chips, Applied Micro impulsó su diseño X-Gene 2 (Shadowcat), que estará disponible con ocho o 16 núcleos "mejorados", funcionando a velocidades de 2.4 a 2.8GHz, y agrega un host RoCE (RDMA sobre Ethernet convergente) Adaptador de canal como una interconexión diseñada para permitir conexiones de baja latencia entre grupos de microservidores. Está diseñado para usarse en clústeres, con un solo rack de servidor que admite hasta 6, 480 subprocesos y 50 TB de memoria, todos compartiendo un solo grupo de almacenamiento. La compañía dice que X-Gene 2 ofrecerá un rendimiento entero un 60 por ciento mejor, el doble de rendimiento en Memcache y un servicio web Apache un 25 por ciento mejor. Se fabrica en un proceso de 28 nm y actualmente está tomando muestras.
Applied Micro dice que el X-Gene 2 llena un vacío entre los microservidores de la competencia (Cavium ThunderX, Intel Atom C2000 "Avoton" y AMD Opteron A1100 "Seattle") y los servidores Xeon de tamaño completo. Dio algunos detalles sobre la próxima generación, el X-Gene 3 (Skylark), que está programado para comenzar a tomar muestras el próximo año. Este chip tendrá 16 núcleos ARMv8 funcionando a una velocidad de hasta 3 GHz, y se fabricará con tecnología FinFet de 16 nm.