Video: Intel 14nm Microarchitecture (Noviembre 2024)
En el Intel Developer Forum la semana pasada, varios ingenieros de Intel revelaron muchos más detalles técnicos sobre el procesador Core M, la microarquitectura general de Broadwell y el proceso de 14 nm subyacente.
Srinivas Chennupaty, ingeniero principal y arquitecto jefe de CPU, explicó que aunque Broadwell es el "tic" en la cadencia "tic / tock" de Intel (lo que significa que es principalmente un proceso de reducción a 14 nm), la microarquitectura de Broadwell se ha extendido desde la arquitectura Haswell utilizado en los productos actuales de 22 nm. Aunque la mayor parte de la presentación fue sobre la versión Core M de bajo consumo destinada a tabletas, 2 en 1 y ultrabooks sin ventilador, señaló que esta arquitectura debe admitir una amplia gama de productos desde tabletas hasta servidores Xeon.
En general, dijo que toda la arquitectura ha sido diseñada para una mejor potencia dinámica y gestión térmica, con una reducción de la potencia inactiva del sistema en chip (SoC) y un mayor rango de funcionamiento dinámico, lo que le permite trabajar en un rango más amplio de potencia. Es por eso que la versión Core M, que se reduce a una potencia total de solo 4, 5 vatios, funciona en sistemas sin ventilador.
Parte de esto se debe a la administración de energía mejorada dentro del núcleo mismo, como la forma en que puede ajustarse a varios estados de energía para que aún pueda obtener "turbo boost" cuando sea necesario sin sobrecalentar el procesador y tiene un voltaje mejorado totalmente integrado regulador (FIVR) diseñado para variar el voltaje de una manera que monitorea la demanda máxima y brinda un rendimiento mejorado a baja potencia. También ofrece una mejor supervisión de toda la solución, incluido el concentrador de controladores de plataforma (PCH) o el conjunto de chips, por lo que la PCH a su vez puede acelerar la potencia de las funciones conectadas, permitiendo que los enlaces entren en estados de baja potencia para cosas como unidades SATA, PCI Express y USB. Y tiene una gestión activa de la temperatura de la piel, por lo que el chip en sí puede controlar su temperatura y ajustar el uso de energía en consecuencia.
La microarquitectura en sí puede obtener más rendimiento que la generación anterior de Haswell a la misma frecuencia, debido a características tales como un planificador fuera de orden más grande, una mejor predicción de direcciones y una mejora en el cálculo de vectores y coma flotante.
En general, dijo, mientras que las instrucciones de un solo subproceso por ciclo aumentaron solo un poco en esta generación, todo esto se suma al punto de que el rendimiento de un solo subproceso en los últimos 7 años aumentó un 50% a la misma velocidad.
Otros cambios incluyen nuevas instrucciones para la criptografía y la seguridad, una mejor supervisión y algunas mejoras en las extensiones de memoria transaccional (conocidas como TSX o Extensiones de sincronización transaccional) y comandos de virtualización (VT-x) que estaban en la generación anterior.
El conjunto de chips PCH que acompaña al Core M se conoce como PCH-LP y en realidad se produce en el proceso de 22 nm. Esto fue diseñado para usar aproximadamente un 25% menos de energía cuando está inactivo y para reducir la potencia activa en aproximadamente un 20%. También incluye mejoras en audio y almacenamiento PCI Express.
En general, dijo, los cambios permiten el doble de reducción de potencia de lo que cabría esperar del escalado de procesos tradicional, junto con instrucciones mejoradas de un solo hilo por reloj y rendimiento vectorial.
También se han aplicado mejoras similares a los gráficos, según la ingeniera principal sénior y arquitecta de gráficos Aditya Sreenivas. Una vez más, el objetivo era mejorar el rendimiento / vatios, como una mejor potencia dinámica y características de fuga, optimizando la operación de bajo voltaje; y mejoras de microarquitectura para reducir el poder dinámico. Señaló que esto también está diseñado para funcionar a 6 y 10 vatios, quizás insinuando nuevas versiones por venir.
La arquitectura de gráficos real en sí se parece a la versión anterior, pero la versión GT2 utilizada en la implementación de Core M ha aumentado de 20 a 24 unidades de ejecución, organizadas como tres "subslices", cada una con 8 UE. (En otra charla, un ingeniero de Intel centrado en la arquitectura de cómputo dio ejemplos de versiones de los gráficos con 12 y 48 UE, sugiriendo futuras versiones).
Una diferencia importante es que esta versión es compatible con Direct X 11.2 y está preparada para DX12 y es compatible con Open GL 4.3 y Open CL 2.0. Esto debería significar que casi todos los juegos y aplicaciones deberían funcionar con los gráficos aquí, aunque no necesariamente con la misma velocidad que verías en un chip gráfico discreto. Pero en conjunto, estos cambios podrían explicar una mejora del 40% en el rendimiento gráfico en algunos casos, en comparación con la serie anterior de Haswell-Y.
Otro gran cambio es la compatibilidad con la memoria virtual compartida (SVM) en OpenCL, lo que permite que los componentes de la CPU y la GPU se utilicen para el cálculo. Este parece ser esencialmente el mismo concepto que la Arquitectura de sistema heterogéneo (HSA), según lo impulsado por AMD y otros.
La nueva arquitectura también tiene algunas mejoras en las funciones de los medios, según Intel Fellow y Jefe de Arquitectos de Medios, Hong Jiang. Dijo que el chip permite que cosas como el video Intel Quick Sync y la transcodificación de video sean "2 veces más rápidas" que la versión anterior, con una calidad mejorada. Además, ahora es compatible con la decodificación VP8, así como con AVC, VC-1, MPEG2 y MVC para video; Decodificación JPEG y Motion JPEG para videoconferencia y fotografía digital; y decodificación y codificación HEVC acelerada por GPU para hasta 4K 30 fps. Además de permitir video 4K, estos cambios deberían permitir una reproducción de video Full HD un 25% más larga.
Tecnología de proceso de 14 nm
Aunque Intel dio mucha información sobre la tecnología de proceso de 14nm anteriormente, Mark Bohr, miembro senior de Intel, Desarrollo de Tecnología Lógica, caminó a través del nuevo proceso y compartió más información.
"Al menos para Intel, la Ley de Moore continúa", dijo, mostrando una diapositiva que indica que Intel ha estado promediando una escala 0.7x de transistores cada generación durante años y que continúa haciéndolo. (Tenga en cuenta que si se escala en ambas dimensiones, obtendría un nuevo transistor que era aproximadamente un 50% del tamaño de uno de la generación anterior, que es lo que técnicamente predice la Ley de Moore).
Él habló sobre cómo esta era la segunda generación de Intel en sus transistores "Tri-Gate", luego de la introducción de 22 nm (Intel usa el término "Tri-Gate" para cubrir los transistores donde el canal se eleva sobre el sustrato, como una aleta, y el control se envuelve alrededor de los tres lados, una estructura a la que la mayoría de la industria se refiere como transistores "FinFET"). Señaló que la distancia entre las aletas se redujo de 60 nm a 42 nm en el movimiento hacia el nuevo proceso; La altura de las aletas en realidad aumentó de 34nm a 42nm. (En la diapositiva anterior, el "dieléctrico de alta k" está en amarillo; el electrodo de compuerta de metal en azul, utilizando el diseño de compuerta de alta k / metal que Intel ha estado utilizando desde su nodo de 45 nm).
En la generación de 14 nm, dijo que la dimensión crítica más pequeña era el ancho de una aleta Tri-gate, que era de aproximadamente 8 nm, mientras que otras dimensiones críticas oscilaban entre 10 nm y 42 nm (para la distancia entre el centro de una aleta al centro) del siguiente lanzamiento de aleta). Señaló que los transistores a menudo se hacen con múltiples aletas, y la reducción del número de aletas por transistor da como resultado una densidad mejorada y una capacidad más baja.
En esta generación, dijo, el tono de la aleta disminuyó en.7x (de 60 a 42nm), el tono de la puerta en.87x (de 90 a 70 nm) y el tono de interconexión en.65x (de 80 a 52nm), dando el promedio total alrededor del promedio histórico.7x. Otra forma de verlo, dijo, era multiplicar el paso de la puerta y el paso del metal, y allí dijo que Intel estaba en 0.53 para el escalado del área lógica, que dijo que era mejor de lo normal. (Por otro lado, también me interesó que las diapositivas de Bohr mostraran el procesador Core M con 1.900 millones de transistores en su tamaño de matriz de 82 mm2, en comparación con los 1.300 millones que tiene el diagrama oficial; Intel PR reconoció el error y dijo que 1.300 millones son la figura correcta)
Al observar el costo por transistor, Bohr acordó que el costo por oblea de silicio producido está aumentando debido a los pasos de enmascaramiento adicionales, con algunas capas que ahora requieren un patrón doble o incluso triple. Pero dijo que dado que el nodo de 14 nm logra un escalado de área mejor que el normal, retiene el costo normal por reducción del transistor.
De hecho, mostró gráficos que indican que Intel espera que tales reducciones continúen en el futuro. Y continuó argumentando que los cambios también están dando como resultado una menor fuga y un mayor rendimiento y, por lo tanto, un mejor rendimiento por vatio, que según él estaba mejorando a 1.6X por generación.
Señaló que al pasar del Haswell-Y al Core M, Intel habría tenido un dado que era 0.51x el tamaño del chip anterior si hubiera sido neutral en función; Con las características adicionales diseñadas en, dijo, Core M logró una escala de área de matriz de 0.63x.
Bohr dijo que 14nm ahora está en producción en volumen en Oregon y Arizona y que comenzará en Irlanda a principios del próximo año. También dijo que si bien Intel solía tener dos versiones de transistores, de alto voltaje y de fugas ultrabajas, ahora tiene un espectro de características desde alta potencia hasta mucho más bajo con diferentes transistores, pilas de interconexión, etc.
Gran parte de esto parece ser parte del empuje de Intel en el espacio de la fundición, donde fabrica chips para otras compañías. De hecho, Sunit Rikhi, el gerente general del negocio de fundición, presentó a Bohr y luego dio su propia charla mostrando todas las opciones que ofrece Intel. (A pesar de que Intel tiene tecnología avanzada, no tiene la experiencia en la fabricación de chips de baja potencia que tienen competidores como TSMC y Samsung. Por lo tanto, está enfatizando su liderazgo en la fabricación de 14 nm).
Luego viene 10nm, con Bohr diciendo que ahora estaba en la "fase de desarrollo completo" y que su "trabajo diario" estaba trabajando en el proceso de 7nm.
Dijo que estaba muy interesado en EUV (litografía ultravioleta extrema) por su potencial para mejorar la escala y simplificar el flujo del proceso, pero dijo que simplemente no estaba listo en términos de confiabilidad y capacidad de fabricación. Dijo que ni los nodos de 14nm ni los de 10nm usan esa tecnología, aunque le hubiera gustado. Dijo que Intel "no estaba apostando por él" por 7 nm y que podía fabricar chips en ese nodo sin él, aunque dijo que sería mejor y más fácil con EUV.
Bohr dijo que un cambio a obleas de 450 mm, desde el estándar de 300 mm que ahora usa toda la industria, ayudaría a reducir el costo por transistores. Sin embargo, dijo, cuesta mucho desarrollar un conjunto completo de herramientas y fabulosas nuevas y dependerá de que varias grandes empresas colaboren para lograr todo esto. Dijo que la industria no ha acordado el momento adecuado para esto, por lo que faltan varios años.
En general, dijo que todavía no veía el final en el escalado y señaló que los investigadores de Intel estaban buscando diferentes soluciones en transistores, patrones, interconexión y memoria. Dijo que últimamente hubo una serie de documentos técnicos interesantes sobre cosas como dispositivos III-V (que usan diferentes materiales semiconductores) y T-FET (transistores de efecto de campo de túnel), y que "siempre había algo interesante" por venir.