Tabla de contenido:
Video: Qué es aprendizaje automático o machine learning | Nuevas tecnologías (Noviembre 2024)
En la conferencia SC16 Supercomputing de este mes, se destacaron dos tendencias. La primera es la aparición del último Xeon Phi (Knights Landing) de Intel y el último Tesla de Nvidia (el P100 basado en Pascal) en la lista Top500 de las computadoras más rápidas del mundo; ambos sistemas llegaron al top 20. El segundo es un gran énfasis en cómo los fabricantes de chips y sistemas están tomando conceptos de los sistemas modernos de aprendizaje automático y aplicándolos a las supercomputadoras.
En la revisión actual de la lista Top500, que se actualiza dos veces al año, la parte superior de la tabla todavía está firmemente en manos de la computadora Sunway TaihuLight del Centro Nacional de Supercomputación de China en Wuxi, y la computadora Tianhe-2 de la Super Computadora Nacional de China Centro en Guangzhou, como lo ha sido desde el show ISC16 de junio. Ninguna otra computadora tiene un rendimiento total cercano, con los sistemas de tercer y cuarto puesto, que siguen siendo la supercomputadora Titan en Oak Ridge y el sistema Sequoia en Lawrence Livermore, ambos entregando aproximadamente la mitad del rendimiento de Tianhe-2.
El primero de ellos se basa en un procesador chino único, el SW26010 de 1, 45 GHz, que utiliza un núcleo RISC de 64 bits. Tiene 10, 649, 600 núcleos inigualables que ofrecen 125.4 petaflops de rendimiento máximo teórico y 93 petaflops de rendimiento máximo medido en el benchmark Linpack, usando 15.4 megavatios de potencia. Cabe señalar que si bien esta máquina encabeza las listas en rendimiento de Linpack por un amplio margen, no le va tan bien en otras pruebas. Hay otros puntos de referencia, como el punto de referencia de Gradientes Conjuntos de Alto Rendimiento (HPCG), donde las máquinas tienden a ver solo del 1 al 10 por ciento de su máximo rendimiento teórico, y donde el sistema superior, en este caso, la máquina Riken K, todavía ofrece menos de 1 petaflop.
Pero las pruebas de Linpack son el estándar para hablar sobre computación de alto rendimiento (HPC) y lo que se usa para crear la lista Top500. Usando las pruebas de Linpack, la máquina No. 2, Tianhe-2, fue la No. 1 en la tabla durante los últimos años, y usa aceleradores Xeon E5 y Xeon Phi (Knights Corner). Esto ofrece 54.9 petaflops de rendimiento máximo teórico y puntos de referencia a 33.8 petaflops en Linpack. Muchos observadores creen que la prohibición de exportar las versiones más nuevas de Xeon Phi (Knights Landing) llevó a los chinos a crear su propio procesador de supercomputadora.
Knights Landing, formalmente Xeon Phi 7250, desempeñó un papel importante en los nuevos sistemas de la lista, comenzando con la supercomputadora Cori en el Lawrence Berkeley National Laboratory que llegó en quinto lugar, con un rendimiento máximo de 27.8 petaflops y un rendimiento medido de 14 petaflops. Este es un sistema Cray XC40, que utiliza la interconexión Aries. Tenga en cuenta que Knights Landing puede actuar como un procesador principal, con 68 núcleos por procesador que ofrecen 3 teraflops de pico. (Intel enumera otra versión del chip con 72 núcleos a 3, 46 teraflops de rendimiento de doble precisión teórica máxima en su lista de precios, pero ninguna de las máquinas en la lista usa esta versión, quizás porque es más cara y usa más energía).
Anteriormente, Xeon Phis solo podía funcionar como aceleradores en sistemas controlados por procesadores Xeon tradicionales. En sexto lugar se ubicó el sistema Oakforest-PACS del Centro Conjunto de Computadoras Avanzadas de Alto Rendimiento de Japón, con un puntaje de 24.9 petaflops máximos. Esto fue construido por Fujitsu, utilizando Knights Landing y la interconexión Omni-Path de Intel. Knights Landing también se usa en el sistema No. 12 (la computadora Marconi en el CINECA de Italia, construido por Lenovo y usando Omni-Path) y el sistema No. 33 (el Camphor 2 en la Universidad de Kioto de Japón, construido por Cray y usando el Aries interconexión).
Nvidia también estuvo bien representada en la nueva lista. El sistema N ° 8, Piz Daint en el Centro Nacional de Supercomputación de Suiza, se actualizó a un Cray XC50 con Xeons y la Nvidia Tesla P100, y ahora ofrece poco menos de 16 petaflops de rendimiento máximo teórico y 9.8 petaflops de rendimiento de Linpack, un gran actualizar desde los 7.8 petaflops de rendimiento máximo y 6.3 petaflops de rendimiento de Linpack en su iteración anterior basada en el Cray XC30 con aceleradores Nvidia K20x.
El otro sistema basado en P100 en la lista era el propio DGX Saturn V de Nvidia, basado en los propios sistemas DGX-1 de la compañía y una interconexión Infiniband, que figuraba en el número 28 de la lista. Tenga en cuenta que Nvidia ahora está vendiendo tanto los procesadores como el dispositivo DGX-1, que incluye software y ocho Tesla P100. El sistema DGX Saturn V, que utiliza Nvidia para la investigación interna de IA, obtiene casi 4.9 petaflops máximos y 3.3 petaflops Linpack. Pero lo que Nvidia señala es que solo usa 350 kilovatios de potencia, lo que lo hace mucho más eficiente en energía. Como resultado, este sistema encabeza la lista Green500 de los sistemas con mayor eficiencia energética. Nvidia señala que esto es considerablemente menos energía que el sistema Camphor 2 basado en Xeon Phi, que tiene un rendimiento similar (casi 5.5 petaflops pico y 3.1 petaflops Linpack).
Es una comparación interesante, con Nvidia promocionando una mejor eficiencia energética en las GPU e Intel promocionando un modelo de programación más familiar. Estoy seguro de que veremos más competencia en los años venideros, ya que las diferentes arquitecturas compiten para ver cuál de ellas será la primera en llegar a la "computación exascale" o si el enfoque interno chino llegará allí. Actualmente, el Proyecto de Computación Exascale del Departamento de Energía de los EE. UU. Espera que las primeras máquinas exascale se instalen en 2022 y comiencen a funcionar el año siguiente.
Me parece interesante notar que a pesar del énfasis en los aceleradores de muchos núcleos como las soluciones Nvidia Tesla e Intel Xeon Phi, solo 96 sistemas usan dichos aceleradores (incluidos los que usan Xeon Phi solo); a diferencia de 104 sistemas hace un año. Intel continúa siendo el mayor proveedor de chips, con sus chips en 462 de los 500 sistemas principales, seguido por los procesadores IBM Power en 22. Hewlett-Packard Enterprise creó 140 sistemas (incluidos los construidos por Silicon Graphics, que HPE adquirió), Lenovo construyó 92, y Cray 56.
Competencia de aprendizaje automático
Hubo una serie de anuncios en o alrededor del espectáculo, la mayoría de los cuales se referían a alguna forma de inteligencia artificial o aprendizaje automático. Nvidia anunció una asociación con IBM en un nuevo kit de herramientas de software de aprendizaje profundo llamado IBM PowerAI que ejecuta servidores IBM Power utilizando la interconexión NVLink de Nvidia.
AMD, que ha sido una ocurrencia tardía tanto en entornos HPC como de aprendizaje automático, está trabajando para cambiar eso. En esta área, la compañía se centró en sus propias GPU Radeon, impulsó sus GPU de servidor FirePro S9300 x2 y anunció una asociación con Google Cloud Platform para permitir su uso en la nube. Pero AMD no ha invertido tanto en software para programar GPU, ya que ha enfatizado OpenCL sobre el enfoque más exclusivo de Nvidia. En la feria, AMD presentó una nueva versión de su plataforma de cómputo abierto Radeon (ROCm) y promocionó planes para admitir sus GPU en escenarios de computación heterogéneos con múltiples CPU, incluidas sus próximas CPU "Zen" x86, arquitecturas ARM que comienzan con ThunderX de Cavium y CPU IBM Power 8.
En el show, Intel habló sobre una nueva versión de su chip Xeon E5v4 (Broadwell) actual sintonizado para cargas de trabajo de punto flotante, y cómo la próxima versión basada en la plataforma Skylake saldrá el próximo año. Pero en un evento posterior esa semana, Intel hizo una serie de anuncios diseñados para posicionar sus chips en el espacio de inteligencia artificial o aprendizaje automático. (Aquí está la opinión de ExtremeTech). Gran parte de esto tiene implicaciones para la informática de alto rendimiento, pero en su mayoría es independiente. Para empezar, además de los procesadores Xeon estándar, la compañía también está promoviendo FPGAs para hacer gran parte de la inferencia en redes neuronales. Esa es una de las principales razones por las que la compañía compró Altera recientemente, y tales FPGA ahora son utilizados por compañías como Microsoft.
Pero el enfoque en IA la semana pasada trató con algunos chips más nuevos. Primero, está Xeon Phi, donde Intel ha indicado que la versión actual de Knights Landing se complementará el próximo año con una nueva versión llamada Knights Mill, dirigida al mercado de "aprendizaje profundo". Anunciado en IDF, esta es otra versión de 14nm pero con soporte para cálculos de precisión media, que se utilizan con frecuencia en el entrenamiento de redes neuronales. De hecho, una de las grandes ventajas de los chips actuales de Nvidia en el aprendizaje profundo es su soporte para cálculos de media precisión y operaciones de enteros de 8 bits, que Nvidia a menudo se refiere como "tera-ops" de aprendizaje profundo. Intel ha dicho que Knights Mill ofrecerá hasta cuatro veces el rendimiento de Knights Landing para el aprendizaje profundo. (Este chip todavía está programado para ser seguido más tarde por una versión de 10 nm llamada Knights Hill, probablemente dirigida más al mercado de computación tradicional de alto rendimiento).
Lo más interesante para el próximo año es un diseño de Nervana, que Intel adquirió recientemente, que utiliza una variedad de clústeres de procesamiento diseñados para realizar operaciones matemáticas simples conectadas a la memoria de alto ancho de banda (HBM). Primero en esta familia será Lake Crest, que fue diseñado antes de que Intel comprara la compañía y fabricara en un proceso TSMC de 28nm. Debido a que se lanzará en versiones de prueba en el primer semestre del próximo año, Intel dice que ofrecerá un rendimiento informático más bruto que una GPU. Eventualmente, esto será seguido por Knights Crest, que de alguna manera implementa la tecnología de Nervana junto con Xeon, con detalles aún sin anunciar.
"Esperamos que las tecnologías de Nervana produzcan un aumento de rendimiento de 100 veces en los próximos tres años para entrenar redes neuronales complejas, permitiendo a los científicos de datos resolver sus mayores desafíos de inteligencia artificial más rápido", escribió el CEO de Intel, Brian Krzanich.
Intel también anunció recientemente planes para adquirir Movidius, que hace que los chips basados en DSP sean particularmente adecuados para la inferencia de visión por computadora, nuevamente, tomando decisiones basadas en modelos previamente entrenados.
Es una historia complicada y en evolución, ciertamente no tan sencilla como el impulso de Nvidia por sus GPU en todas partes. Pero lo que deja en claro es qué tan rápido está despegando el aprendizaje automático y las muchas formas diferentes en que las compañías planean abordar el problema, desde GPU como las de Nvidia y AMD, hasta muchos procesadores x86 centrales como Xeon Phi, hasta FPGA., a productos especializados para capacitación como Nervana y TrueNorth de IBM, a motores de inferencia similares a DSP personalizados como las Unidades de procesamiento de tensor de Google. Será muy interesante ver si el mercado tiene espacio para todos estos enfoques.