Video: LG CNS uses Google Cloud IoT and Edge TPU (Noviembre 2024)
En las últimas semanas, ha habido una serie de introducciones importantes de nuevas plataformas informáticas diseñadas específicamente para trabajar en redes neuronales profundas para el aprendizaje automático, incluidos los nuevos "TPU en la nube" de Google y el nuevo diseño Volta de Nvidia.
Para mí, esta es la tendencia más interesante en la arquitectura de computadoras, incluso más que AMD y ahora Intel presenta CPU de 16 y 18 núcleos. Por supuesto, hay otros enfoques alternativos, pero Nvidia y Google están mereciendo mucha atención por sus enfoques únicos.
En Google I / O, lo vi introducir una "TPU en la nube" (para la Unidad de Procesamiento de Tensor, lo que indica que está optimizado para el marco de aprendizaje automático TensorFlow de Google). El TPU de la generación anterior, presentado en el show del año pasado, es un ASIC diseñado principalmente para inferencia (operaciones de aprendizaje automático), pero la nueva versión está diseñada para inferenciar y entrenar tales algoritmos.
En un artículo reciente, Google dio más detalles sobre el TPU original, que describió como que contiene una matriz de unidades de acumulación múltiple (MAC) de 256 por 256 (65.536 en total) con un rendimiento máximo de 92 teraops (billones de operaciones por segundo). Obtiene sus instrucciones de una CPU host a través del bus PCIe Gen 3. Google dijo que este era un troquel de 28 nm que tenía menos de la mitad del tamaño de un procesador Intel Haswell Xeon de 22 nm, y que superó a ese procesador y al procesador K80 de 28 nm de Nvidia.
La nueva versión, denominada TPU 2.0 o TPU en la nube (vista arriba), en realidad contiene cuatro procesadores en el tablero, y Google dijo que cada tablero es capaz de alcanzar 180 teraflops (180 billones de operaciones de punto flotante por segundo). Igualmente importante, las placas están diseñadas para funcionar juntas, utilizando una red personalizada de alta velocidad, por lo que actúan como una supercomputación de aprendizaje automático que Google llama un "pod TPU".
Este módulo de TPU contiene 64 TPU de segunda generación y proporciona hasta 11.5 petaflops para acelerar el entrenamiento de un solo modelo grande de aprendizaje automático. En la conferencia, Fei Fei Li, quien dirige la investigación de inteligencia artificial de Google, dijo que si bien uno de los modelos de aprendizaje a gran escala para la traducción de la compañía toma un día completo para capacitarse en 32 de las mejores GPU disponibles comercialmente, ahora puede capacitarse para misma precisión en una tarde usando un octavo de una cápsula de TPU. Eso es un gran salto.
Comprenda que estos no son sistemas pequeños: un Pod parece tener aproximadamente el tamaño de cuatro bastidores informáticos normales.
Y cada uno de los procesadores individuales parece tener disipadores de calor muy grandes, lo que significa que las placas no pueden apilarse demasiado. Google aún no ha dado muchos detalles sobre lo que ha cambiado en esta versión de los procesadores o la interconexión, pero es probable que esto también se base en MAC de 8 bits.
La semana anterior, Nvidia presentó su última entrada en esta categoría, un chip masivo conocido como Telsa V100 Volta, que describió como la primera CPU con esta nueva arquitectura Volta, diseñada para GPU de alta gama.
Nvidia dijo que el nuevo chip es capaz de 120 teraflops TensorFlow (o 15 TFLOPS de 32 bits o 7.5 de 64 bits). Esto utiliza una nueva arquitectura que incluye 80 Multiprocesadores de transmisión, cada uno de los cuales incluye ocho nuevos "núcleos tensoriales" y es una matriz 4x4x4 capaz de realizar 64 operaciones FMA (Fusion Multiply-Add) por reloj. Nvidia dijo que ofrecerá el chip en sus estaciones de trabajo DGX-1V con 8 placas V100 en el tercer trimestre, siguiendo el anterior DGX-1 de la empresa que utilizó la arquitectura P100 anterior.
La compañía dijo que esta caja de $ 149, 000 debería ofrecer 960 teraflops de rendimiento de entrenamiento, usando 3200 vatios. Más tarde, según el primero, enviaría una estación DGX personal con cuatro V100 y, en el cuarto trimestre, dijo que los grandes vendedores de servidores enviarán servidores V100.
Este chip es el primero anunciado en usar el procesador de 12nm de TSMC, y será un chip enorme con 21.1 mil millones de transistores en un dado de 815 milímetros cuadrados. Nvidia citó tanto a Microsoft como a Amazon como primeros clientes del chip.
Tenga en cuenta que hay grandes diferencias entre estos enfoques. Los TPU de Google son chips realmente personalizados, diseñados para aplicaciones TensorFlow, mientras que el Nvidia V100 es un chip algo más general, capaz de diferentes tipos de matemática para otras aplicaciones.
Mientras tanto, los otros grandes proveedores de la nube están buscando alternativas, con Microsoft usando tanto GPU para capacitación como arreglos de puerta programables en campo (FPGA) para hacer inferencias, y ofreciendo ambos a los clientes. Amazon Web Services ahora pone a disposición de los desarrolladores instancias de GPU y FPGA. E Intel ha estado impulsando FPGA y una gran cantidad de otras técnicas. Mientras tanto, una serie de nuevas empresas están trabajando en enfoques alternativos.
De alguna manera, este es el cambio más drástico que hemos visto en estaciones de trabajo y procesadores de servidores en años, al menos desde que los desarrolladores comenzaron a usar "cómputo GPU" hace varios años. Será fascinante ver cómo se desarrolla esto.