Video: Hot Chips Challenge (Noviembre 2024)
El tema más candente en informática en estos días es el aprendizaje automático, y eso es ciertamente visible en el lado del hardware. En las últimas semanas, hemos escuchado mucho sobre los nuevos chips diseñados para el aprendizaje profundo, desde el Tesla P100 y Drive PX 2 de Nvidia hasta las Unidades de procesamiento de tensor de Google y Xeon Phi de Intel. Por lo tanto, no es sorprendente que en la conferencia Hot Chips la semana pasada escuchamos de varias compañías diferentes con algunos enfoques muy diferentes de diseño adaptados al aprendizaje automático y el procesamiento de la visión.
Quizás la noticia más importante fue la revelación de Nvidia de más detalles sobre su chip Parker, utilizado en su módulo Drive PX 2 para automóviles autónomos y dirigido al aprendizaje profundo para máquinas autónomas. Este chip utiliza dos núcleos de CPU de Denver compatibles con ARM personalizados, cuatro núcleos ARM Cortex-A57 y 256 de lo que Nvidia llama núcleos Pascal CUDA (gráficos).
Nvidia dijo que este fue su primer chip diseñado y calificado para uso automotriz, con características especiales de resistencia, y habló de su velocidad y memoria más rápidas, y señaló que el núcleo de Denver proporciona una mejora significativa en el rendimiento por vatio. Entre las nuevas características están la virtualización asistida por hardware, con hasta 8 VMS para permitir la integración de las características del automóvil que tradicionalmente se realizan en computadoras separadas. En general, la compañía dijo que el modelo Drive PX 2 puede tener dos de estos chips Parker y dos GPU discretas, con un rendimiento total de 8 teraflops (doble precisión) o 24 operaciones de aprendizaje profundo (8 bits o media precisión). La compañía incluyó puntos de referencia que lo compararon favorablemente con el procesamiento móvil actual utilizando SpecInt_2000, un punto de referencia relativamente antiguo. Pero el rendimiento parece impresionante, y Volvo ha dicho recientemente que lo usará para probar vehículos autónomos a partir del próximo año.
Por supuesto, hay muchos otros enfoques.
La startup china DeePhi discutió una plataforma basada en FPGA para redes neuronales, con dos arquitecturas diferentes dependiendo del tipo de red involucrada. Aristóteles está diseñado para redes neuronales convolucionales relativamente pequeñas y se basa en el Xilinx Zynq 7000, mientras que Descartes está diseñado para redes neuronales recurrentes más grandes que usan memoria a largo plazo (RNN-LSTM), basada en el FPGA Kintex Ultrascale. DeePhi afirma que su compilador y arquitectura reducen el tiempo de desarrollo en comparación con la mayoría de los usos de FPGA y también que el uso de un FPGA puede ofrecer un mejor rendimiento que las soluciones Tegra K1 y K40 de Nvidia.
Otro enfoque es usar un procesador de señal digital o DSP, que generalmente realiza una función específica o un pequeño conjunto de funciones muy rápidamente, utilizando muy poca energía. A menudo, estos están integrados en otros chips más complejos para acelerar ciertas funciones, como el procesamiento de la visión. Varias compañías, incluidas Movidius, CEVA y Cadence, compartían sus soluciones en Hot Chips.
Movidius estaba mostrando su solución basada en DSP conocida como la unidad de procesamiento de visión Myriad 2, y la tenía en exhibición en el dron DJI Phantom 4. También mostró cómo el Myriad 2 supera a las GPU y la red neuronal profunda GoogLeNet utilizada en el concurso ImageNet 2014.
CEVA estaba promocionando su DSP CEVA-XM4 Vision, específicamente ajustado para el procesamiento de la visión y dirigido al mercado automotriz, junto con su plataforma CEVA Deep Neural Network 2, que según dijo podría tomar cualquier cosa escrita para los marcos Caffe o TensorFlow y optimizarlo para funcionar en su DSP. El nuevo procesador debería estar en SoC el próximo año.
Mientras tanto, Cadence, que fabrica la familia de procesadores de visión Tensilica (que puede integrarse en otros productos), habló sobre su versión más nueva, la Vision P6, que ha agregado nuevas características como soporte de punto flotante de vectores y otras características para redes neuronales convolucionales. Los primeros productos deberían estar disponibles en breve.
Microsoft habló sobre los detalles del hardware para sus auriculares HoloLens, y dijo que utilizó un procesador Intel Atom Cherry Trail de 14 nm con Windows 10 y un concentrador de sensor de la Unidad de Procesamiento Holográfico (HPU 1.0) personalizado, fabricado por TSMC en un proceso de 28 nm. Esto incluye 24 núcleos Tensilica DSP.
Me atrajo especialmente una de las diapositivas de Cadence que mostró las diferencias en rendimiento y eficiencia de GPU, FPGA y diferentes tipos de DSP en términos de operaciones de adición múltiple, uno de los bloques de construcción clave para las redes neuronales. Aunque obviamente es autoservicio (como lo son todas las presentaciones de proveedores), señaló cómo las diferentes técnicas varían en términos de velocidad y eficiencia (rendimiento por vatio), sin mencionar el costo y la facilidad de programación. Aquí hay muchas soluciones para diferentes enfoques, y será interesante ver cómo esto se agita en los próximos años.