Tabla de contenido:
Video: CASO ORACLE: El Negocio de las Bases de Datos (Noviembre 2024)
Los datos y la inteligencia empresarial (BI) son dos caras de la misma moneda. Los avances en almacenamiento, procesamiento y análisis han democratizado los datos hasta el punto de que no es necesario ser un profesional de bases de datos o un científico de datos para trabajar con conjuntos de datos masivos y obtener información. Todavía hay una curva de aprendizaje, pero las herramientas de autoservicio de BI y visualización de datos están redefiniendo la forma en que las empresas aprovechan todos los datos que recopilan en análisis accionables. Sin embargo, existe una diferencia entre una empresa de BI o de bases de datos que ofrece análisis avanzados y una base de datos de inteligencia artificial (IA) diseñada específicamente para el entrenamiento de aprendizaje automático (ML) y modelos de aprendizaje profundo.
Los algoritmos de ML están entretejidos en la estructura de gran parte del software actual. Las experiencias de los consumidores se están fusionando con la inteligencia artificial a través de asistentes virtuales y, en el software empresarial, hay ejemplos como Salesforce Einstein que actúan como una capa inteligente debajo de la cartera completa de gestión de relaciones con clientes (CRM) de la compañía. Los gigantes de la tecnología, incluidos Google y Microsoft, están impulsando nuestro futuro inteligente aún más, no solo con la investigación, sino al reescribir cómo funciona su tecnología desde cero con la IA.
Uno de los desafíos con la máquina de entrenamiento y los modelos de aprendizaje profundo es el gran volumen de datos y la potencia de procesamiento que necesita para entrenar una red neuronal, por ejemplo, en el reconocimiento de patrones complejos en campos como la clasificación de imágenes o el procesamiento del lenguaje natural (PNL). Por lo tanto, las bases de datos de IA están comenzando a aparecer en el mercado como una forma de optimizar el proceso de aprendizaje y capacitación de IA para las empresas. Hablamos con el proveedor de bases de datos relacionales acelerado por GPU Kinetica, que ha construido una base de datos de inteligencia artificial propia, y la experta de BI y base de datos residente de PCMag, Pam Baker, para desmitificar qué es una base de datos de inteligencia artificial y cómo funciona en comparación con las bases de datos tradicionales. Más importante aún, solicitamos su ayuda para analizar las exageraciones y el marketing para determinar si esta tecnología emergente tiene o no un valor comercial real.
¿Qué son las bases de datos de IA?
La naturaleza rápidamente cambiante del espacio de IA puede dificultar el establecimiento de terminología. A menudo escuchas términos como ML, aprendizaje profundo e IA utilizados indistintamente cuando, de hecho, todavía están desarrollando técnicas bajo el paraguas más amplio de la IA. Como tal, Baker dijo que hay dos definiciones muy diferentes de lo que es una base de datos de IA dependiendo de con quién hable: una práctica y la otra más sencilla.
"Existe una especie de consenso flexible en la industria de que una base de datos de inteligencia artificial sería una que funcionaría completamente a partir de consultas en lenguaje natural. La interfaz de usuario sería tal que no tendría que depender de términos de búsqueda y frases clave para encontrar el información que necesita, lo que permite al usuario convocar conjuntos de datos con PNL ", dijo Baker. "Podría argumentar de manera muy limitada que IBM Watson puede plantear consultas en lenguaje natural al sistema, pero ya debe estar conectado a los datos y elegir los datos usted mismo. Entonces, en este momento, esa definición es una exageración".
La definición más práctica, y el tema de este explicador, es esencialmente usar una base de datos especialmente diseñada para acelerar la capacitación del modelo ML. Varias compañías tecnológicas ya están desarrollando chips dedicados de inteligencia artificial para aliviar la gran carga de procesamiento en nuevos productos de hardware a medida que los proveedores implementan más funciones basadas en inteligencia artificial que requieren una potencia de procesamiento significativa. En el lado de los datos, el uso de una base de datos de inteligencia artificial puede ayudarlo a lidiar mejor con el volumen, la velocidad y los complejos desafíos de gobernanza y gestión de datos asociados con la capacitación de ML y modelos de aprendizaje profundo para ahorrar tiempo y optimizar recursos.
Crédito de la imagen: Todd Jaquith en Futurism.com. Haga clic para ampliar la infografía completa
"En este momento hay muchos esfuerzos para acelerar el entrenamiento de ML a través de varias tácticas diferentes", explicó Baker. "Una es separar la infraestructura de los investigadores de IA que realizan la codificación, de modo que las funciones automatizadas manejen la infraestructura y capaciten al modelo ML. Por lo tanto, en lugar de gastar algo así como tres meses, es posible que esté considerando 30 días o 30 minutos"."
Kinetica divide esa idea en una plataforma de base de datos integrada optimizada para ML y modelado de aprendizaje profundo. La base de datos de IA combina el almacenamiento de datos, análisis avanzados y visualizaciones en una base de datos en memoria. Mate Radalj, vicepresidente e ingeniero de software principal del grupo de tecnología avanzada de Kinetica, explicó que una base de datos de inteligencia artificial debería ser capaz de ingerir, explorar, analizar y visualizar simultáneamente datos complejos y rápidos en milisegundos. El objetivo es reducir costos, generar nuevos ingresos e integrar modelos de LA para que las empresas puedan tomar decisiones más eficientes y basadas en datos.
"Una base de datos de IA es un subconjunto de una base de datos general", dijo Radalj. "En este momento, las bases de datos de IA son muy populares. Pero muchas soluciones usan componentes distribuidos. Spark, MapReduce y HDFS siempre están girando de un lado a otro en lugar de en la memoria. No tienen la confluencia de factores como nuestra base de datos, que se construyó desde cero con CPU y GPU estrechamente integradas en una sola plataforma. El beneficio de alto nivel para nosotros es un aprovisionamiento más rápido y una menor huella de hardware de capacitación basada en modelos, con una respuesta rápida y análisis integrados en la misma plataforma."
Cómo funciona una base de datos de IA
Hay varios ejemplos de bases de datos de IA en la práctica. Microsoft Batch AI ofrece infraestructura basada en la nube para entrenar modelos de aprendizaje profundo y ML que se ejecutan en GPU de Microsoft Azure. La compañía también tiene su producto Azure Data Lake para facilitar que las empresas y los científicos de datos procesen y analicen datos en una arquitectura distribuida.
Otro ejemplo es el enfoque AutoML de Google, que fundamentalmente está rediseñando la forma en que se entrenan los modelos ML. Google AutoML automatiza el diseño del modelo ML para generar nuevas arquitecturas de redes neuronales basadas en conjuntos de datos particulares, y luego probar e iterar esas miles de veces para codificar mejores sistemas. De hecho, la IA de Google ahora puede crear mejores modelos que los investigadores humanos.
"Mire Google AutoML: ML escribiendo código ML para que ni siquiera necesite personas", dijo Baker. "Esto le da una idea de la gran diferencia que hay en lo que están haciendo los proveedores. Algunos están tratando de pasar la analítica avanzada como ML, y no lo es. Y otros están haciendo ML a un nivel tan avanzado que está más allá de lo que la mayoría las empresas pueden comprender en este momento ".
Luego está Kinetica. La startup con sede en San Francisco, que ha recaudado $ 63 millones en fondos de capital de riesgo (VC), proporciona una base de datos SQL de alto rendimiento optimizada para una rápida ingesta de datos y análisis. Kinetica es lo que Radalj describió como una plataforma de computación y base de datos distribuida de procesamiento paralelo masivo (MPP) en la que cada nodo presenta datos en la memoria compartida, CPU y GPU.
Radalj explicó que lo que hace que una base de datos de IA sea diferente de una base de datos tradicional se reduce a tres elementos principales:
- Ingestión acelerada de datos,
- Co-localidad de datos en memoria (procesamiento paralelo en los nodos de la base de datos), y
- Una plataforma común para científicos de datos, ingenieros de software y administradores de bases de datos para iterar y probar modelos más rápido y aplicar resultados directamente a análisis.
Para todos los expertos en capacitación de modelos de IA que no son bases de datos que leen esto, Radalj desglosó cada uno de estos tres elementos centrales y explicó cómo la base de datos de IA se vincula con un valor comercial tangible. La disponibilidad de datos y la ingestión de datos son clave, dijo, porque la capacidad de procesar datos de transmisión en tiempo real permite a las empresas tomar medidas rápidas sobre las ideas impulsadas por la inteligencia artificial.
"Tenemos un cliente minorista que quería rastrear las tasas de venta por tienda, cada cinco minutos", dijo Radalj. "Queríamos usar IA para pronosticar, en base a las últimas horas de datos históricos, si deberían reponer el inventario y optimizar ese proceso. Pero para hacer ese reabastecimiento de inventario impulsado por la máquina se requieren 600-1200 consultas por segundo. Nosotros somos una base de datos SQL y una base de datos de IA, por lo que podemos ingerir datos a esa velocidad. Al cumplir con esa misión comercial, se obtuvo una aplicación que generó más ROI ".
Baker acordó que ML requiere una gran cantidad de datos, por lo que su ingesta rápida sería muy importante para una base de datos de IA. El segundo factor, el concepto de "co-localidad de datos en memoria", requiere un poco más de explicación. Una base de datos en memoria almacena datos en la memoria principal en lugar de en un disco de almacenamiento separado. Lo hace para procesar consultas más rápido, particularmente en análisis y bases de datos de BI. Por co-localidad, Radalj explicó que Kinetica no separa los nodos de cómputo de CPU y GPU versus los nodos de almacenamiento.
Como resultado, la base de datos de IA admite el procesamiento paralelo, que imita la capacidad del cerebro humano para procesar múltiples estímulos, al tiempo que permanece distribuida en una infraestructura de base de datos escalable. Esto evita la mayor huella de hardware, como resultado de lo que Radalj llamó "envío de datos" o la necesidad de enviar datos entre diferentes componentes de la base de datos.
"Algunas soluciones utilizan un orquestador como IBM Symphony para programar el trabajo en varios componentes, mientras que Kinetica hace hincapié en el envío de funciones contra los recursos ubicados conjuntamente, con una optimización avanzada para minimizar el envío de datos", dijo Radalj. "Esa co-localidad se presta a un rendimiento y rendimiento superiores, especialmente para consultas pesadas altamente concurrentes en grandes conjuntos de datos".
En términos del hardware real de la base de datos, Kinetica está asociada con Nvidia, que tiene una línea en expansión de GPU AI y está explorando oportunidades con Intel. Radalj también dijo que la compañía está vigilando el hardware emergente de IA y la infraestructura basada en la nube, como las Unidades de Procesamiento de Tensor (TPU) de Google.
Finalmente, existe la idea de un proceso de capacitación modelo unificado. Una base de datos de inteligencia artificial solo es efectiva si esos beneficios de una ingestión y procesamiento más rápidos cumplen objetivos más grandes y orientados a los negocios para los esfuerzos de aprendizaje profundo y aprendizaje automático de una empresa. Radalj se refiere a la base de datos de inteligencia artificial de Kinetica como una "plataforma modelo de canalización" que realiza alojamiento de modelos impulsado por la ciencia de datos.
Todo esto se presta a pruebas e iteraciones más rápidas para desarrollar modelos ML más precisos. En este punto, Baker dijo que colaborar de manera unificada puede ayudar a todos los ingenieros e investigadores que trabajan para capacitar a un ML o modelo de aprendizaje profundo a iterar más rápido al combinar lo que funciona, en lugar de reinventar continuamente todos los pasos en el proceso de capacitación. Radalj dijo que el objetivo es crear un flujo de trabajo en el que la ingesta por lotes, la transmisión y las consultas más rápidas generen resultados del modelo que puedan aplicarse inmediatamente a BI.
"Los científicos de datos, los ingenieros de software y los administradores de bases de datos tienen una plataforma única donde el trabajo se puede delinear limpiamente en la ciencia de datos, la escritura de programas de software y los modelos y consultas de datos SQL", dijo Radalj. "Las personas trabajan juntas de manera más limpia en esos diversos dominios cuando se trata de una plataforma común. El objetivo más frecuente que no con ejecutar ML y el aprendizaje profundo es utilizar los resultados de eso, los coeficientes y las variables, junto con análisis y use la salida para cosas como la puntuación o para predecir algo útil ".
¿Exageración o realidad?
El valor final de una base de datos de IA, al menos en la forma en que Kinetica la define, está en la optimización de los recursos informáticos y de la base de datos. Esto, a su vez, le permite crear mejores modelos de aprendizaje profundo y aprendizaje automático, capacitarlos más rápido y de manera más eficiente, y mantener una línea directa sobre cómo se aplicará esa IA a su negocio.
Radalj dio el ejemplo de una empresa de gestión de flotas o de camiones. En este caso, una base de datos de IA podría procesar flujos masivos de información en tiempo real desde una flota de vehículos. Luego, al modelar esos datos geoespaciales y combinarlos con análisis, la base de datos podría redirigir dinámicamente los camiones y optimizar las rutas.
"Es más fácil aprovisionar, prototipar y probar rápidamente. La palabra 'modelado' se usa en IA, pero se trata de recorrer diferentes enfoques (cuantos más datos, mejor), ejecutarlos una y otra vez, probar, comparar y proponiendo los mejores modelos ", dijo Radalj. "Las redes neuronales han cobrado vida porque hay más datos que nunca antes. Y estamos aprendiendo a poder calcular a través de ellos".
En última instancia, la base de datos de ubicación conjunta de Kinetica y la plataforma de canalización de modelos son solo un enfoque en un espacio que puede significar muchas cosas diferentes dependiendo de a quién le pregunte. Baker dijo que el desafío para el comprador en un mercado que todavía está evolucionando y es experimental, es descubrir exactamente lo que un vendedor de bases de datos de inteligencia artificial está lanzando.
"Como concepto de negocio, aprendizaje profundo, ML, y todo eso es un concepto sólido. Lo que estamos resolviendo son problemas tecnológicos que pueden resolverse, incluso si aún no los hemos resuelto", dijo Baker. "Eso no quiere decir que este es un espacio maduro porque definitivamente no lo es. Yo diría 'cuidado con el comprador' porque algo lanzado como ML puede o no ser. Podría ser simplemente análisis avanzado de variedades de jardín".
En cuanto a si las bases de datos de IA son exageradas en este momento o si representan una tendencia importante hacia dónde van los negocios, Baker dijo que es un poco de ambas. Ella dijo que Big Data, como término de marketing, está fuera de lugar ahora. Baker dijo que ahora existe cierta confusión en el mercado entre análisis avanzados basados en datos y algoritmos de aprendizaje profundo y aprendizaje automático. De todos modos, ya sea que esté hablando de una base de datos para el modelado de ML o de las IA conscientes de sí soñadas por la cultura pop, todo comienza y termina con datos.
"Los datos se utilizarán en los negocios hasta que termine el tiempo; es tan central para hacer negocios", dijo Baker. "Cuando hablas en términos de ciencia ficción, la IA es una inteligencia autorrealizada. Ahí es cuando comienzas a hablar de singularidades y robots que se apoderan del mundo. Si eso sucede o no, no lo sé. Me iré eso a Stephen Hawking ".