Tabla de contenido:
Video: Simplifica tu vida: Automatización en AWS - Bases de datos gestionadas [Spanish] (Noviembre 2024)
Google ahora ha agregado capacidades de aprendizaje automático (ML) a su Google BigQuery, la oferta de base de datos en la nube en escala de petabytes (PB) de la compañía. Ahora llamada BigQuery ML, la nueva versión le permite usar declaraciones simples de lenguaje de consulta estructurado (SQL) para construir e implementar modelos de ML para análisis predictivo.
Estas no son solo buenas noticias para los científicos de datos que usan Google. También es bueno para los operadores comerciales interesados en mejorar sus capacidades de análisis de datos porque agrega un competidor más efectivo a una lista bastante pequeña de proveedores capaces de ofrecer este nivel de sofisticación a través de la nube. Los otros dos nombres más conocidos son el Servicio de base de datos relacional de Amazon y Azure SQL de Microsoft, y puede encontrar más en nuestro resumen del servicio de base de datos en la nube reciente.
La ruina de todos los vendedores y compradores de productos de datos siempre ha sido la brecha de habilidades. Esto ha sido especialmente cierto para aquellos interesados en ML y análisis predictivo, ya que estas disciplinas a menudo requieren conocimiento de nuevas tecnologías y lenguajes de consulta.
"Por cada científico de datos, hay cientos de analistas que trabajan con datos y la mayoría usa SQL", dijo a PCMag Sudhir Hasbe, director de gestión de productos de Google Cloud. Algo tenía que ceder para que el poder de un ejército de analistas de datos fuera descorchado del cuello de botella creado por muy pocos y demasiado trabajados científicos de datos.
La respuesta de Google a este dilema es notable. Si bien ML es una tendencia popular y aparece en productos de todo tipo en todas partes, sigue siendo un territorio de científicos de datos. Muchos proveedores han avanzado en la simplificación de la tecnología, pero la fea verdad es que puedes simplificarla mucho y sigue siendo demasiado difícil de usar para más del 99 por ciento de la población humana. Sin embargo, necesitamos poder usarlo porque ML puede hacer más y hacerlo más rápido que un grupo de humanos súper inteligentes.
Google está plantando ML dentro de Google BigQuery para que resida más cerca de los datos. La aplicación traerá capacidades de ML más rápido que los modelos de ML tradicionales, en parte porque el análisis de datos se puede realizar en la fuente. Ahora en versión beta, BigQuery ML permite a los analistas (y científicos de datos) ejecutar análisis predictivos, como pronosticar ventas y crear segmentos de clientes justo encima de los datos donde se almacenan. Eso solo es una actualización respetable y notable.
Sin embargo, Google fue más allá de eso al agregar una capacidad que permite a los analistas de datos usar declaraciones SQL simples para construir e implementar modelos ML. En este momento, las opciones son modelos de regresión lineal y regresión logística para el análisis predictivo, ya que esos son los dos modelos más utilizados.
Aquí hay una ilustración que Google proporcionó para demostrar cómo los analistas de datos usarían esta capacidad:
Google planea agregar más opciones de ML a esta capacidad con el tiempo, según Hasbe. "Necesitamos escuchar a nuestros clientes sobre qué modelos quieren que agreguemos para que primero proporcionemos los más útiles", dijo.
Actualizaciones adicionales de Google BigQuery
Encabezando la lista sustancial de actualizaciones después de ML hay una capacidad de agrupación, BigQuery Geographic Information Systems (BigQuery GIS), un nuevo conector de datos de Google Sheets y un nuevo conector de datos de Google Sheets.
La agrupación también está en beta y permite la creación de tablas agrupadas en un movimiento de optimización de datos que agrupa filas con claves de agrupación similares. Esto reduce los costos ya que mejora el rendimiento y permite que Google BigQuery cobre al usuario solo por los datos escaneados en lugar de toda la tabla o partición.
BigQuery GIS se encuentra actualmente en alfa y se utiliza para el análisis de datos geoespaciales. Si bien el equipo de Google Cloud se asoció con Google Earth Engine para crear BigQuery GIS, debe traer sus propios datos geoespaciales a la mesa. Eso no es un problema en varias industrias, incluidos los sistemas de automóviles conectados, el Internet de las cosas (IoT), la fabricación, el comercio minorista, las ciudades inteligentes y la telemática. Sin mencionar las agencias gubernamentales que van desde la Agencia de Protección Ambiental (EPA) y la Agencia Nacional de Inteligencia Geoespacial hasta la Administración Nacional Oceánica y Atmosférica (NOAA) y todas las ramas militares, por supuesto.
BigQuery GIS utiliza la biblioteca S2, que ahora tiene más de mil millones de usuarios a través de una variedad de productos como Google Earth Engine y Google Maps. Si necesita más datos geoespaciales, el gobierno federal comparte una gran cantidad de ellos en GeoPlatform.
Es probable que un nuevo conector de datos de Google Sheets deleite a muchos analistas de datos simplemente porque es muy práctico para el uso diario. Puede acceder a Google BigQuery desde las Hojas de cálculo de Google (programa de hojas de cálculo) y usar herramientas de Hojas de cálculo de Google como Explore, que es una herramienta combinada de colaboración, visualización de datos y consulta en lenguaje natural.
Google BigQuery ahora también tiene una nueva interfaz de usuario (IU) en beta. Uno de los elementos más interesantes es la funcionalidad de visualización con un solo clic, que admite Google Data Studio. En total, es una gran ronda de actualizaciones para un servicio ya elegante. Estas actualizaciones se probarán en la próxima ronda de revisiones de la solución de base de datos como servicio (DBaaS) de PCMag, después de que se resuelvan los errores y los productos hayan superado sus respectivos estados alfa y beta.
PCMag EIC Dan Costa analiza el futuro de los datos: