Hogar Negocio Lagos de datos, explicados

Lagos de datos, explicados

Video: Creación de lagos de datos y análisis en AWS (Noviembre 2024)

Video: Creación de lagos de datos y análisis en AWS (Noviembre 2024)
Anonim

La revolución del Big Data ha redefinido la forma en que trabajan las empresas; Los datos apuntalan todo. No solo las herramientas de código abierto como Apache Hadoop y Spark hicieron que grandes cantidades de datos sean más fáciles de recopilar, procesar y almacenar en tiempo real, sino que las herramientas de inteligencia empresarial (BI) y visualización de datos han comenzado a ayudarnos a rascar la superficie del análisis y transformar esos datos para informar las decisiones comerciales centrales.

Sin embargo, a pesar de cuánto ha evolucionado la tecnología Big Data y BI, todavía estamos lidiando con volúmenes tan masivos de datos constantemente compuestos que encontrar los puntos correctos para analizar todavía se siente como bucear en un pajar sin fin. ¿La solución? Rediseñar el pajar.

Ingrese data lakes, un nuevo tipo de arquitectura empresarial basada en la nube que estructura los datos de una manera más escalable que facilita la experimentación; lo hace más abierto a la exploración y la manipulación en lugar de encerrarse en esquemas rígidos y silos. Nasry Angel, un investigador de arquitectura empresarial de Forrester Research, explicó por qué las empresas están adoptando arquitecturas de lago de datos.

"Suena cliché, pero cuando piensas en un entorno de datos moderno y efectivo, es mucho más experimental", dijo Angel. "Necesitas poder aprender rápido y fallar rápido. En el pasado, la gestión de datos, especialmente en un almacén, se basaba en la calidad, hasta el punto decimal; asegurarte de que todo fuera completamente exacto y verdadero. Se llama perseguir un solo versión de la verdad. Luego, generar un informe perfecto de píxeles y enviarlo a 5.000 usuarios.

"Hoy en día, es un proceso más científico. Entras con una hipótesis sobre los datos que quieres probar y quieres poder jugar con los datos, mezclarlos y combinarlos, para probar diferentes cosas antes de ir y producir algo"."

¿Qué hay en un lago de datos?

Un lago de datos es un repositorio de almacenamiento. Sin embargo, a diferencia de un almacén de datos o "data mart", Angel explicó que los lagos de datos se distribuyen en múltiples nodos en lugar de en el entorno fijo y estructurado de un almacén de datos que se basa en esquemas (ver infografía a continuación).

"Un lago de datos le permite aplicar un esquema cuando escribe los datos frente a un almacén de datos que requiere que haga un esquema en la lectura. Entonces, esencialmente, un almacén de datos requiere que modele los datos antes de comprender su contexto, lo que no realmente tiene sentido ", dijo Angel.

Fuente: JustOne Database, Inc. (Haga clic en el gráfico de arriba para verlo en su totalidad).

"Por lo general, en un almacén, los profesionales de TI presentan los que creen que son los mejores modelos de datos y no son los usuarios finales de los datos. Puede ver rápidamente cómo eso dificulta la productividad y el valor comercial", agregó.. "En última instancia, usted y los usuarios empresariales deben ser los que tomen decisiones sobre la estructura de los datos y, en un lago de datos, primero pueden explorar y descubrir qué hay allí y luego elaborar un esquema para organizarlo mejor".

Los lagos de datos generalmente se basan en Hadoop, y las distribuciones empresariales de Hadoop, como Hortonworks y MapR, ofrecen arquitecturas de lagos de datos. Las empresas también pueden construir lagos de datos mediante el uso de nubes de infraestructura como servicio (IaaS), incluidos Amazon Web Services (AWS) y Microsoft Azure. Elastic Compute Cloud (EC2) de Amazon admite lagos de datos, mientras que Microsoft tiene una plataforma de Azure Data Lake dedicada para almacenar y analizar datos en tiempo real. Angel dijo que los lagos de datos están madurando hasta el punto dentro del espacio Big Data donde las empresas pueden comenzar a invertir en ellos con una confianza razonable.

"Hace unos años, Hadoop estaba de moda. Ahora estamos llegando a un punto en el que Hadoop se comercializa", dijo Angel. "La pregunta no es si Hadoop, sino cuándo y qué vas a hacer con él. ¿Qué tipo de aplicaciones vas a construir sobre Hadoop una vez que hayas colocado los datos en un lugar común como un lago de datos? En este punto, se trata de utilizar los datos para desarrollar aplicaciones que satisfagan sus necesidades comerciales específicas ".

Edificio sobre un depósito de datos

La parte más emocionante de Big Data es toda la posibilidad que desbloquea. Una vez que haya configurado un lago de datos en el que jugar y experimentar con diferentes combinaciones de datos y resultados comerciales, puede comenzar a superponer técnicas de análisis innovadoras.

Los algoritmos de aprendizaje automático (ML) ya se están convirtiendo en parte de la estructura de la infraestructura de la nube, y los investigadores mejoran continuamente las técnicas de aprendizaje profundo y las redes neuronales para entrenar máquinas y sistemas de datos para reconocer patrones complejos. El análisis predictivo se está integrando en más y más herramientas de datos y plataformas empresariales, y se utiliza para todo, desde la puntuación predictiva y la segmentación automatizada para la gestión de relaciones con el cliente (CRM) hasta la identificación de tendencias del mercado financiero y la detección preventiva de fallas mecánicas en la maquinaria.

Todo esto sucede además de cualquier almacén de datos que su empresa esté alimentando y escalando de acuerdo con sus necesidades. Angel habló sobre algunos de los casos de uso del mundo real en los que ha visto que los lagos de datos cambian la forma en que funcionan las organizaciones.

"Estaba trabajando con una empresa editorial que tiene una cartera de diferentes revistas: tienen una publicación para abogados, otra para contadores, otra para consultores, etc., y cada publicación tenía su propio almacén de datos. Efectivamente, cada publicación tenía su propia silo ", explicó Ángel.

"Así que extrajimos todos los datos de un almacén y los colocamos en un lago de datos, y el lago de datos les permitió ver a través de los silos. Pudieron explorar los datos y descubrir datos, y se dieron cuenta de que en todas estas publicaciones diferentes, los clientes de todas las revistas estaban interesados ​​en la ciberseguridad. Los lectores de ciberseguridad fueron fuertes en todos estos roles diferentes. Entonces, ¿qué hicieron? Hicieron de la ciberseguridad el tema de su conferencia anual ".

Otro ejemplo del que habló Angel es el comercio electrónico. Otro cliente, un minorista de arte en línea, estaba volcando una tonelada de información en un lago de datos y usándolo no solo como un repositorio sino como una especie de lienzo para reunir ideas de negocios. El minorista trajo datos de transacciones (pedidos, facturas, pagos, etc.), datos de flujo de clics (la sucesión de clics y páginas de cada visitante del sitio web) y datos del almacén de datos del minorista en el lago, y los usó en concierto para combatir el carrito de compras. abandono y conversiones.

"Desea construir sobre un lago de datos y usarlo para formular ideas comerciales complejas", dijo Angel. "El minorista de arte pudo ver los datos del flujo de clics de un cliente y hacer coincidir los clics con los perfiles de los clientes, luego utilizó los datos transaccionales para ver lo que el cliente compró en el pasado y utilizó esos conocimientos para ejecutar campañas de correo electrónico muy específicas. Entonces, si un cliente abandona su carrito, el minorista podría hacer un seguimiento dos horas más tarde y decir: 'Vimos que estabas revisando este Picasso; aquí está el enlace si quieres volver a verlo' ".

Los lagos de datos son de aplicación universal en todo tipo de casos de uso empresarial. Pero, para un Director Técnico (CTO) o un Director de Seguridad de la Información (CISO) que está considerando migrar a la arquitectura, Angel enfatizó que los almacenes de datos aún no están obsoletos, de ninguna manera. Para la mayoría de las organizaciones empresariales, ya sea que esté utilizando un proveedor de la nube o una distribución personalizada de Hadoop, las empresas aún necesitan ambas.

Los lagos de datos le brindan acceso a información incomparable al eliminar los límites de los datos conformes a un esquema particular, y vienen con un costo total de propiedad mucho más bajo dado el uso de almacenamiento en la nube barato y flexible como AWS para escalar hacia arriba y hacia abajo, mientras solo pagando por la potencia de procesamiento que realmente usa. Ejecutar un almacén de datos es más costoso y, en consecuencia, hace que los profesionales de TI sean más selectivos sobre los datos que entran y salen. Pero para los datos más críticos de una empresa, eso no es algo malo.

"El almacén de datos tiene ventajas en términos de seguridad y es una herramienta muy fácil para controlar la gobernanza de datos", dijo Angel. "Por lo tanto, aún desea mantener su información más confidencial en el almacén, el material de misión crítica. Pero cuando se trata de nuevas oportunidades de negocios y descubrir ideas ocultas, desea aprovechar un lago de datos".

Lagos de datos, explicados