Video: Resumen Webinar: La Arquitectura de Datos como soporte al Gobierno de Datos. (Noviembre 2024)
Hemos escrito mucho sobre el papel de los datos en las empresas modernas. Desde nuevas empresas y pequeñas y medianas empresas (PYMES) hasta grandes empresas, la información y el análisis de datos son más accesibles que nunca para las empresas de todos los tamaños. Esto es, en parte, gracias al aumento de la inteligencia de negocios de autoservicio (BI) y las herramientas de visualización de datos.
Sin embargo, antes de que pueda emplear herramientas de BI o ejecutar análisis predictivos en un conjunto de datos, hay una serie de factores para cuadrar. Comienza simplemente entendiendo qué es Big Data, qué no es (pista: no es una bola de cristal) y cómo administrar el almacenamiento de datos, la organización, los permisos y la seguridad dentro de la arquitectura de datos de su empresa. Aquí es donde entra en juego la gobernanza de datos. Los procesos mediante los cuales usted garantiza la gobernanza dentro de una empresa difieren según con quién hable. Pero, en esencia, el gobierno de datos se trata de la confianza y la responsabilidad de los datos, junto con las mejores prácticas de seguridad de datos integrales.
Hablé con Hortonworks y MapR, dos de los proveedores de Hadoop empresariales más grandes del mercado. Scott Gnau, director de tecnología de Hortonworks, y Jack Norris, vicepresidente senior de datos y aplicaciones de MapR, explicaron qué significa el gobierno de datos para sus organizaciones. Discutieron cómo abordar el complejo desafío de garantizar el gobierno de los datos dentro de las complejas arquitecturas de datos y las jerarquías organizacionales de una gran empresa.
Qué es exactamente Gobierno de datos y ¿por qué lo necesitamos?
La gobernanza significa asegurarse de que los datos de la empresa estén autorizados, organizados y autorizados en una base de datos con el menor número de errores posible, manteniendo la privacidad y la seguridad. No es un equilibrio fácil de alcanzar, especialmente cuando la realidad de dónde y cómo se almacenan y procesan los datos está en constante cambio. Norris de MapR explicó por qué las empresas deben considerar el gobierno de datos desde un nivel superior y centrarse en la tubería de datos más grande en juego.
"Cuando comienzas a escalar la variedad y la velocidad de Big Data con la que estamos tratando, debes tener un gobierno de datos, pero está en este contexto más amplio. ¿Cuáles son los datos que tienes, quién tiene acceso a ellos y cómo estás? administrando el linaje de esos datos a lo largo del tiempo? dijo Norris. "Desde el punto de vista de la gobernanza de datos, puede tener diferentes etapas de los datos que existen dentro de un sistema que se pueden tomar instantáneas para que pueda regresar en cualquier momento en la tubería. Se trata de construir auditabilidad y control de acceso en la plataforma de datos para hacer "el descubrimiento y el análisis de datos son transparentes, ya sea que usted sea un gerente de negocios que busque conjuntos de datos financieros o un científico de datos que trabaje con datos no procesados".
Fuente: Rimes. Haga clic en la imagen para verla completa.
Hortonworks 'Gnau tecleó en un punto similar. Ya sea que se trate de un almacén de datos o una arquitectura de lago de datos, el gobierno de datos se trata de equilibrar las fuerzas opuestas. Se trata de acceso ilimitado a los datos para impulsar la innovación y obtener información, y permisos granulares y privacidad para proteger simultáneamente esos datos de extremo a extremo.
"Compare y contraste el viejo mundo de la gobernanza tradicional en el espacio de datos; fue un poco más fácil", dijo Gnau. "Los datos solían estar bien definidos por función laboral o aplicación. En el nuevo mundo, obtienes el mayor valor cuando los científicos de datos tienen acceso a la mayor cantidad de datos posible, y encontrar ese medio feliz es muy importante.
"Está impulsando un paradigma completamente nuevo en la forma en que necesita abordar la gobernanza", agregó Gnau. "En este nuevo mundo, considero los temas de gobernanza y seguridad que deben ser cubiertos de manera conjunta. Muchas compañías todavía están luchando por avanzar para permitir que sus científicos de datos sean efectivos en la búsqueda de esos nuevos casos de uso y, al mismo tiempo, entendiendo cómo manejar la seguridad, la privacidad, la gobernanza, todas las cosas que son importantes desde la perspectiva de la línea de fondo y también desde la perspectiva de la reputación de la empresa ".
¿Cómo se supone que un plan de gobierno de datos empresariales abarcará y satisfará a todas esas fuerzas opuestas? Al abordar cada requisito metódicamente, un paso a la vez.
Cómo construir un plan de gobierno de datos
Hortonworks, MapR y Cloudera son los tres jugadores independientes más grandes en el espacio de Hadoop. Las empresas tienen sus propias esferas de influencia cuando se trata de gobernanza de datos. MapR ha publicado una serie de documentos técnicos sobre el tema y ha creado la gobernanza de datos en toda su Plataforma de datos convergentes, mientras que Hortonworks tiene su propia solución de seguridad y gobernanza de datos y cofundó la Iniciativa de gobernanza de datos (DGI) en 2015. Esto llevó a la apertura proyecto Apache Atlas de código fuente que proporciona un marco de gobierno de datos abierto para Hadoop.
Pero cuando se trata de cómo cada proveedor elabora estrategias integrales de gobernanza y seguridad de datos, Gnau y Norris hablaron en líneas similares. Los siguientes son los pasos combinados que Hortonworks y MapR recomiendan que las empresas tengan en cuenta al crear un plan de gobierno de datos.
The Big One: acceso a datos granulares y autorización
Ambas compañías están de acuerdo en que no se puede tener un gobierno de datos efectivo sin controles granulares. MapR logra esto principalmente a través de Expresiones de control de acceso (ACE). Como explicó Norris, las ACE usan agrupación y lógica booleana para controlar el acceso y la autorización de datos flexibles, con permisos basados en roles y configuraciones de visibilidad.
Dijo pensar en ello como un modelo de Gartner. En el eje Y en el extremo inferior hay una gobernanza estricta y baja agilidad, y en el eje X en el extremo superior hay una mayor agilidad y menos gobernanza.
"En el nivel bajo, proteges los datos sensibles al ofuscarlos. En la parte superior, tienes contratos confidenciales para científicos de datos y analistas de BI", dijo Norris. "Tendemos a hacer esto con capacidades de enmascaramiento y diferentes vistas donde se bloquean los datos sin procesar en la parte inferior tanto como sea posible y gradualmente brindan más acceso hasta que, en el extremo superior, se les brinda a los administradores una mayor visibilidad. Pero cómo se brinda acceso a las personas adecuadas?
"Si miras una lista de control de acceso hoy, dirá algo así como 'todos en ingeniería pueden acceder a esto'", agregó Norris. "Pero si desea que algunos directores seleccionados en un proyecto dentro de TI tengan acceso o todos, excepto una persona, deben crear un grupo especial. Es una forma demasiado complicada y complicada de ver el acceso".
Ahí es donde entra la concesión de derechos de acceso a diferentes niveles y grupos, según Norris. "Combinamos ACE con las diversas formas en que puede acceder a los datos (a través de archivos, tablas, secuencias, etc.) e implementamos vistas sin copias separadas de los datos. Por lo tanto, proporcionamos Vistas en los mismos datos sin procesar y Vistas puede tener diferentes niveles de acceso. Esto le brinda una seguridad más integrada que es más directa ".
Hortonworks maneja el acceso granular de manera similar. Al integrar Apache Atlas para la gobernanza y Apache Ranger, Gnau dijo que la compañía maneja la autorización a nivel empresarial a través de un solo panel de vidrio. La clave, dijo, es la capacidad de otorgar acceso contextual a la base de datos y a etiquetas de metadatos específicos mediante el uso de políticas basadas en etiquetas.
"Una vez que alguien está en la base de datos, se trata de guiarlos a través de los datos a los que deberían tener acceso relevante", dijo Gnau. "Las políticas de seguridad de Ranger a nivel de objeto, de grano fino y en cualquier lugar intermedio pueden manejar eso. Unir esa seguridad con el gobierno es donde las cosas se ponen realmente interesantes".
"Para escalar en grandes organizaciones, debe integrar esos roles con el gobierno y el etiquetado de metadatos", agregó Gnau. "Si me conecto desde Singapur, quizás haya diferentes reglas basadas en las leyes de privacidad locales o en la estrategia corporativa. Una vez que una compañía define, establece y entiende esas reglas desde una perspectiva holística de arriba hacia abajo, puede dividir el acceso en función de conjuntos de reglas específicas mientras se ejecuta todo dentro de la plataforma principal ".
Fuente: IBM Big Data & Analytics Hub. Haga clic en la imagen para verla completa.
2. Seguridad perimetral, protección de datos y autenticación integrada
La gobernanza no ocurre sin la seguridad del punto final. Gnau dijo que es importante construir un buen perímetro y firewall alrededor de los datos que se integre con los sistemas y estándares de autenticación existentes. Norris acordó que, cuando se trata de autenticación, es importante que las empresas se sincronicen con sistemas probados.
"Bajo autenticación, se trata de cómo te integras con LDAP, Active Directory y servicios de directorio de terceros", dijo Norris. "También admitimos el nombre de usuario y las contraseñas de Kerberos. Lo importante no es crear una infraestructura completamente separada, sino cómo integrarse con la estructura existente y aprovechar los sistemas como Kerberos".
3. Cifrado de datos y tokenización
El siguiente paso después de asegurar su perímetro y autenticar todo el acceso granular de datos que está otorgando: Asegúrese de que los archivos y la información de identificación personal (PII) estén encriptados y tokenizados de extremo a extremo a través de su canal de datos. Gnau discutió cómo Hortonworks asegura los datos de PII.
"Una vez que pasa el perímetro y tiene acceso al sistema, poder proteger los datos de PII es extremadamente importante", dijo Gnau. "Debe encriptar y tokenizar esos datos para que, independientemente de quién tenga acceso a ellos, puedan ejecutar los análisis que necesitan sin exponer ninguno de esos datos PII a lo largo de la línea".
En cuanto a cómo acceder de forma segura a los datos cifrados tanto en movimiento como en reposo, Norris de MapR explicó que es importante tener en cuenta los casos de uso, como la copia de seguridad y la recuperación ante desastres (DR). Discutió un concepto de los llamados volúmenes lógicos de MapR, que pueden aplicar políticas de gobierno a un grupo creciente de archivos y directorios.
"En el nivel más bajo, MapR ha diseñado la replicación WAN para DR y las instantáneas consistentes en el tiempo en todos los datos que se pueden configurar en diferentes frecuencias por directorio o volumen", dijo Norris. "Es más amplio que solo el gobierno de datos. Puede tener un clúster físico con directorios, y luego el concepto de volumen lógico es una unidad de gestión realmente interesante y una forma de agrupar cosas mientras se controla la protección y la frecuencia de los datos. Es otra flecha en los datos del administrador de TI carcaj de gobierno ".
4. Auditoría y análisis constantes
Mirando la imagen más amplia de gobernanza, tanto Hortonworks como MapR dijeron que la estrategia no funciona sin una auditoría. Ese nivel de responsabilidad y rendición de cuentas en cada paso del proceso es lo que permite que TI realmente "gobierne" los datos en lugar de simplemente establecer políticas y controles de acceso y esperar lo mejor. También es cómo las empresas pueden mantener sus estrategias actualizadas en un entorno en el que la forma en que vemos los datos y las tecnologías que utilizamos para administrarlos y analizarlos cambian todos los días.
"La pieza final de una estrategia de gobernanza moderna es el registro y el seguimiento", dijo Gnau. "Estamos en la infancia de Big Data e IoT, y es fundamental poder rastrear el acceso y reconocer patrones en los datos para que, a medida que la estrategia necesita ser actualizada, estemos por delante de la curva".
Norris dijo que la auditoría y el análisis pueden ser tan simples como rastrear archivos JSON (JavaScript Object Notation). No valdrá la pena rastrear y analizar cada pieza de datos, pero su empresa nunca sabrá cuál, hasta que identifique una perspectiva que cambie el juego o ocurra una crisis y necesite ejecutar un seguimiento de auditoría.
"Cada archivo de registro JSON se abre para el análisis y tenemos Apache Drill para consultar los archivos JSON con los esquemas, por lo que no es un paso manual de TI para configurar el análisis de metadatos", dijo Norris. "Cuando incluye todos los eventos de acceso a datos y cada acción administrativa, existe una amplia gama de análisis posibles".
5. Una arquitectura de datos unificada
En última instancia, el oficial de tecnología o el administrador de TI que supervisa una estrategia de gobierno de datos empresariales debe pensar en los detalles específicos del acceso granular, la autenticación, la seguridad, el cifrado y la auditoría. Pero el oficial de tecnología o el administrador de TI no deberían detenerse allí; más bien, esa persona también debería pensar en cómo cada uno de estos componentes alimenta su arquitectura de datos más grande. Él o ella también debe pensar en cómo esa infraestructura debe ser escalable y segura, desde la recopilación y el almacenamiento de datos hasta BI, análisis y servicios de terceros. Gnau dijo que el gobierno de datos se trata tanto de repensar la estrategia y la ejecución como de la tecnología misma.
" Va más allá de un solo panel de vidrio o una colección de reglas de seguridad", dijo Gnau. "Es una arquitectura única en la que se crean estos roles y se sincronizan en toda la plataforma y todas las herramientas que se incorporan. La belleza de una infraestructura gobernada de forma segura es la agilidad con la que se crean los nuevos métodos. En cada nivel de plataforma, o incluso en En un entorno de nube híbrida, tiene un único punto de referencia para comprender cómo ha implementado sus reglas. Todos los datos pasan a través de esta capa de seguridad y gobierno ".