Video: Big Data en 🐍PYTHON CON PYSPARK / Introducción a Spark / Spark Stack / Spark Streaming (Noviembre 2024)
Toda empresa quiere recolectar tesoros de inteligencia empresarial (BI), tantos datos como ejecutivos, especialistas en marketing y cualquier otro departamento de la organización puedan tener en sus manos. Pero una vez que tiene esos datos, la dificultad radica no solo en analizar el gran lago de datos para encontrar las ideas clave que está buscando (sin verse inundado por el gran volumen de información) sino también en asegurar todos esos datos..
Por lo tanto, mientras el departamento de TI de su empresa y los científicos de datos ejecutan algoritmos de análisis predictivos, visualizaciones de datos y emplean un arsenal de otras técnicas de análisis de datos en Big Data que ha recopilado, su empresa debe asegurarse de que no haya fugas o puntos débiles en el embalse
Con ese fin, Cloud Security Alliance (CSA) lanzó recientemente el Manual de seguridad y privacidad de Big Data: 100 mejores prácticas en seguridad y privacidad de Big Data. La larga lista de mejores prácticas se extiende a través de 10 categorías, por lo que reducimos las mejores prácticas a 10 consejos para ayudar a su departamento de TI a bloquear sus datos comerciales clave. Estos consejos emplean un arsenal de técnicas de almacenamiento de datos, encriptación, gobierno, monitoreo y seguridad.
1. Salvaguardar los marcos de programación distribuida
Los marcos de programación distribuidos como Hadoop constituyen una gran parte de las distribuciones modernas de Big Data, pero conllevan un grave riesgo de pérdida de datos. También vienen con lo que se llama "mapeadores no confiables" o datos de múltiples fuentes que pueden producir resultados agregados repletos de errores.
La CSA recomienda que las organizaciones establezcan primero la confianza mediante el uso de métodos como la autenticación Kerberos mientras se garantiza la conformidad con las políticas de seguridad predefinidas. Luego, "desidentifica" los datos al desacoplar toda la información de identificación personal (PII) de los datos para garantizar que la privacidad personal no se vea comprometida. A partir de ahí, autoriza el acceso a los archivos con una política de seguridad predefinida y luego se asegura de que el código no confiable no filtre información a través de los recursos del sistema mediante el control de acceso obligatorio (MAC) como la herramienta Sentry en Apache HBase. Después de eso, la parte difícil ha terminado ya que todo lo que queda por hacer es protegerse contra la fuga de datos con un mantenimiento regular. El departamento de TI debe verificar los nodos de trabajo y los mapeadores en su nube o entorno virtual, y estar atento a nodos falsos y duplicados de datos alterados.
2. Asegure sus datos no relacionales
Las bases de datos no relacionales como NoSQL son comunes pero son vulnerables a ataques como la inyección NoSQL; La CSA enumera un grupo de contramedidas para protegerse contra esto. Comience cifrando o cifrando contraseñas, y asegúrese de garantizar el cifrado de extremo a extremo cifrando los datos en reposo utilizando algoritmos como el estándar de cifrado avanzado (AES), RSA y el algoritmo de hash seguro 2 (SHA-256). La seguridad de la capa de transporte (TLS) y el cifrado de la capa de sockets seguros (SSL) también son útiles.
Más allá de esas medidas básicas, más capas como el etiquetado de datos y la seguridad a nivel de objeto, también puede proteger los datos no relacionales mediante el uso de lo que se denomina módulos de autenticación conectables (PAM); Este es un método flexible para autenticar a los usuarios al tiempo que se asegura de registrar las transacciones utilizando una herramienta como el registro NIST. Finalmente, están los llamados métodos de fuzzing, que exponen las vulnerabilidades de scripting e inyección entre sitios entre NoSQL y el protocolo HTTP mediante el uso de entrada de datos automatizada en los niveles de protocolo, nodo de datos y aplicación de la distribución.
3. Almacenamiento seguro de datos y registros de transacciones
La gestión del almacenamiento es una parte clave de la ecuación de seguridad de Big Data. La CSA recomienda el uso de resúmenes de mensajes firmados para proporcionar un identificador digital para cada archivo o documento digital, y utilizar una técnica llamada depósito de datos seguro y no confiable (SUNDR) para detectar modificaciones de archivos no autorizadas por agentes de servidores maliciosos.
El manual también enumera una serie de otras técnicas, que incluyen la revocación diferida y la rotación de claves, los esquemas de encriptación basados en políticas y difusión, y la gestión de derechos digitales (DRM). Sin embargo, no hay sustituto para simplemente construir su propio almacenamiento seguro en la nube sobre la infraestructura existente.
4. Filtrado y validación de puntos finales
La seguridad de punto final es primordial y su organización puede comenzar utilizando certificados confiables, realizando pruebas de recursos y conectando solo dispositivos confiables a su red utilizando una solución de administración de dispositivos móviles (MDM) (además del software de protección antivirus y antimalware). A partir de ahí, puede usar técnicas de detección de similitud estadística y técnicas de detección de valores atípicos para filtrar entradas maliciosas, mientras se protege contra ataques Sybil (es decir, una entidad disfrazada de identidades múltiples) y ataques de suplantación de identidad.
5. Cumplimiento en tiempo real y monitoreo de seguridad
El cumplimiento es siempre un dolor de cabeza para las empresas, y aún más cuando se trata de un diluvio constante de datos. Es mejor abordarlo de frente con análisis y seguridad en tiempo real en todos los niveles de la pila. La CSA recomienda que las organizaciones apliquen el análisis de Big Data mediante el uso de herramientas como Kerberos, Secure Shell (SSH) y seguridad de protocolo de Internet (IPsec) para controlar los datos en tiempo real.
Una vez que esté haciendo eso, puede extraer eventos de registro, implementar sistemas de seguridad front-end como enrutadores y firewalls de nivel de aplicación, y comenzar a implementar controles de seguridad en toda la pila en la nube, el clúster y los niveles de aplicación. La CSA también advierte a las empresas que tengan cuidado con los ataques de evasión que intentan eludir su infraestructura de Big Data y los llamados ataques de "envenenamiento de datos" (es decir, datos falsificados que engañan a su sistema de monitoreo).
6. Preservar la privacidad de los datos
Mantener la privacidad de los datos en conjuntos cada vez mayores es realmente difícil. La CSA dijo que la clave es ser "escalable y composable" mediante la implementación de técnicas como la privacidad diferencial, maximizando la precisión de la consulta y minimizando la identificación de registros, y el cifrado homomórfico para almacenar y procesar información cifrada en la nube. Más allá de eso, no escatime en los productos básicos: la CSA recomienda incorporar capacitación de concientización de los empleados que se centre en las regulaciones de privacidad actuales y asegurarse de mantener la infraestructura de software mediante el uso de mecanismos de autorización. Finalmente, las mejores prácticas fomentan la implementación de lo que se llama "composición de datos para preservar la privacidad", que controla la fuga de datos de múltiples bases de datos al revisar y monitorear la infraestructura que une las bases de datos.
7. Criptografía de Big Data
La criptografía matemática no ha pasado de moda; de hecho, se ha vuelto mucho más avanzado. Al construir un sistema para buscar y filtrar datos cifrados, como el protocolo de cifrado simétrico de búsqueda (SSE), las empresas pueden ejecutar consultas booleanas en datos cifrados. Una vez instalado, CSA recomienda una variedad de técnicas criptográficas.
El cifrado relacional le permite comparar datos cifrados sin compartir claves de cifrado al hacer coincidir los identificadores y los valores de los atributos. El cifrado basado en identidad (IBE) facilita la gestión de claves en los sistemas de clave pública al permitir que el texto sin formato se cifre para una identidad determinada. El cifrado basado en atributos (ABE) puede integrar controles de acceso en un esquema de cifrado. Finalmente, hay un cifrado convergente, que utiliza claves de cifrado para ayudar a los proveedores de la nube a identificar datos duplicados.
8. Control de acceso granular
El control de acceso se trata de dos cosas principales según la CSA: restringir el acceso de los usuarios y otorgarles acceso. El truco es construir e implementar una política que elija la correcta en cualquier escenario dado. Para configurar controles de acceso granular, el CSA tiene un montón de consejos rápidos:
Normalizar elementos mutables y desnormalizar elementos inmutables,
Rastree los requisitos de secreto y garantice una implementación adecuada,
Mantener etiquetas de acceso,
Rastrear datos de administrador,
Utilice el inicio de sesión único (SSO) y
Use un esquema de etiquetado para mantener una federación de datos adecuada.
9. Auditoría, auditoría, auditoría
La auditoría granular es imprescindible en la seguridad de Big Data, particularmente después de un ataque a su sistema. La CSA recomienda que las organizaciones creen una vista de auditoría coherente después de cualquier ataque, y asegúrese de proporcionar una pista de auditoría completa al tiempo que garantiza que haya un acceso fácil a esos datos para reducir el tiempo de respuesta a incidentes.
La integridad y la confidencialidad de la información de auditoría también son esenciales. La información de auditoría debe almacenarse por separado y protegerse con controles granulares de acceso de usuario y monitoreo regular. Asegúrese de mantener sus Big Data y los datos de auditoría separados, y habilite todos los registros necesarios cuando configure la auditoría (para recopilar y procesar la información más detallada posible). Una capa de auditoría de código abierto o una herramienta de orquestador de consultas como ElasticSearch puede hacer que todo esto sea más fácil de hacer.
10. Procedencia de datos
La procedencia de los datos puede significar varias cosas diferentes dependiendo de a quién le pregunte. Pero a lo que se refiere el CSA es a los metadatos de procedencia generados por las aplicaciones de Big Data. Esta es otra categoría de datos que necesita una protección significativa. La CSA recomienda primero desarrollar un protocolo de autenticación de infraestructura que controle el acceso, mientras configura actualizaciones periódicas de estado y verifica continuamente la integridad de los datos mediante el uso de mecanismos tales como sumas de verificación.
Además de eso, el resto de las mejores prácticas de CSA para la procedencia de datos se hacen eco del resto de nuestra lista: implementar controles de acceso granular dinámicos y escalables e implementar métodos de cifrado. No hay un truco secreto para garantizar la seguridad de Big Data en toda su organización y en todos los niveles de su infraestructura y pila de aplicaciones. Cuando se manejan lotes de datos tan amplios, solo un esquema de seguridad de TI exhaustivamente exhaustivo y la aceptación de los usuarios de toda la empresa le brindarán a su organización la mejor oportunidad de mantener los últimos 0 y 1 seguros y protegidos.