Video: Big Data para todas las empresas (Noviembre 2024)
Las empresas no obtienen puntos por la eficiencia con que se ejecuta su infraestructura o qué tan alto pueden apilar todos los Big Data que recopilan. Lo que sí cuenta es la calidad del análisis y la inteligencia que producen los datos.
En los últimos años, Hadoop es la palabra que se ha convertido en sinónimo de ingesta, procesamiento y transformación de datos. Este marco de código abierto para el almacenamiento y procesamiento de datos distribuidos ha generado su propio espacio empresarial y se ha integrado en todas las principales plataformas en la nube. Hadoop está lejos de ser la única tecnología de Big Data de la que vale la pena hablar, pero se ha convertido en la base de muchas otras.
El problema para las empresas es que el espacio Hadoop está lleno de distribuciones y opciones de herramientas, y como explicó el Director de Investigación de Gartner, Nick Heudecker, muchas de ellas tienen el mismo aspecto. Heudecker, cuya investigación abarca la gestión de la información, incluidos los espacios Big Data y NoSQL, dijo que si está mirando las opciones generales de procesamiento de datos, muchos proveedores ofrecen características muy similares.
Romper el mercado
Hay tres nuevas empresas principales de Hadoop de juego puro: Cloudera, Hortonworks y MapR, y todas han crecido de manera constante en 2015. Según Gartner, cada una tiene aproximadamente 700 clientes, más o menos el 10 por ciento, colocando el mercado global entre 2, 100-2, 400 clientes de Hadoop en todo el mundo. Los tres ofrecen un nivel gratuito y un nivel empresarial de su distribución Hadoop, y cada uno realiza importantes contribuciones de código abierto a proyectos bajo el lema de la Fundación de Software Apache (ASF).
"Nuestros datos indican que el 44 por ciento del uso de Hadoop no está pagado actualmente", dijo Heudecker. "¿Hay un líder claro? No lo creo. Todos están ganando participación de mercado porque es un espacio muy nuevo".
En los últimos meses, gran parte de la competencia entre los tres se ha reducido a la competencia por las capacidades de análisis de datos y las formas creativas de integrar Apache Spark, un motor de procesamiento de Big Data de código abierto con casos de uso desde flujos de datos en tiempo real hasta aprendizaje automático. MapR anunció recientemente MapR Streams como parte de una "plataforma de datos convergentes" que integra Hadoop, procesamiento de flujo basado en Spark y análisis. Hortonworks lanzó una actualización de la Plataforma de datos de Hortonworks (HDP) con análisis de Spark en memoria, y Cloudera ofrece una variedad de integraciones de código abierto de Spark a través de su Iniciativa One Platform, además de ofrecer clases de capacitación de Spark.
"Están sucediendo muchas cosas en los espacios de gestión de información e infraestructura de información, y no todo es Hadoop", explicó Heudecker. "Hay un tremendo impulso detrás del modelo de procesamiento de datos centrado en la velocidad y la memoria de Spark, aunque el desarrollo de Spark aún se encuentra en sus primeras etapas. Spark será otra lengua franca en el procesamiento de datos, muy parecido a SQL hoy, y definitivamente está mostrando signos de que tiene algunas piernas a medida que más y más empresas invierten en él ".
Heudecker también destacó la importancia de los jugadores en la nube en Big Data; los gigantes tecnológicos que han integrado Hadoop y otras tecnologías de Big Data en sus ofertas existentes de Infraestructura como Servicio (IaaS).
Amazon Web Services (AWS) utiliza su servicio Amazon Elastic MapReduce (EMR) para la orquestación de Hadoop basada en la nube. Microsoft ofrece una gran cantidad de servicios de Big Data dentro de su plataforma en la nube Azure, en asociación con Hortonworks en su servicio HDInsight para administrar Apache Hadoop, Spark, HBase y Storm, junto con su Azure Data Lake y Azure Data Analytics basados en SQL. IBM tiene tanto su oferta local de IBM Open Platform para Hadoop como IBM BigInsights, un paquete de análisis que se ejecuta además de Hadoop y Apache Spark-as-a-service en su nube Bluemix. La lista continúa y las empresas encuentran los casos de uso más aplicables en la nube.
"Estimamos que AWS solo tiene alrededor de 5, 000 clientes, por lo que es más del doble de la base de clientes de los juegos puros combinados", dijo Heudecker. "Una de las ventajas de trasladarse a la nube es que obtienes un ecosistema. Puedes obtener las distribuciones de Hadoop de juego puro en cualquiera de las ofertas de IaaS. MapR está disponible en todas las nubes que puedas imaginar, aparte de las de IBM; para Cloudera y Hortonworks. No hemos visto que la disponibilidad de la nube se convierta en un factor demasiado importante al elegir entre un proveedor y otro ".
Elegir una estrategia de datos empresariales
Tanto para las pequeñas y medianas empresas (PYMES) como para las empresas en crecimiento, al invertir en soluciones de análisis y procesamiento de datos, Heudecker dijo que el factor decisivo es qué plataforma puede proporcionar el más alto nivel de servicio. El mayor desafío para las empresas, según Gartner, es la brecha de habilidades: averiguar quién administrará la plataforma una vez que esté instalada y desplegada.
"Si las empresas buscan un socio de plataforma de datos, ¿quién las ayudará con la ingesta de datos? ¿Quién las ayudará a crear la aplicación analítica? En cuanto a los tres Hadoop-ers de juego puro, los criterios de evaluación tienden a estar alrededor de madurez de las herramientas y consolas de gestión, las herramientas de gobierno de datos y el rendimiento ".
El otro aspecto interesante de elegir una plataforma Hadoop es la falta de lealtad. Las empresas vuelven a evaluar su plataforma Hadoop con una frecuencia de 6 a 12 meses para ver si los componentes de procesamiento de datos siguen siendo los adecuados, debido a la rapidez con que cambia el espacio y lo poco que se han diferenciado los grandes jugadores. Heudecker dijo que el 20 por ciento de las compañías con las que ha hablado tienen múltiples distribuciones de Hadoop ejecutándose en sus centros de datos o en la nube, ya sea permitiendo que diferentes equipos elijan su plataforma de elección o diversificándose intencionalmente para evitar quedarse atascado con una sola distribución de Hadoop.
Este tipo de cartera de plataforma diversificada se alimenta de lo que Frank Buytendijk, vicepresidente de investigación de Gartner y analista distinguido centrado en la estrategia digital, llama "información como un activo". Como no se puede administrar un negocio sin capital, mano de obra, materiales e instalaciones físicas o virtuales, Buytendijk dijo que no se puede administrar un negocio sin información.
"Solíamos ver los negocios en términos de los tres flujos: el flujo primario era de bienes, el flujo secundario era dinero, y el flujo terciario era información para asegurar que los bienes y el dinero estuvieran alineados. Ahora en la mayoría de los negocios es al revés. El flujo principal es la información, desde la identificación y la configuración hasta el marketing de contenidos, etc. No importa si llama a eso Big Data o no ".
"Big Data" está desactualizado
Buytendjik dijo que no ve a Big Data como una tecnología separada para las empresas, sino como un tema o mentalidad dentro de su estrategia digital general.
"No creo en tener una estrategia de Big Data", dijo Buytendjik. "Ya casi no hay una estrategia comercial sin componentes digitales, por lo que creo en tener una estrategia digital en la que todo tipo de tecnologías brinden capacidades críticas. Esto incluye dispositivos móviles, sociales, en la nube, IoT, máquinas inteligentes y Big Data".
Heudecker cree que comenzaremos a hablar de "Big Data" cada vez menos, porque ahora son solo datos. Así se hacen los negocios. Los volúmenes masivos y la alta velocidad de datos ya no son tan desalentadores.
"Big Data está siendo subsumido una vez más por la información y el análisis", dijo Heudecker. "La categoría de Big Data francamente no es diferente. Siempre nos preguntan el tamaño del mercado de Big Data, pero ¿qué significa eso? Big Data no es realmente un mercado, es un concepto. Para una empresa, pensar en Big Data como algo único y especial que es radicalmente diferente de lo que has hecho antes es un error. En este punto, los datos son simplemente normales ".