Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.
Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.
Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sà bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnologÃa que ha propiciado a su mayor difusión ha sido Hadoop. Con la creación de Hadoop en 2005 se ha cubierto la necesidad de analizar grandes volúmenes de datos no estructurados con una solución más barata que las existentes, con mayor rendimiento y alto grado de personalización.  El stack de Hadoop es capaz de funcionar con gran variedad de arquitecturas hardware comodity y es una solución de análisis ágil y económica para las empresas con grandes necesidades en el análisis de los datos, sin importar el tamaño de la organización. Hadoop es una gran revolución en el procesamiento y análisis de cantidades masivas de datos.  Según Gartner en 2012 su Hype cycle for Emerging Technologies Big Data se encuentra llegando al pico de las expectativas infladas.
Hadoop es 100% open source y está en continuo desarrollo. El crodwsourcing (comunidad de desarrolladores que contribuyen en crear SW) proporciona un alto grado de innovación y continúa mejora, de hecho, son los propios empleados de empresas punteras en soluciones Haadop, los que contribuyen a la mejora de la plataforma. Normalmente por propios intereses de las compañÃas, que tienen mayores necesidades, son los que incrementan las funcionalidades y las capacidades de Haadop.
Existen multitud soluciones de código abierto para procesar masivamente datos no estructurados (Apache Hadoop, R, Cascading, Elasticsearch, Apache Hbase, Apache Cassandra,  MongoDB, Apache CouchDB, etc). Me gustarÃa dar una visión de cuales son los proveedores con soluciones Big Data (software+Hardware) más relevantes en el mercado de soluciones Hadoop. Recomiendo el artÃculo de Wikibon sobre un estudio del mercado de Big Data y una previsión para el 2017.
Dadas las circunstancias de inmadurez de muchas de las opciones voy a basarme en el siguiente criterio para escoger los proveedores para el artÃculo:
·      La oferta actual de soluciones Big Data.
·      La estrategia de la empresa en este ámbito.
·      Presencia en el mercado.
·      Integración con otros proveedores.
 Amazon Web Services (AWS)
Considerado el proveedor de servicios más importante de Hadoop en la nube (Amazon fue de las empresas pioneras en utilizar las funcionalidades de Hadoop y gran colaborador en sus avances). El servicio Elastic MapReduce (EMR) ya ha logrado una considerable adopción en grandes y medianas empresas. Para una amplia gama de usuarios, AWS EMR es la vÃa de acceso principal a una plataforma Hadoop de nivel empresarial ya que no requiere ningún tipo de inversión ni en hardware ni en software dado que es una solución en nube. Permite un pago por uso que se contabiliza por horas y por espacio en disco consumido. Ofrece asà unas posibilidades de escalabilidad muy potentes.
Desde principios de este año ofrece la posibilidad de utilizar un servicio para DataWare con Redshift (solución que pretende competir con los Appliance EDW de IBM, EMC, Oracle o HP).
IBM cuenta con la plataforma y portfolio de aplicaciones más profunda de Big Data, según Forrester, es el lÃder absoluto del mercado, el más fuerte en aspectos de estrategia y el que mejor gama de productos ofrece.
Está  bien establecido en su mercado. Tiene su propia distribución de Hadoop con una gran cantidad de servicios profesionales, amplios programas de I+D+i en el desarrollo de las tecnologÃas asociadas. En resumen, IBM tiene un número considerable de soluciones y servicios para Big Data (engloba tanto hardware como software), aparte de una gran cartera de clientes y software, aplicaciones aparte de alguna que otra oferta de servicios en la nube para BigData.
Posee una oferta de hardware muy potente. Con la última compra de la start-up Texas Memory Systems ha potenciado su oferta de almacenamiento de alto rendimiento con la familia IBM FlashSystems. Al igual ocurre con la familia de IBM Pure Sytems&Data que se han hecho uno de los referentes en el mercado de Appliance OLAP y nubes privadas.
Aparte posee el paquete de productos InfoSphere (Infosphere Streams, InfoSphere BigInsights,  InfoSphere Data Explorer, InfoSphere Information Server y InfoSphere Master Data Management) a nivel Software, uno de los más fuertes del mercado. Cubre 360º la arquitectura para explotar Big Data. Permite integrar con proveedores importantes de analÃtica como SAS, Cloudera, MicroStrategy, Oracle, etc. Las facilidades de integración con otros productos son posibles pero no de fácil implantación. Su appliance Netezza ofrece mejor rendimiento para base de datos OLTP que la competencia, es fácil de instalar y usar, sus procesadores FPGA (Field Programmable array) mejoran el rendimiento ante cuellos de botella.
Ofrecen servicios profesionales muy completos (formación, consultoria, integración, mantenimiento, etc).
EMC Greenplum tiene soluciones Software que cubren prácticamente todas las soluciones empresariales y herramientas de integración de datos propios (Greenplum Unified Analytics Platform (UAP), Greenplum Database MPP, Pivotal HD, Greenplum Chorus, GreenPlum Analytic Lab, Greenplum MR (MapReduce)). Posee fuertes alianzas con proveedores de software especialistas en soluciones para la analÃtica.
Su producto más extendido es Greenplum Database MPP y Pivotal HD. Ofrece servicios profesionales (Cientificos de datos, desarrolladores, etc).
HP compro Vertica en 2011. Con la compra de esta start-up HP completa su oferta hardware y software para dar solución a sus clientes en Big Data. Su solución basada en MPP ofrece posibilidades de explotar el appliance con Hadoop. Posee alianza con Cloudera para integrar su solución de Hadoop. Tiene alianzas con los principales proveedores de soluciones de analÃtica. Su presencia en el mercado ha crecido con respecto a este tipos de soluciones gracias a su posicionamiento en los servicios que ofrece y clientes que posee. Su posibilidades de integración con Hadoop son con MapReduce, Sqoop y HDFS por lo que limita su capacidad de integración con respecto a otros proveedores (no permite Hbase, Hive o Pig). Posee el Appliance más barato del mercado salvo la oferta en la nube que es más barata. Ofrece servicios profesionales completos.
Cloudera tiene un servicio profesional de gran calidad y creciente. Cloudera no ofrece EDW propia, no proporciona herramientas de modelado de Hadoop  y no ofrece la integración de datos real-time/lowlatency. Sin embargo, Cloudera tiene fuertes asociaciones con otros proveedores de tecnologÃa en la mayorÃa de las áreas en las que su propia cartera carece de una oferta.
Ofrece servicios profesionales y software para el ecosistema de Hadoop. Nació como una empresa de la mano de Yahoo y Benchmark Capital en junio de 2011. Su principal actividad es la de fomentar el uso de una distribución de Apache Hadoop, Hortonworks Hadoop.Es la empresa lÃder en tecnologÃa Hadoop y la que realiza mayores aportaciones a la comunidad como constructor de todo el ecosistema Big Data. Ha lanzado recientemente su plataforma de datos Hortonworks que incorpora el software puramente en Apache Hadoop de código libre. Posee fuertes alianzas y compatibilidad para el Appliance de Teradata. Sus clientes Microsoft y Yahoo resultan un buen escaparate para obtener mayor cuota de mercado.
Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sà bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnologÃa que ha propiciado a su mayor difusión ha sido Hadoop. Con la creación de Hadoop en 2005 se ha cubierto la necesidad de analizar grandes volúmenes de datos no estructurados con una solución más barata que las existentes, con mayor rendimiento y alto grado de personalización.  El stack de Hadoop es capaz de funcionar con gran variedad de arquitecturas hardware comodity y es una solución de análisis ágil y económica para las empresas con grandes necesidades en el análisis de los datos, sin importar el tamaño de la organización. Hadoop es una gran revolución en el procesamiento y análisis de cantidades masivas de datos.  Según Gartner en 2012 su Hype cycle for Emerging Technologies Big Data se encuentra llegando al pico de las expectativas infladas.
Hadoop es 100% open source y está en continuo desarrollo. El crodwsourcing (comunidad de desarrolladores que contribuyen en crear SW) proporciona un alto grado de innovación y continúa mejora, de hecho, son los propios empleados de empres
Signup for Thought Leader
Get the latest IT management thought leadership delivered to your mailbox.