Hadoop y proveedores de soluciones Big Data



Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.
Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.

Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.
Big Data está cambiando el mundo donde vivimos y, tarde o temprano, los CTO´s de las organizaciones han de ir familiarizándose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sí bien es cierto que aún es un mercado en proceso de madurez  ya no son soluciones adoptadas únicamente por early-adopters. Todos los grandes están apostando por Hadoop y es que cuando hablamos de Big Data quizás la tecnología que ha propiciado a su mayor difusión ha sido Hadoop.

Big Dataย estรก cambiando el mundo donde vivimos y, tarde o temprano, los CTOยดs de las organizaciones han de ir familiarizรกndose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sรญ bien es cierto que aรบn es un mercado en proceso de madurez ย ya no son soluciones adoptadas รบnicamente por early-adopters.ย Todos los grandes estรกn apostando por Hadoop y es que cuando hablamos de Big Data quizรกs la tecnologรญa que ha propiciado a su mayor difusiรณn ha sido Hadoop. Con la creaciรณn de Hadoop en 2005 se ha cubierto la necesidad de analizar grandes volรบmenes de datos no estructurados con una soluciรณn mรกs barata que las existentes, con mayor rendimiento y alto grado de personalizaciรณn.ย ย Elย stackย de Hadoop es capaz de funcionar con gran variedad de arquitecturasย hardware comodityย y es una soluciรณn de anรกlisis รกgil y econรณmica para las empresas con grandes necesidades en el anรกlisis de los datos, sin importar el tamaรฑo de la organizaciรณn.ย Hadoop es una gran revoluciรณn en el procesamiento y anรกlisis de cantidades masivas de datos.ย ย Segรบn Gartner en 2012 su Hype cycle for Emerging Technologies Big Data se encuentra llegando al pico de las expectativas infladas.

Hadoop es 100% open sourceย  y estรก en continuo desarrollo. El crodwsourcing (comunidad de desarrolladores que contribuyen en crear SW) proporciona un alto grado de innovaciรณn y continรบa mejora, de hecho, son los propios empleados de empresas punteras en soluciones Haadop, los que contribuyen a la mejora de la plataforma. Normalmente por propios intereses de las compaรฑรญas, que tienenย  mayores necesidades, son los que incrementan las funcionalidades y las capacidades de Haadop.

Existen multitud soluciones de cรณdigo abierto para procesar masivamente datos no estructurados (Apache Hadoop,ย R,ย Cascading,ย Elasticsearch,ย Apache Hbase,ย Apache Cassandra,ย ย MongoDB,ย Apache CouchDB, etc). Me gustarรญa dar una visiรณn de cuales son los proveedores con soluciones Big Data (software+Hardware) mรกs relevantes en el mercado de soluciones Hadoop. Recomiendo el artรญculo deย Wikibonย sobre un estudio del mercado de Big Data y unaย previsiรณn para el 2017.

Dadas las circunstancias de inmadurez de muchas de las opciones voy a basarme en el siguiente criterio para escoger los proveedores para el artรญculo:
ยทย ย ย ย ย ย La oferta actual de soluciones Big Data.
ยทย ย ย ย ย ย La estrategia de la empresa en este รกmbito.
ยทย ย ย ย ย ย Presencia en el mercado.
ยทย ย ย ย ย ย Integraciรณn con otros proveedores.
ย Amazon Web Services (AWS)
Considerado elย proveedor de servicios mรกs importante de Hadoop en la nubeย (Amazon fue de las empresas pioneras en utilizar las funcionalidades de Hadoop y gran colaborador en sus avances). El servicio Elastic MapReduce (EMR) ya ha logrado una considerable adopciรณn en grandes y medianas empresas. Para una amplia gama de usuarios,ย AWS EMRย es la vรญa de acceso principal a una plataforma Hadoop de nivel empresarial ya que no requiere ningรบn tipo de inversiรณn ni en hardware ni en software dado que es una soluciรณn en nube. Permite un pago por uso que se contabiliza por horas y por espacio en disco consumido. Ofrece asรญ unasย posibilidades de escalabilidad muy potentes.
Desde principios de este aรฑo ofrece la posibilidad de utilizar un servicio para DataWare con Redshift (soluciรณn que pretende competir con los Appliance EDW de IBM, EMC, Oracle o HP).
AWS cuenta con una amplia gama de partners asociados que ofrecen servicios de acceso/consulta, modelado y desarrollo, integraciรณn de datos, administraciรณn de clรบster y aplicaciones empresariales de datos Hadoop. ย AWS es un proveedor rentable, sobre todo para medianas empresas y start-ups. Se ofrece acceso bajo demanda a las tecnologรญasย Big Dataย tanto para recopilar, almacenar, calcular y colaborar en torno a conjuntos de datos de todos los tamaรฑos, desde el servicio de Hadoop administrado, Elastic MapReduce, a la poderosa familia de procesadores Intel Xeon E5. Aparte de los beneficios en costes, tambiรฉn es necesario indicar que la rรกpida adopciรณn de esta tecnologรญa permite una puesta en marcha en cuestiรณn de dรญas, en lugar de en meses. Permite la integraciรณn con un nรบmero reducido de aplicaciones de BI.
IBM
IBMย cuenta con la plataforma y portfolio de aplicaciones mรกs profunda de Big Data, segรบnย Forrester, es el lรญder absoluto del mercado, el mรกs fuerte en aspectos de estrategia y el que mejor gama de productos ofrece.
Estรกย ย bien establecido en su mercado. Tiene su propia distribuciรณn de Hadoop con una gran cantidad de servicios profesionales, amplios programas de I+D+i en el desarrollo de las tecnologรญas asociadas. En resumen, IBM tiene un nรบmero considerable de soluciones y servicios para Big Data (engloba tanto hardware como software), aparte de una gran cartera de clientes y software, aplicaciones aparte de alguna que otra oferta de servicios en la nube para BigData.
Posee una oferta de hardware muy potente. Con la รบltima compra de la start-up Texas Memory Systems ha potenciado su oferta de almacenamiento de alto rendimiento con la familiaย IBM FlashSystems. Al igual ocurre con la familia deย IBM Pure Sytems&Dataย que se han hecho uno de los referentes en el mercado de Appliance OLAP y nubes privadas.
Aparte posee el paquete de productosย InfoSphereย (Infosphere Streams, InfoSphere BigInsights,ย ย InfoSphere Data Explorer,ย InfoSphere Information Serverย yย InfoSphere Master Data Management)ย a nivel Software, uno de los mรกs fuertes del mercado. Cubre 360ยบ la arquitectura para explotar Big Data. Permite integrar con proveedores importantes de analรญtica como SAS, Cloudera, MicroStrategy, Oracle, etc. Las facilidades de integraciรณn con otros productos son posibles pero no de fรกcil implantaciรณn. Su applianceย Netezzaย ofrece mejor rendimiento para base de datos OLTP que la competencia, es fรกcil de instalar y usar, sus procesadores FPGA (Field Programmable array) mejoran el rendimiento ante cuellos de botella.
Ofrecen servicios profesionales muy completos (formaciรณn, consultoria, integraciรณn, mantenimiento, etc).

EMC

Greenplumย fue adquirida por EMC a mediados del 2010, formando la divisiรณn de Big Data llamada EMC Greenplum, es la primera empresa en utilizar Appliances de MPP con Hadoop (todas las funciones de Hadoop + las mejoras de rendimiento de MPP para OLAP). Tambiรฉn tiene su propio SW de distribuciรณn de Hadoop, su portfolio de soluciones es muy sรณlido en productos de almacenamiento, y tiene una amplia fuerza de servicios profesionales de consultores tรฉcnicos de EMC y los datos cientรญficos con experiencia Hadoop.
EMC Greenplum tiene soluciones Software que cubren prรกcticamente todas las soluciones empresariales y herramientas de integraciรณn de datos propios (Greenplum Unified Analytics Platform (UAP), Greenplum Database MPP, Pivotal HD, Greenplum Chorus, GreenPlum Analytic Lab, Greenplum MR (MapReduce)). Posee fuertes alianzas con proveedores de software especialistas en soluciones para la analรญtica.
Su producto mรกs extendido es Greenplum Database MPP y Pivotal HD. Ofrece servicios profesionales (Cientificos de datos, desarrolladores, etc).
Oracle recientemente a travรฉs de su alianza con Cloudera ofrecenย Oracle BigData Applianceย que ofrece los beneficios de Hadoop y sus herramientas mรกs las funcionalidades de tecnologรญa MPP que poseeย Exadata.ย A parte permite la integraciรณn con otras distribuciones de Hadoop gracias a Oracle Loader for Hadoop (OLH), Oracle Direct Connector for Hadoop Distributed File System (HDFS), Oracle Data Integrator Application Adapter for Hadoop, Oracle R Connector for Hadoop, ย Oracle Big Data Connectors.ย Al catรกlogo de productos hay que aรฑadir su soluciรณn para in-memoryย Exalyticsย y su software In-Database Analytics (Oracle R Enterprise, In-Database Data Mining , In-Database Text Mining , In-Database Semantic Analysis , In-Database Spatial y In-Database MapReduce ) que tiene gran aceptaciรณn. Incluyen una fuerte estrategia a nivel hardware que cubrirรญa toda la arquitectura necesaria para Big Data y cuenta con su ventaja en cuanto al SW de BBDD. Ofrecen todo tipo de servicios profesionales apoyados por Cloudera en la parte de Hadoop.
HP compro Vertica en 2011. Con la compra de esta start-up HP completa su oferta hardware y software para dar soluciรณn a sus clientes en Big Data. Su soluciรณn basada en MPP ofrece posibilidades de explotar el appliance con Hadoop. Posee alianza con Cloudera para integrar su soluciรณn de Hadoop. Tiene alianzas con los principales proveedores de soluciones de analรญtica. Su presencia en el mercado ha crecido con respecto a este tipos de soluciones gracias a su posicionamiento en los servicios que ofrece y clientes que posee. Su posibilidades de integraciรณn con Hadoop son con MapReduce, Sqoop y HDFS por lo que limita su capacidad de integraciรณn con respecto a otros proveedores (no permite Hbase, Hive o Pig). Posee el Appliance mรกs barato del mercado salvo la oferta en la nube que es mรกs barata. Ofrece servicios profesionales completos.
Proveedor referente y pionero en ofrecer Appliance para base de datos OLAP con procesamiento MPP.ย  Adquiriรณ la start-up Aster Data en 2011. Completa su oferta con integraciรณn con Hadoop a travรฉs de distintos servicios (Aster SQL-H y Aster-Hadoop Adaptor) en la que permite explotar el appliance con SQL y utilizar el potencial de Apache Hadoop HCatalog (MapReduce, Hive, Pig y HDFS) . Servicios profesionales completos. Su Appliance es el mejor como Datawarehouse, soporta aumento de usuarios sin degradaciรณn y es mรกs escalable que el resto de la competencia.

MapR

Se trata de otro de los principales proveedores de distribuciรณn de Hadoop. Proporciona facilidad de uso, fiabilidad y ventajas de rendimiento para aplicaciones de base NoSQL y Hadoop. Tiene la gama de productos de familia Hadoop mรกs amplia del mercado. La fiabilidad de su soluciรณn se consolida con una amplia gama de socios con soluciones BigData. MapR ofrece un rendimiento de mรกs de un millรณn de operaciones por segundo. Proporciona ventajas de escalabilidad con soporte de hasta un billรณn de tablas a travรฉs de miles de nodos. M7 tambiรฉn proporciona una recuperaciรณn instantรกnea de fallos, asegurando la disponibilidad del 99,999% para aplicaciones HBase y Hadoop utilizando infraestructura propia y las de Amazon, Google y HP en la nube. No proporcionan servicios profesionales de forma directa aunque poseen alianzas estratรฉgicas con consultoras importantes del sector de las TIC.ย ย Integraciรณn con soluciones de analรญtica de SAS, MicroStrategy, Datameer, etc.
Hadoop es el pure-play con la mayor adopciรณn. El core de su negocio es su distribuciรณn de Apache Hadoop. Es el de mejor acogida por parte de empresas que adoptan este tipo tecnologรญas al comienzo de su expansiรณn (mas conocidas como early-adopters) y ademรกs tambiรฉn es muy popular entre los proveedores de servicios basados ??en Hadoop en la nube.ย ย Con su nueva versiรณn Impala mejora muy considerablemente su distribuciรณn de Hadoop.
Cloudera tiene un servicio profesional de gran calidad y creciente. Cloudera no ofrece EDW propia, no proporciona herramientas de modelado de Hadoopย ย y no ofrece la integraciรณn de datos real-time/lowlatency. Sin embargo, Cloudera tiene fuertes asociaciones con otros proveedores de tecnologรญa en la mayorรญa de las รกreas en las que su propia cartera carece de una oferta.
Ofrece servicios profesionales y software para el ecosistema de Hadoop. Naciรณ como una empresa de la mano de Yahoo y Benchmark Capital en junio de 2011. Su principal actividad es la de fomentar el uso de una distribuciรณn de Apache Hadoop, Hortonworks Hadoop.Es la empresa lรญder en tecnologรญa Hadoop y la que realiza mayores aportaciones a la comunidad como constructor de todo el ecosistema Big Data. Ha lanzado recientemente su plataforma de datos Hortonworks que incorpora el software puramente en Apache Hadoop de cรณdigo libre. Posee fuertes alianzas y compatibilidad para el Appliance de Teradata. Sus clientes Microsoft y Yahoo resultan un buen escaparate para obtener mayor cuota de mercado.
Googleย que fue de los promotores de que Hadoop sea hoy un referente como tecnologรญa para explotar Big Data. Google a travรฉs de su servicioย BigQueryย ofrece servicios en la nube basados en MapReduce ( es la base de Hadoop) con otra soluciรณn con base de datos BigTable (soluciรณn OLAP que utiliza MPP) que pueden ser visualizados gracias a BigQuery browser. Permite una soluciรณn escalable con precio por consumo (por hora y espacio en disco) que intenta competir con Amazon. Ofrece servicios paralelos e integrables para SQL con Google Cloud SQL.

 

Images?Q=Tbn:and9Gcr4Q9Mlzl0Obw4Ylzw0Hch6Jgihswbeqx6Vjups3Fv022Alwmdw6W

Big Dataย estรก cambiando el mundo donde vivimos y, tarde o temprano, los CTOยดs de las organizaciones han de ir familiarizรกndose con el abanico de soluciones y proveedores que hay en el entorno de Big Data. Sรญ bien es cierto que aรบn es un mercado en proceso de madurez ย ya no son soluciones adoptadas รบnicamente por early-adopters.ย Todos los grandes estรกn apostando por Hadoop y es que cuando hablamos de Big Data quizรกs la tecnologรญa que ha propiciado a su mayor difusiรณn ha sido Hadoop. Con la creaciรณn de Hadoop en 2005 se ha cubierto la necesidad de analizar grandes volรบmenes de datos no estructurados con una soluciรณn mรกs barata que las existentes, con mayor rendimiento y alto grado de personalizaciรณn.ย ย Elย stackย de Hadoop es capaz de funcionar con gran variedad de arquitecturasย hardware comodityย y es una soluciรณn de anรกlisis รกgil y econรณmica para las empresas con grandes necesidades en el anรกlisis de los datos, sin importar el tamaรฑo de la organizaciรณn.ย Hadoop es una gran revoluciรณn en el procesamiento y anรกlisis de cantidades masivas de datos.ย ย Segรบn Gartner en 2012 su Hype cycle for Emerging Technologies Big Data se encuentra llegando al pico de las expectativas infladas.

Proxy?Url=Http%3A%2F%2Finformationstrategyrsm.files.wordpress.com%2F2012%2F10%2Femerging Technologies Hype Cycle 20124

Hadoop es 100% open sourceย  y estรก en continuo desarrollo. El crodwsourcing (comunidad de desarrolladores que contribuyen en crear SW) proporciona un alto grado de innovaciรณn y continรบa mejora, de hecho, son los propios empleados de empres

Find More References Like This

Signup for Thought Leader

Get the latest IT management thought leadership delivered to your mailbox.

Mailchimp Signup (Short)
Cioindex No Spam Guarantee Shield

Our 100% โ€œNO SPAMโ€ Guarantee

We respect your privacy. We will not share, sell, or otherwise distribute your information to any third party. Period. You have full control over your data and can opt out of communications whenever you choose.

CIO Portal