Pangool: Big Data fácil


Datasalt ha liberado Pangool, una implementación Java del nuevo paradigma de procesamiento distribuido Tuple MapReduce que simplifica el desarrollo de aplicaciones Big Data sobre Hadoop. Pangool es software libre que permite el desarrollo rápido y sencillo de aplicaciones Big Data de la máxima eficiencia, gracias a su soporte nativo para los patrones de desarrollo más comunes: joins, ordenación secundaria y registros compuestos.

El desarrollo de aplicaciones eficientes para Hadoop no es sencillo. Su API Java es demasiado complicada, especialmente para los patrones de desarrollo más comunes. Pangool viene a solucionar esos problemas, ofreciendo una API alternativa mucho más conveniente. Pangool está pensado para simplificar el desarrollo de las aplicaciones Big Data, mediante la inclusión nativa de los patrones de desarrollo más comunes. Eso si, sin pérdida de eficiencia con respecto a la implementación nativa de Hadoop.

Principales características

Tupla como unidad de información

El uso de tuplas permite al desarrollador una gran flexibilidad para adaptarse a las particularidades de su proyecto, a la par que permite a Pangool ser eficiente en su manejo, reduciendo así el coste global del proyecto.

Agrupación y ordenación

Una tarea de procesamiento en Pangool viene dirigida principalmente por dos parámetros: por qué campos agrupas y por cuáles ordenas. Esta simplificación es uno de los puntos fuertes de Pangool

“Joins” eficientes y fáciles de implementar

Uno de los patrones básicos que surge en cualquier proyecto Big Data es la posibilidad de hacer joins entre varios conjuntos de datos. Pangool soporta joins de manera nativa y eficiente.

Múltiples entradas y salidas

Pangool ofrece soporte integrado en su API para múltiples entradas y salidas, de modo que cada trabajo pueda incorporar varios conjuntos de datos de entrada y varios de salida.

Eficiencia y flexibilidad

Pangool es una alternativa más conveniente a la API Java de Hadoop. Las mismas cosas que se pueden realizar con una, se pueden realizar con la otra, pero no con la misma facilidad. Por eso recomendamos Pangool como puerta de entrada al mundo Big Data.

A pesar de tener una API más potente, la eficiencia de Pangool es muy similar a la obtenida con la API de Hadoop. Pangool simplemente facilita la vida para aquellos que necesitan la eficiencia y la flexibilidad de la API Java de Hadoop.

Características
  • Simplificación del desarrollo en Hadoop
  • Eficiencia y flexibilidad
  • Tuplas como unidad de información
  • Ordenación secundaria sencilla
  • Soporte nativo para joins
  • Configuración por instancia
  • Múltiples entradas y salidas
  • Soporte de varias serializaciones: Thirft, Avro, ProtoStuff, etc
  • Compatiblidad 100% con Hadoop