Resumen:
Debido al constante crecimiento de datos que generan las empresas hoy en día, se ha vuelto muy necesaria la
búsqueda de nuevas plataformas para almacenar y analizar la información, ambientes que consuman menos recursos,
que sean más escalables y que provean una alta disponibilidad. En el presente documento se explica la implementación
de una solución para poder realizar el análisis de grandes volúmenes de información extraída de una Base de Datos
relacional, en menor tiempo y a bajo costo. La solución consiste en el procesamiento paralelo de los datos de una base
de datos de 16Gb, implementando el data warehouse HIVE sobre la plataforma HADOOP para luego realizar un
rápido análisis estadístico de información transaccional y presentarlo a modo de reporte gráfico. Las pruebas
realizadas con diferente número de nodos en el clúster demostraron la gran capacidad, escalabilidad, y bajo costo que
tiene Hive en la ejecución de análisis del “Big Data” en comparación con Bases de Datos relacionales tradicionales.