Description:
El presente trabajo de titulación tiene como objetivo automatizar un proceso masivo de datos de consumo de internet no cobrado a través de Apache Hadoop, para tal propósito el proceso es llevado a una solución Big Data que comprende un clúster de flujo de datos y un clúster de procesamiento distribuido, el primero que ayudará a obtener y transformar las fuentes del proceso a medida que se vayan generando, y el segundo clúster que permitirá analizar y almacenar la gran cantidad de datos con la que trabaja el proceso. Durante el trabajo se crearon 4 flujos de datos en la herramienta NIFI de Hortonworks DataFlow, que obtienen cientos de millones de registros diarios y los depositan en el data warehouse Apache Hive, también se creó un proceso HiveQL ejecutado en el clúster Hortonworks Data Platform que diariamente cruza las fuentes previamente cargadas para detectar el consumo de internet que no es cobrado correctamente.