Resumen:
El núcleo del proyecto es realizar un procesamiento masivo de bitácoras de gran tamaño, que son producto de las actividades generadas por usuarios de una aplicación social en un ambiente virtual. La aplicación adapta publicidad inmersa en el mundo virtual con el fin de tener un mayor protagonismo. El procesamiento extrae información de estos registros que sirven para proveer de conocimiento de potenciales clientes, a las empresas o marcas presentes en la aplicación.
Con el fin de que el proceso de minería sea eficiente y no consuma recursos propios, se usa la plataforma de procesamiento distribuido Hadoop, y los servicios que provee Amazon, de computación en la nube (Cloud Computing), para el desarrollo de este caso de estudio.
Para la realización del proyecto, se ha utilizado el API de Facebook y así obtener datos de usuarios reales ya que la aplicación no está en ejecución real. Se adapta a su vez un formato de logs o bitácoras preestablecido. También se hace uso de datos de empresas que especifican características de usuarios de su interés.
Se hace uso de Java y de PIG como herramienta que proporciona un lenguaje de alto nivel (PIG Latin), para fácilmente procesar las fuentes de datos. Esta herramienta administra los procesos Map-Reduce necesarios para completar la tarea de minería.
Al final de este procesamiento masivo de datos se logra obtener información con respecto a las características de usuarios o mercado objetivo antes especificado por cada empresa o marca en la aplicación. Esta información indica cantidad de usuarios