Please use this identifier to cite or link to this item: http://www.dspace.espol.edu.ec/handle/123456789/14757
Title: Utilización de la plataforma hadoop para la detección de potencial plagio con indicadores de probabilidad de certeza de las tareas enviadas a un sistema de administración de cursos (aplicable para sidweb o metis)
Authors: Raue, Federico, director
Cruz Ramírez, Eduardo Segundo
Lavayen Alarcón, Diego Armando
Keywords: Utilización de la plataforma Hadoop
Sistema de administración de cursos
Issue Date: 2010
Abstract: En el presente trabajo se expone un informe del análisis, diseño, implementación y pruebas del módulo para la detección de potencial plagio de las tareas enviadas a un Sistema de Administración de Cursos, utilizando como base tecnológica la programación en paralelo sobre la plataforma de Hadoop, que podría ser adaptado al SIDWeb o Metis. El documento se encuentra dividido principalmente en cinco capítulos que, en su totalidad, exponen los aspectos teóricos y técnicos utilizados para comprender el porqué y el cómo se desarrolló este tema. En el primer capítulo, se define la problemática que se desea resolver indicando el objetivo general y sus respectivos objetivos específicos que planteamos al inicio de esta propuesta. Este capítulo determina una meta concreta y esboza las directrices procedimentales que guiarán el proyecto, acotadas por las limitantes intrínsecas y extrínsecas del desarrollo del mismo. En el segundo capítulo, se presenta un análisis de la base conceptual que utilizamos para comprender cómo la necesidad de comparar dos cadenas está presente en otras ramas de la ciencia, como en la biología, y cómo la solución ha sido propuesta con el uso de herramientas informáticas; así mismo, se expone la estrategia para realizar alineamientos locales de secuencias biológicas con el uso del algoritmo de Smith-Waterman[1] y cómo éste resulta de interés en nuestro trabajo como base de la propuesta del PhD. Robert W. Irving[2] en el que se realiza una mejora para maximizar la cantidad de alineamientos resultantes a partir de dos cadenas sujetas a comparación. En el tercer capítulo, se expone conceptualmente las tecnologías utilizadas para llevar a cabo el proyecto, tanto como el servicio de almacenamiento escalable de datos ofrecido por Amazon (S3), la infraestructura con capacidad de cómputo variable (también de Amazon) para el procesamiento de aplicaciones flexibles tolerante a fallos (EC2), la plataforma utilizada para el procesamiento masivo de datos (Hadoop) y el modelo de programación Map/Reduce, que proponemos para el desarrollo de este proyecto. El cuarto capítulo detalla específicamente como se hizo frente a la problemática expuesta en la implementación del módulo, resultado de la unión conceptual de los puntos citados en los capítulos dos y tres, dividiendo el proceso en dos partes básicamente: • Primero: el pre-procesamiento de los archivos del Sistema de Administración de Cursos para generar archivos en texto plano similares a sus fuentes en los que se conservaron sólo las palabras no consideradas como vacías o carentes de significado semántico y con sólo caracteres trascendentes (caracteres en el rango de la ‘a’ a la ‘z’, de la ‘A’ a la ‘Z’, del ‘0’ al ‘9’). • Segundo: la implementación del algoritmo de Smith-Waterman con las mejoras planteadas por PhD. Robert W. Irving para determinar el plagio haciendo uso de la plataforma de Hadoop con su modelo de programación Map/Reduce. En el quinto capítulo se expone un resumen de las pruebas realizadas y el análisis comparativo obtenido a partir de éstas, permitiendo establecer empíricamente cómo, con el uso de más nodos y una cantidad constante de datos, es posible reducir el tiempo promedio de cómputo total. Al finalizar el presente trabajo proponemos nuestras conclusiones y las recomendaciones para futuras implementaciones, a partir de los problemas presentes y los resultados obtenidos en la elaboración del mismo.  
URI: http://www.dspace.espol.edu.ec/handle/123456789/14757
Appears in Collections:Tesis de Computación

Files in This Item:
File Description SizeFormat 
Informe de Materia de Graduación.pdfArchivo Prinicipal2.74 MBAdobe PDFView/Open
Informe de Materia de Graduación.docx2.59 MBMicrosoft Word XMLView/Open
Informe de Materia de Graduación.doc3.19 MBMicrosoft WordView/Open


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.