Abstract:
En este proyecto se ha elaborado un motor de búsqueda que soporta
expresiones regulares y cuyo repositorio de datos es la Wikipedia la
enciclopedia libre, el sistema permite el ingreso de una expresión regular y
por medio de un requerimiento asíncrono inicializa un clúster EC2, hace el
grep dentro de todos los documentos y cuando obtiene la respuesta muestra
a manera de lista los resultados, cada línea contiene el patrón encontrado y
un enlace a la página de la Wikipedia del artículo.
En el desarrollo de este proyecto se hace uso de los servicios de Amazon, de
librerías desarrolladas en java para la manipulación de páginas de la
Wikipedia, Hadoop framework y los datasets previamente cargados en
Amazon.
Se realizaron pruebas de búsquedas con varias expresiones regulares, estas
búsquedas no fueron posibles de realizar en los motores de búsqueda
tradicionales, ni en el motor de búsqueda de la propia Wikipedia, puesto que
las expresiones regulares buscan texto que siga un patrón y no un texto
específico.
Las pruebas realizadas muestran que un sistema de búsquedas avanzadas
puede ser implementado con un bajo costo y alta escalabilidad utilizando
servicios de cloud computing y procesamiento masivo de datos.