Resumen:
En este trabajo se realiza una aplicación acerca de la utilización del Data Mining. El propósito de esta tesis es automatizar el proceso de agrupamiento de las descripciones de productos de una gran cantidad de registros, para así tener grupos que puedan ser codificados posteriormente y así realizar inferencias sobre estos grupos que son una cantidad menor de datos, y que a la vez sea representativa.
Aquí se considera que, se toma una muestra de la población total (combinaciones de palabras), para poder realizar el análisis, ya que si tomamos la población total aunque serían más confiables los resultados no sería óptimo debido a que realizamos una comparación secuencial de cadenas de caracteres.
Cabe recalcar que esta tesis es una parte importante del proceso de extracción del conocimiento, porque permiten la agrupación de registros que antes se presentaban como separados (descripciones de productos) en cadenas de caracteres y esta agrupación nos permite un procesamiento de los datos de estos productos independientemente en que forma son presentadas estas descripciones
Este problema se lo conoce como Data Matching o De Duplex.