Description:
El presente trabajo explora dos métodos de búsqueda de motivos
biológicos sobre bases de ADN. Los motivos biológicos son patrones de
nucleótidos que se ubican en la zona de regulación de los genes, y que
controlan la primera etapa del proceso de sintetización de las proteínas, fase
conocida como transcripción genética. Las proteínas son moléculas
esenciales para la vida, pues constituyen no solo parte estructural de las
células, sino que participan también de los procesos de comunicación
intracelular y entre células; basta mencionar unas pocas: colágeno, insulina,
globulinas y una infinidad de hormonas. El identificar estos patrones
permitiría a la industria farmacéutica y agrícola fabricar compuestos químicos
orientados a la cura natural de múltiples enfermedades y plagas con base en
el estímulo o supresión de las proteínas involucradas en la anomalía
biológica. Este problema constituye para la ciencia y la tecnología un
verdadero desafío, pues no se conoce a priori cual es el patrón que se
busca, donde está ubicado en la zona de regulación y que longitud tiene;
más aun, el patrón buscado muta de una instancia a otra. La solución de este
problema se reduce a efectuar una búsqueda sobre espacios
extraordinariamente grandes, lo que hace que este problema combinatorio
sea considerado del tipo NP-Hard: su solución exacta requeriría tiempos de
ejecución que están mas allá de lo razonable aún utilizando máquinas muy
potentes, como supercomputadores, por ejemplo.
En este trabajo se presentan dos métodos de búsqueda de motivos
con base en la computación evolutiva: el MBMAG (método de búsqueda de
motivos basado en algoritmos genéticos) y el MBMEDA (método de
búsqueda de motivos con base en algoritmos por estimación de
distribuciones). Ambos métodos se probaron utilizando 6 bases reales de
ADN: conjuntos de secuencias de nucleótidos donde de manera
experimental se ha determinado exactamente la posición del patrón a buscar
en cada secuencia. Para medir y comparar el rendimiento de estos métodos
de búsqueda con los de otros métodos existentes en la literatura se utilizaron
2 métricas: Precisión y Exhaustividad, tomadas del campo de la
recuperación de información. Estas métricas miden cuan exacta y cuan
completa es la búsqueda sobre los datos.
Los resultados obtenidos al aplicar estos dos métodos a las bases de
datos reales anteriormente indicadas, dieron como mejores resultados los
valores de 0.9 y 0.8 para la precisión y exhaustividad, respectivamente; lo
que significa que de cada 10 patrones encontrados por los métodos
evolutivos 9 fueron motivos reales que estaban presentes en los datos, y que
de cada 10 motivos en los datos se encontraron 8. Esto muestra que los
métodos evolutivos objeto de este trabajo resuelven de manera satisfactoria
el problema de la búsqueda de motivos biológicos: con un desempeño similar
y en algunos casos superior a los obtenidos por otros métodos estadísticos o
combinatorios. Además, los tiempos de ejecución obtenidos son
razonablemente buenos al compararlos con los de otros métodos. Todos
esto permite concluir que los métodos evolutivos aquí utilizados constituyen
una alternativa factible para la solución aproximada de este problema.