Resumen:
Cuando dentro de una población se busca estudiar los diferentes aspectos sociales y
económicos además de los factores que los provocan, las encuestas a hogares son la
más usuales fuentes de información para la obtención de datos socieconómicos y
demográficos. La recopilación de estos datos comúnmente se lo realiza de forma manual
y está sujeta a errores en la operación, esto puede ser un generador de sesgos que al
final del proceso nos podrían ofrecer una información errónea de lo que queremos
investigar. Por esto se ha hace precisa la implementación de técnicas que identifiquen
estos sesgos para acciones inmediatas y que no afecten al resultado final del estudio.
Una opción para la detección de estos, son métodos manuales y ordinarios como se ha
venido haciendo, sin embargo con el fin de mejorar la productividad de esta validación
de datos hemos optado por la utilización de técnicas de Machine Learning optimizando
estos procesos con la oportunidad de mejorar la detección de estos errores muestrales.
En este estudio se ejecutan técnicas de Machine Learning a partir del uso de datos de
encuestas realizadas a hogares. Se hicieron pruebas con algoritmos de aprendizaje
supervisado. También realizamos un análisis exploratorio con los datos donde incluimos
una distribución de variables por encuestador para identificar en cuál de ellos no se sigue
el patrón y por lo consiguiente se generaría el sesgo, todo esto previo al modelado. El
mejor modelo fue el de Random Forest con una precisión del 0.8579 que quizás no fue
la mejor entre todos los modelos, pero demostró una buena proporción entre la
sensibilidad de 0.7530 y la especificidad del 0.9628, esto indica una adecuada capacidad
de detección de verdaderos positivos.