Detección en tiempo real de phishing por email mediante técnicas de procesamiento de lenguaje natural y algoritmos de clasificación para una empresa corporativa

Samaniego Palacios, Carlos Patricio; Yepez Montenegro, Eduardo Javier; Cruz, Eduardo, Director

Please use this identifier to cite or link to this item: http://www.dspace.espol.edu.ec/handle/123456789/57285

Full metadata record

DC Field	Value	Language
dc.contributor.author	Samaniego Palacios, Carlos Patricio	-
dc.contributor.author	Yepez Montenegro, Eduardo Javier	-
dc.contributor.author	Cruz, Eduardo, Director	-
dc.date.accessioned	2023-05-30T13:50:51Z	-
dc.date.available	2023-05-30T13:50:51Z	-
dc.date.issued	2022	-
dc.identifier.citation	Samaniego, C.; Yépez, E. (2022). Detección en tiempo real de phishing por email mediante técnicas de procesamiento de lenguaje natural y algoritmos de clasificación para una empresa corporativa [Tesis de maestría]. Escuela Superior Politécnica del Litoral	es_EC
dc.identifier.uri	http://www.dspace.espol.edu.ec/handle/123456789/57285	-
dc.description.abstract	La detección de phishing en tiempo real se ha convertido en una necesidad para empresas interesadas en minimizar los riesgos asociados a la pérdida o divulgación de información confidencial valiosa. En esta tesis se propone una solución para la detección de phishing en tiempo real en un entorno corporativo, usando un conjunto de datos de correos electrónicos en español como insumo para el entrenamiento de modelos de machine learning que son utilizados en tareas de procesamiento de lenguaje natural y clasificación. Además, se establecen métricas para evaluar la efectividad de los modelos y se desarrolla un pipeline para la inferencia en tiempo real de correos electrónicos que son phishing. El desarrollo de este trabajo se lo realizó con la infraestructura de Nvidia y el patrocinio de una empresa líder en telecomunicaciones del Ecuador. Se usaron modelos de NLP tipo BERT como BERTIN, roBERTa y Distil BERT para la clasificación de correos en español. Finalmente, se utilizó el framework Nvidia Morpheus para desplegar el modelo de machine learning en producción. El estudio concluye con la creación de un conjunto de datos de correos electrónicos de phishing en español con características léxicas comúnmente usadas por los atacantes. Se obtuvo un modelo con un F-beta score de 0.972 para clasificar correos tipo phishing. Se espera que, al implementar la solución, la compañía reduzca en un 95.83% su carga operacional al disminuir hasta 18 turnos operativos de triage de incidentes con una eficiencia de detección del 90.7%.	es_EC
dc.language.iso	es	es_EC
dc.publisher	ESPOL. FIEC.	es_EC
dc.subject	Detección de phishing	es_EC
dc.subject	NLP	es_EC
dc.subject	Inferencia en tiempo real	es_EC
dc.subject	Deep Learning	es_EC
dc.title	Detección en tiempo real de phishing por email mediante técnicas de procesamiento de lenguaje natural y algoritmos de clasificación para una empresa corporativa	es_EC
dc.type	Thesis	es_EC
Appears in Collections:	Tesis de Maestría en Ciencia de Datos

Files in This Item:

File	Description	Size	Format
T-113198 Samaniego-Yépez.pdf		2.22 MB	Adobe PDF	View/Open

Show simple item record