Algoritmos de detección de anomalías y mitigación de falsos positivos en entornos Big Data

  1. López Pretel, David
Dirigée par:
  1. Julián Luengo Martín Co-directeur
  2. Diego Jesús García Gil Co-directeur/trice

Université de défendre: Universidad de Granada

Fecha de defensa: 21 mars 2024

Jury:
  1. Luciano Sánchez Ramos President
  2. Natalia Díaz Rodríguez Secrétaire
  3. Álvar Arnaiz González Rapporteur

Type: Thèses

Résumé

A medida que la digitalización se ha expandido a casi todos los aspectos de la vida moderna, desde los dispositivos inteligentes hasta las redes sociales y los sensores conectados, a lo largo del tiempo se han generado grandes cantidades de datos reales. El constante crecimiento en la generación de datos ha creado la necesidad de desarrollar nuevas tecnologías para procesar esta creciente cantidad de información. Este volumen de información sin precedentes ha superado con creces las capacidades de las técnicas tradicionales de procesamiento de datos, aumentando la necesidad de tecnologías más avanzadas como el procesamiento distribuido, la computación en la nube y el aprendizaje automático. Estas tecnologías no solo ayudan a gestionar y almacenar grandes cantidades de datos, sino que también obtienen información valiosa de esos datos, lo que conduce a avances significativos en áreas como la inteligencia artificial, el análisis de datos y la toma de decisiones basada en datos. El crecimiento de la generación de datos continúa obligando a la industria a desarrollar soluciones cada vez más innovadoras para explotar plenamente el potencial de esta riqueza de información. Uno de los escenarios dentro del ámbito de la inteligencia artificial y el aprendizaje automático que más ha sufrido dicho incremento en el volumen de datos generados es la detección de anomalías. El objetivo de la detección de anomalías es identificar las observaciones que difieren significativamente de la mayoría de los datos. La detección de anomalías es una tarea esencial en el análisis de datos, especialmente en entornos Big Data}(entornos con un volumen de datos enorme) y series temporales (datos con una componente temporal). Se pueden utilizar dos enfoques principales para realizar esta tarea: supervisado y no supervisado. En el método supervisado, se entrena un modelo utilizando ejemplos etiquetados como normales o anómalos. Este método es eficaz cuando se han etiquetado claramente los datos históricos, pero puede estar limitado en casos excepcionales o cuando se desconocen las anomalías. Por otro lado, los métodos no supervisados se utilizan cuando no hay etiquetas y el objetivo es detectar patrones inusuales en los datos. En las series temporales, la detección de anomalías puede identificar comportamientos atípicos a lo largo de la serie temporal, como picos o tendencias inusuales. En entornos Big Data, donde los volúmenes de datos son enormes y diversos, la detección de anomalías no supervisadas es especialmente útil para identificar patrones desconocidos o emergentes. La combinación de estos métodos es esencial para garantizar la integridad y seguridad del sistema, así como para detectar oportunidades y amenazas ocultas en grandes conjuntos de datos y secuencias de tiempo. Asimismo, la identificación de anomalías no es perfecta y puede producir muchos falsos positivos, es decir, se etiquetan datos normales como anómalos. En este contexto, la mitigación de falsos positivos es la tarea de reducir el número de falsos positivos etiquetados por el detector de anomalías, por lo que ambos problemas están estrechamente relacionados. Dada la creciente necesidad e importancia de este tipo de escenarios esta tesis se va a centrar por un lado, en la propuesta de una metodología para resolver problemas de detección de anomalías en combinación de mitigación de falsos positivos en series temporales multivariantes. Mientras que por otro lado, se ha realizado un diseño e implementación de algoritmos de detección de anomalías en entornos Big Data. Concretamente las propuestas son las siguientes: 1. Una metodología en dos etapas para la detección de anomalías para series temporales multivariantes y mitigación de falsos positivos, que crea la fusión de dos modelos de aprendizaje. La primera etapa es una etapa de detección de anomalías. La segunda etapa consiste en entrenar un nuevo clasificador sobre los falsos y verdaderos positivos del detector de anomalías, que refina las observaciones etiquetadas como anómalas por el detector de anomalías para obtener resultados más precisos y de mayor calidad. Los experimentos han sido realizados con dos conjuntos de datos de referencia, así como un estudio de caso real, demostrando el rendimiento y la validez de la propuesta. 2. Se han diseñado e implementado cuatros algoritmos distribuidos para problemas de detección de anomalías en entornos Big Data: HBOS_BD, LODA_BD, LSCP_BD, y XGBOD_BD. Han sido diseñados siguiendo la metodología distribuida MapReduce para ser capaces de manejar problemas en entornos Big Data. Estos algoritmos se han integrado en un paquete Spark, enfocado a tareas de detección de anomalías estáticas y dinámicas en entornos Big Data. Los experimentos han sido realizados utilizando un caso de estudio real por lo que han demostrado el rendimiento y la validez de las propuestas para problemas en entornos Big Data. Las propuestas realizadas aportan soluciones y diferentes maneras de abordar os problemas de detección de anomalías. Por un lado, se aporta un metodología que incluye una etapa de mitigación de falsos positivos, escenario del cual hay poca literatura al respecto. Además se proponen soluciones en entornos Big Data que son de gran ayuda a la hora de poder procesar y analizar las grandes cantidades de datos que se generan día a día.