El análisis de agrupamientos y los niveles del reconocimiento de pautas en quimiometría

  1. LLETÍ CONTRERAS, ROSA
Dirigida per:
  1. María Cruz Ortiz Fernández Directora
  2. María Sagrario Sánchez Pastor Codirectora

Universitat de defensa: Universidad de Burgos

Fecha de defensa: 16 de de desembre de 2004

Tribunal:
  1. Hortensia Iturriaga Martínez President/a
  2. Ana Herrero Gutiérrez Secretària
  3. Carlos Herrero Latorre Vocal
  4. Roberto Todeschini Vocal
  5. José Manuel Andrade Garda Vocal
Departament:
  1. QUIMICA

Tipus: Tesi

Teseo: 129159 DIALNET

Resum

La Tesis Doctoral que se ha presentado consta de cinco capítulos, que organizan la materia siguiendo los niveles del reconocimiento de pautas. Su contenido se describe a continuación. En el primer capítulo se ha propuesto un algoritmo para seleccionar variables en un análisis de agrupamientos. Dadas V variables, el número de posibles grupos extraídos de ellas es finito pero crece exponencialmente con V de manera que se debe utilizar una técnica eficiente de búsqueda. La técnica elegida ha sido un algoritmo genético. Como respuesta a optimizar es necesario disponer de un índice que mida la "calidad" del agrupamiento obtenido. Se han explorado los dos índices más eficaces disponibles actualmente: el coeficiente de silueta medio y el "gap". Puesto que el coste computacional del segundo es muy elevado se optó por las siluetas que define (de modo estandarizado) la proximidad de un punto a los demás de su grupo en relación a la distancia que le separa de los que no pertenecen al grupo. La media de las siluetas es el índice para medir la calidad global del agrupamiento. El comportamiento de este índice para el proceso de selección de variables no fue adecuado, por lo que se sustituyó por el inferior de las siluetas individuales. Otra característica del algoritmo que se ha diseñado es su independencia de la técnica de agrupamiento utilizada, sin embargo en este trabajo de investigación sólo se ha aplicado con K-medias. Por ello se han introducido los conceptos básicos de K-medias, su dependencia de la solución inicial y la severa degradación que provoca tanto en el coeficiente de silueta como en el 'gap' la presencia de variables no informativas. El algoritmo implementado en Matlab ha permitido definir de antemano el número de agrupamientos o considerarlo como un parámetro a optimizar junto con la selección de variables. Se ha aplicado a conjuntos de datos con estructura conocida y también a varios conjuntos de dat