Daniel Parra presenta su Trabajo Fin de Máster dentro de las líneas de investigación del proyecto GenObIA, con título «Selección óptima de variables mediante Computación Evolutiva para algoritmos de clasificación. Aplicación a la identificación de individuos en riesgo de desarrollar sobrepeso». En este trabajo, se ha diseñado un sistema de selección de variables (feature selection) para sistemas clasificadores, basado en Computación Evolutiva. En concreto se han investigado distintas configuraciones de un algoritmo genético y se propone una estructura particular del proceso de selección que proporciona resultados interesantes. El algoritmo tiene como misión seleccionar el conjunto de variables o features más adecuado para un algoritmo de clasificación. Se utiliza una codificación binaria directa que nos permite realizar la evaluación de los individuos de manera eficiente, en la que un individuo codifica como 1 aquellas variables que se utilizarán en el clasificador. Para identificar estas variables, se evalúan los individuos mediante el accuracy (resultados verdaderos entre el total de casos), obtenido por el clasificador sobre el que se quiere aplicar, en un conjunto de datos reducido.
Este sistema se ha aplicado con los clasificadores mencionados a los datos del proyecto Genobia-CM, aunque su diseño permite aplicarlo a cualquier otro problema que utilice el formato de datos de entrada adecuado, que es el habitual en problemas de clasificación. Genobia es un proyecto participado por un consorcio de 20 instituciones, hospitales y empresas, financiado por el Fondo Social Europeo y la Comunidad de Madrid. El proyecto busca diseñar, utilizando inteligencia artificial, algoritmos predictivos para la identificación de personas en riesgo de desarrollar sobrepeso, obesidad y sus patologías asociadas. En este trabajo se han utilizado una base de datos con 1179 individuos proporcionada por el consorcio en el que se recoge información de los hábitos de vida y adherencia a la dieta mediterránea. El trabajo presentado se centra en la selección de variables que aporten más información para la correcta clasificación de los usuarios en dos grupos, por un lado, aquellos cuyos datos apuntan a que no padecerán sobrepeso y aquellos con mayor probabilidad de padecer dicho trastorno. Para ello ha sido necesario la comprensión tanto de los datos que se manejaban como de las herramientas empleadas para dicha selección. Nuestro algoritmo evolutivo de selección se ha aplicado con éxito sobre los algoritmos de Gradient Boosting y árboles de decisión, permitiendo incrementar el accuracy hasta un 8 %, llegando hasta valores de 75 %. Nuestro diseño se ha realizado de tal manera que pueda aplicarse a los datos que proporcione el consorcio en el futuro. Estos datos incluirán información genética de cada individuo, así como un mayor número de casos.