Agrupamiento no supervisado y redes convolucionales para el aprendizaje de estructuras en bioinformática
Resumen
La predicción computacional del plegamiento de secuencias es un proceso fundamental para la determinación de los ácidos ribonucleicos (ARN), porque a partir de estas estructuras es posible estudiar las funciones que cumplen dichas secuencias. La inteligencia artificial, en particular el aprendizaje profundo, ha comenzado a ser utilizada para la predicción de estas estructuras a partir de la secuencia. Sin embargo, este problema se dificulta conforme se aumenta la longitud de la cadena, generando estructuras muy diferentes entre sí. Este trabajo busca mejorar el modelado y aprendizaje de estas estructuras con la incorporación de técnicas de agrupamiento de secuencias. Hemos encontrado una relación entre la estructura formada y la secuencia original mediante una medida basada en información mutua. Nuestros resultados son prometedores, alcanzando un valor de información mutua normalizado de 0.79 entre los agrupamientos generados entre las secuencias de entrada y los generados por la estructura a predecir. A partir de estos agrupamientos, se entrenaron modelos de predicción basados en redes convolucionales, independientes para cada grupo de secuencias, y se ensamblan para obtener la predicción final, obteniendo en promedio un 5.20 % de mejora en F1, comparando contra el modelo de referencia.