Evaluación del aprendizaje por transferencia para la clasificación de proteínas en bioinformática

  • Rosario Vitale sinc(i)-FICH-UNL
  • Georgina Stegmayer sinc(i)-FICH-UNL

Resumen

Este estudio presenta una solución para mejorar significativamente la clasificación de proteínas en familias o dominios utilizando transfer learning. Con más de 229 millones de proteínas en UniProtKB, solo el 0.25% de ellas han sido anotadas y clasificadas en más de 17,000 familias posibles. Recientemente, aparecieron modelos de aprendizaje profundo (DL) para esta tarea. Sin embargo, los modelos requieren grandes cantidades de datos para el entrenamiento, y la mayoría de las familias tienen solamente algunos ejemplos. Para abordar este problema, proponemos la aplicación de Transfer Learning (TL). Este enfoque implica un aprendizaje auto supervisado en conjuntos de datos grandes y no etiquetados para generar un vector numérico para cada entrada. Esta representación aprendida se puede usar con aprendizaje supervisado en un conjunto de datos pequeño y etiquetado para una tarea de clasificación específica. Los resultados logrados en este estudio indican que el uso de TL para la clasificación de familias de proteínas puede reducir el error de predicción en un 55% en comparación con los métodos estándar y en un 32% en comparación con los modelos de DL con representaciones de entrada simples, como la codificación one hot. Este estudio demuestra que el TL es una técnica efectiva y prometedora para mejorar la clasificación y anotación de proteínas en bases de datos grandes pero no anotadas.

Publicado
2023-07-07
Cómo citar
Vitale, R., & Stegmayer, G. (2023). Evaluación del aprendizaje por transferencia para la clasificación de proteínas en bioinformática. Memorias De Las JAIIO, 9(2), 25-36. Recuperado a partir de https://ojs.sadio.org.ar/index.php/JAIIO/article/view/636
Sección
ASAI - Simposio Argentino de Inteligencia Artificial