Adversarial image generation using genetic algorithms with black-box technique
Resumen
Las redes neuronales convolucionales conforman una tecnica que ha demostrado un gran éxito en tareas de visión artificial, como la
clasificación de imágenes y detección de objetos. Como cualquier modelo de aprendizaje automático, tiene limitaciones y vulnerabilidades que
deben ser consideradas cuidadosamente para utilizarlas de manera segura y efectiva. Una de las limitaciones principales se encuentra en su
complejidad y la dificultad de interpretar su funcionamiento interno, lo que puede ser explotado con fines maliciosos. El objetivo de estos ataques
consiste en hacer cambios deliberados en la entrada de datos, de forma tal de engañar al modelo y hacer que tome decisiones incorrectas. Estos
ataques son conocidos como ataques adversarios. Este trabajo se centra en la generación de imágenes adversarias utilizando algoritmos genéticos para una red neuronal convolucional entrenada con el dataset MNIST. Se utilizan varias estrategias incluyendo ataques dirigidos y no dirigidos, así como también se presentan imágenes interpretables y no interpretables, no reconocibles para los humanos, pero que la red identifica y clasifica erróneamente con alta confianza. El experimento muestra la posibilidad de generar imágenes adversarias en un tiempo relativamente corto, lo que pone en evidencia la vulnerabilidad de las redes neuronales y la facilidad con la que pueden ser engañadas. Estos resultados resaltan la importancia de desarrollar sistemas de inteligencia artificial más seguros y confiables, capaces de resistir estos ataques.