El equipo de investigación de Google Brain, especializado en aprendizaje profundo, ha publicado recientemente un artículo académico titulado: “One Model To Learn Them All” (Un modelo para enseñarlos a todos) en el que describe uno de sus últimos hallazgos en inteligencia artificial.
Se trata de un modelo único que produce buenos resultados al aplicarlo a distintos tipos de problemas, reduciendo el tiempo y coste del desarrollo, incluso con menos datos.
Aunque todavía queda mucho por investigar al respecto, los resultados de esta investigación abren nuevas vías de estudio y podrían cambiar el enfoque de desarrollo en otros proyectos.
Según los investigadores , el aprendizaje profundo ha demostrado grandes resultados en numerosos campos, desde el reconocimiento de voz, a la clasificación de imágenes o la traducción.
No obstante, para cada problema o tarea es necesario desarrollar un modelo profundo específico y conseguir que trabaje bien implica investigar a fondo la arquitectura, además de un largo período de ajuste.
Esto requiere tiempo y muchos datos acera del problema en cuentión para poder entrenar el modelo.
En su lugar, los investigadores de Google Brain probaron a entrenar un único modelo en múltiples tareas.
Concretamente, lo formaron con ImageNet, múltiples tareas de traducción, etiquetado de imágenes (conjunto de datos COCO), un corpus de reconocimiento de voz y una función de análisis gramatical en inglés.
El resultado fue un modelo único que produce buenos resultados en una toda una serie de tareas en múltiples dominios.
Para elaborar el modelo, utilizaron una arquitectura de bloques computacionales de diferentes dominios, en la que cada uno de los bloques era fundamental para un subconjunto de las tareas en las que estaba siendo entrenado, pero no para las demás.
Curiosamente, los investigadores observaron que cuando añadían un bloque que no era fundamental para la tarea en cuestión, su adición no perjudicaba el rendimiento del modelo para dicha tarea y, en cambio, en la mayoría de los casos mejoraba el rendimiento de forma generalizada en todas las tareas, aunque solo ligeramente.
Es decir, que de algún modo, entrenar un modelo en múltiples tareas hace que mejore ligeramente su rendimiento en cada una de ellas.
Además, observaron también que las tareas que salían más beneficiadas de este entrenamiento variado eran aquellas para las que había menos datos.
Esto es especialmente interesante, dado que no siempre es posible disponer de grandes volúmenes de datos para entrenar a un sistema de IA en ciertas tareas.
Según los resultados de esta investigación, la falta de datos podría compensarse entrenando al modelo para otras tareas además de para la tarea específica que se desea que realice.
Se puede consultar el artículo completo en Arxiv.org: “One Model To Learn Them All“.
Los investigadores han liberado el código del modelo como parte del proyecto de código abierto TensorFlow. Concretamente, incluido en la librería tensor2tensor.
Seguir leyendo:
Trackbacks/Pingbacks