A finales de 2015, Google presentó su API de reconocimiento de imágenes Cloud Vision, una herramienta capaz de analizar el contenido de las imágenes con resultados sorprendentes, gracias al uso de la inteligencia artíficial. Finalmente, ayer, la compañía ha abierto su API a los desarrolladores en forma de beta pública. El objetivo es que todos los desarrolladores, incluidos los de aplicaciones para móviles, puedan aprovechar las funcionalidades de la API en sus herramientas.
La API Cloud Vision
Según Google, su API Cloud Vision permitirá a los desarrolladores “entender” el contenido de las imágenes para poder clasificarlas o reorganizarlas en función en dicho contenido. Para ello, la API incorpora potentes modelos de aprendizaje automático en un sencillo formato REST fácil de usar para los desarrolladores.
Se trata de la misma tecnología utilizada en las búsquedas de imágenes de Google Fotos y la compañía afirma haber entrenado la tecnología para reconocer miles de objetos, por lo que en la actualidad es capaz de reconocer prácticamente cualquier cosa.
Entre otras cosas permite:
- Detectar cuál es la entidad principal de la imagen: es capaz de detectar los distintos tipos de elementos presentes en la imagen y extraer un porcentaje de predominio para cada uno de ellos, indicándonos cuál de ellos es el principal o más predominante.
- Detectar atributos de la imagen: es capaz de detctar diversos atributos, como por ejemplo, cuál es el color predominante en la imagen.
- Reconocer lugares de interés: es capaz de reconocer multitud de lugares, monumentos, edificios famosos, paisajes, etc.; y darnos su nombre y ubicación geográfica.
- Reconocer textos en diversos idiomas: es capaz de extraer los textos presentes en las imágenes y entender su contenido en diversos idiomas.
- Reconocer logos: es capaz de reconocer los logos de las marcas más conocidas.
- Reconocer las emociones de las personas que aparecen en la imagen: es capaz de detectar las caras presentes en la imagen y utilizar sus funcines de reconocimiento facial para indicarnos cuál es su estado de ánimo.
- Detectar contenido inapropiado: como imágenes explícitas de violencia o sexo, desnudos, etc.
Funcionamiento de la beta pública y precios
Durante el período de beta pública, los usuarios dispondrán de una cuota de uso limitada, que permite un máximo de 20 millones de imágenes al mes.
En cuanto a los precios de acceso a la API, Google ya ha anunciado que dependerán de las opciones que se utilicen y de su grado de utilización. Todas las funciones serán gratuitas hasta mil unidades. A partir de esa cantidad los precios varían. Puedes consultar el listado completo de precios en aquí.
La competencia
La API Cloud Vision de Google competirá directamente con el proyecto Project Oxford de Microsoft, todavía en período de exposición.
Seguir leyendo:
- La revolución del reconocimiento facial: software que identifica edad, cansancio, emociones…
- Las aplicaciones disparan la inversión en nuevas empresas de aprendizaje profundo
- Pronto los ordenadores podrán entender qué sucede en un vídeo
Trackbacks/Pingbacks