Рубрики NoticiasSuaveTecnologías

Google muestra Project Astra — un asistente de IA con reconocimiento de voz y visual similar a GPT-4o

Опубликовал
Андрій Русанов

En la presentación de Google I/O 2024, la empresa mostró Project Astra, un asistente virtual con inteligencia artificial y reconocimiento visual basado en Google Gemini, que actualmente está en desarrollo. Hablando de Astra, Demis Hassabis, CEO del Laboratorio Experimental DeepMind, dijo que su equipo siempre ha querido desarrollar un agente de IA universal que fuera útil en la vida cotidiana.

El proyecto Astra es una aplicación cuyas principales interfaces de entrada son una cámara y la voz. Una persona con un smartphone apunta con su cámara a distintas partes de la oficina y le da tareas a Astra: «Dime cuando veas algo que emita un sonido». Cuando el asistente virtual vio un altavoz junto al monitor, respondió: «Veo un altavoz que hace sonido». El demostrador dibujó una flecha hacia el círculo superior del altavoz y preguntó: «¿Cómo se llama esta parte del altavoz? La aplicación respondió al instante: «Este es el tweeter. Emite sonidos de alta frecuencia».

Luego, en un vídeo que Google dice que se grabó en una sola toma, el probador se acercó a una taza de ceras de colores que había en la mesa y preguntó «Dame una aliteración creativa sobre esto», a lo que se le respondió diciendo «Las ceras de colores creativas son de colores alegres. Tienden a crear creaciones llenas de color». El vídeo continúa mostrando a Astra identificando y explicando partes del código al monitor e indicando al usuario en qué zona se encuentra en función de la vista desde la ventana. Astra fue capaz de responder a las preguntas: «¿Recuerdas dónde viste mis gafas?» a pesar de que estaban escondidas. «Sí, lo sé. Tus gafas estaban en la mesa, junto a la manzana roja.

A continuación, el probador se puso las gafas y el vídeo adquirió una perspectiva en primera persona. Con la cámara incorporada, las gafas escaneaban el entorno y los ojos se centraban en el diagrama de la pizarra. La persona del vídeo preguntó: «¿Qué puedo añadir aquí para que este sistema sea más rápido? El programa respondió: «Añadir una caché entre el servidor y la base de datos puede mejorar la velocidad».

El probador miró un par de gatos en la pizarra y preguntó: «¿A qué te recuerda esto? Astra respondió: «El gato de Schrödinger» Cuando se colocó un peluche de tigre junto a un golden retriever y se le pidió que nombrara el grupo, Astra respondió «Rayas doradas».

La demostración demuestra que Astra no sólo procesaba datos visuales en tiempo real, sino que también recordaba lo que veía y trabajaba con la información almacenada. Según Hassabis, esto se debió a un procesamiento más rápido de la información mediante la codificación continua de fotogramas de vídeo, la combinación de la entrada de vídeo y voz con una cronología de los acontecimientos y el almacenamiento en caché de esta información para un uso eficiente.

En cuanto al vídeo, Astra respondía bastante bien a las peticiones. Hassabis señaló en una entrada de blog: «Aunque hemos hecho progresos increíbles en el desarrollo de sistemas de IA capaces de entender información multimodal, reducir los tiempos de respuesta a conversacional es una tarea de ingeniería» desafiante. Google también está trabajando para dotar a su IA de una mayor diversidad y matices emocionales.

Aunque Astra sigue siendo una función incipiente sin planes concretos de lanzamiento, Hassabis afirmó que asistentes similares podrían estar disponibles en un teléfono o unas gafas en el futuro. Aún no hay información sobre si tales gafas se convertirán en sucesoras de Google Glass, pero el ejecutivo de DeepMind señaló que algunas de las capacidades demostradas estarán disponibles en productos de Google a finales de este año.

Fuente: Engadged

Los comentarios de Disqus están cargando....