May 13, 2024 · Bajo ataque

GPT-4o hace masiva la asistencia multimodal

Amenaza

Las apps de OCR, traducción, Q&A visual y asistentes de voz de un solo propósito pierden oxígeno cuando la ayuda multimodal se vuelve gratuita y masiva.

Qué cambió

La interacción de texto, imagen y voz converge dentro de un asistente ampliamente usado.

GPT-4o cambió accesibilidad y distribución. La inteligencia multimodal se acercó al comportamiento por defecto del usuario, poniendo bajo presión utilidades estrechas de visión y voz.

Categorías afectadas

Apps de OCR y Q&A visual: Los usuarios pueden pedir a un asistente general que lea, traduzca y explique imágenes sin abrir una utilidad especializada.
Ayudantes de traducción por voz: La voz en tiempo real y el razonamiento visual comprimen flujos que antes requerían apps separadas de voz o traducción.

Marcas / servicios afectados

Google Lens (lens.google)
Duolingo Max (duolingo.com)
Otter.ai (otter.ai)

Fuentes

OpenAI GPT-4o anuncio