
Google DeepMind presenta AlphaCode 2: la inteligencia artificial que ya compite con los mejores programadores humanos
15 de agosto de 2025
OpenAI lanza actualizaciones de ChatGPT con memoria personalizada: así cambiará la experiencia del usuario
18 de agosto de 2025OpenAI revoluciona con un ChatGPT multimodal: texto, imágenes y audio en un mismo asistente

La inteligencia artificial se encuentra en una fase de transformación acelerada, y uno de los hitos más recientes lo acaba de marcar OpenAI. La compañía detrás de ChatGPT presentó oficialmente un conjunto de funciones multimodales que permiten a su modelo procesar no solo texto, sino también imágenes y audio de manera integrada.
¿Qué significa que ChatGPT sea multimodal?
Hasta hace poco, los asistentes de IA como ChatGPT se limitaban a la interacción textual. La evolución a un modelo multimodal implica que el usuario podrá:
-
Subir una imagen y preguntar sobre ella.
-
Utilizar audio para interactuar en tiempo real, como si fuera una llamada.
Recibir respuestas contextuales que combinan texto, imágenes y voz en un mismo flujo.
¿Qué significa que ChatGPT sea multimodal?
Hasta hace poco, los asistentes de IA como ChatGPT se limitaban a la interacción textual. La evolución a un modelo multimodal implica que el usuario podrá:
-
Subir una imagen y preguntar sobre ella.
-
Utilizar audio para interactuar en tiempo real, como si fuera una llamada.
-
Recibir respuestas contextuales que combinan texto, imágenes y voz en un mismo flujo.
📌 Impacto en la educación y la productividad
La IA multimodal no solo amplía los casos de uso, también transforma sectores enteros. En educación, los profesores podrán usar estas funciones como asistentes personalizados que expliquen conceptos visuales complejos. En las empresas, la productividad se disparará con la posibilidad de analizar documentos PDF, tablas e imágenes técnicas directamente dentro del asistente.
Además, OpenAI anunció que las nuevas capacidades estarán disponibles de manera gradual en la versión ChatGPT Plus, con miras a integrarse también en las API para desarrolladores.
📌 Competencia y futuro del mercado
Google, Anthropic y otras compañías de IA ya han presentado avances similares, pero OpenAI mantiene la delantera con un ecosistema más consolidado y un modelo que ha demostrado un alto nivel de precisión en diferentes contextos.
El movimiento confirma una tendencia clara: el futuro de la inteligencia artificial no será textual, sino multimodal, con asistentes capaces de percibir e interpretar el mundo de la misma forma en que lo hacen los seres humanos: combinando vista, oído y lenguaje.
En resumen, OpenAI no solo mejora ChatGPT: está sentando las bases de la próxima generación de asistentes inteligentes que redefinirán la manera en la que estudiamos, trabajamos y nos comunicamos.