Si echamos la vista atrás, lo de Apple y Disney no es precisamente un romance de verano que acaba de surgir en una discoteca de la costa murciana. Es más bien una relación de esas de «toda la vida», con sus altibajos, pero con unos cimientos más sólidos que el Teatro Romano de mi querida Cartagena. No olvidemos que Steve Jobs no solo fue el alma de la manzana, sino también el mayor accionista individual de Disney tras venderles Pixar. Así que, cuando escuchamos que estas dos potencias se dan la mano para meterse de lleno en la inteligencia artificial generativa multimodal, la verdad es que a pocos nos pilla por sorpresa, aunque no por ello deja de ser un bombazo informativo.
La noticia ha caído como un jarro de agua fría (de esos que se agradecen en agosto) sobre el sector tecnológico. Apple, que siempre ha ido a su ritmo, un poco a lo «despacio que tengo prisa», parece haber encontrado en el archivo infinito de Mickey Mouse el campo de entrenamiento perfecto para sus nuevos modelos de lenguaje. Y es que, para que nos entendamos, la IA ya no va solo de escribir textos que parecen redactados por un becario con muchas ganas; ahora la cosa va de ver, oír y sentir el contexto. Eso es la multimodalidad, y ahí es donde Disney tiene el tesoro guardado bajo siete llaves.
Me juego un café a que más de uno se está preguntando qué significa realmente esto para el usuario de a pie, el que tiene un iPhone en el bolsillo y paga religiosamente su suscripción a Disney+ cada mes. Pues bien, la alianza no busca solo mejorar los algoritmos de recomendación (que a veces parece que nos conocen menos que nuestra propia madre), sino transformar radicalmente cómo interactuamos con el contenido. Estamos hablando de una integración que va desde el núcleo de iOS hasta las experiencias inmersivas de las Vision Pro, ese casco que parece sacado de una película de ciencia ficción de los ochenta pero que Apple quiere que sea nuestro próximo televisor.
¿Qué narices es eso de la IA generativa multimodal?
Vamos a bajar un poco al barro, porque a veces nos perdemos en tecnicismos que suenan muy bien pero no dicen nada. La IA generativa «a secas» es la que todos conocemos: le pides un poema sobre el puerto de Cartagena y te lo escribe. Pero la multimodal es otra liga. Es una IA capaz de procesar y generar información combinando diferentes tipos de datos: texto, imagen, audio y vídeo, todo a la vez y en tiempo real.
Imagina que estás viendo una película de Marvel en tu iPad. Con esta tecnología, podrías pausar la imagen, señalar un objeto extraño en el fondo y preguntarle a Siri: «¿Qué es eso y en qué otro cómic aparece?». La IA no solo «lee» tu pregunta, sino que «ve» el fotograma, reconoce el objeto y busca en la base de datos de Disney para darte una respuesta coherente. Vaya, que la barrera entre el espectador y la pantalla se vuelve más fina que el papel de fumar.
Para los que nos gusta trastear con el código, esto supone un reto de proporciones épicas. No es solo entrenar un modelo con texto de la Wikipedia. Es conseguir que los vectores de una imagen se «entiendan» con los vectores de un audio. Si mal no recuerdo, los modelos actuales como GPT-4o ya hacen pinitos en esto, pero la ventaja de Apple aquí es el hardware. Al tener el control total sobre el chip (esos procesadores de la serie M que son auténticas bestias), pueden permitirse el lujo de procesar gran parte de esta IA de forma local, sin que tus datos tengan que viajar a un servidor en California cada vez que parpadeas.
Un ejemplo rápido de cómo se vería esto en código (más o menos)
Si estuviéramos desarrollando una pequeña implementación de esta lógica en Swift, el lenguaje de Apple, la cosa podría tener una pinta parecida a esta (salvando mucho las distancias, claro):
import Vision
import NaturalLanguage
// Imaginemos una función que analiza lo que ves en Disney+
func analizarEscenaMultimodal(frame: UIImage, consultaUsuario: String) {
// 1. Procesamiento visual: ¿Qué hay en la pantalla?
let recognitionRequest = VNRecognizeTextRequest { request, error in
// Aquí la IA identifica personajes, objetos o lugares
}
// 2. Procesamiento de lenguaje: ¿Qué quiere el usuario?
let tagger = NLTagger(tagSchemes: [.tokenType])
tagger.string = consultaUsuario
// 3. La "magia" de la alianza Disney-Apple
// Se cruzan los datos visuales con el archivo histórico de Disney
let respuesta = MotorIA.cruzarDatos(visual: recognitionRequest, texto: consultaUsuario)
print("Siri dice: Según los archivos de Disney, ese droide es un modelo R5...")
}
Ojo, que esto es una simplificación extrema, pero sirve para ilustrar que la clave no está solo en la potencia de cálculo, sino en el acceso a los datos. Y Disney tiene los mejores datos del mundo en cuanto a narrativa se refiere.
El papel de las Vision Pro en este entuerto
La verdad es que las Vision Pro han tenido un arranque… digamos que discreto en España. Entre el precio (que te da para comprarte un coche de segunda mano decente) y que todavía nos sentimos un poco raros con un trasto así en la cara, la adopción va lenta. Sin embargo, esta alianza con Disney es el empujón que necesitaban.
Hasta ahora, ver Disney+ en las Vision Pro era como tener un cine privado muy chulo. Con la IA multimodal, la cosa cambia. Imagina que no solo ves la película, sino que estás dentro de ella. La IA podría generar entornos dinámicos que reaccionan a lo que sucede en el filme. Si en la pantalla empieza a llover en una escena de *Piratas del Caribe*, la iluminación de tu salón virtual cambia, el sonido se posiciona de forma que parece que las gotas caen sobre tus muebles y, si le preguntas a un personaje secundario por qué está triste, la IA generativa podría improvisar una respuesta coherente con su personalidad y el guion original.
Esto suena a fantasía, pero es hacia donde se dirigen. Apple necesita contenido que justifique el gasto de sus gafas, y Disney necesita nuevas formas de monetizar sus franquicias ahora que el modelo de streaming tradicional parece estar tocando techo. Es un «win-win» de manual, como decimos por aquí.
¿Y qué pasa con nuestra privacidad?
Aquí es donde Apple saca pecho y se pone la capa de superhéroe. Ya sabemos que en Cupertino son muy celosos de la privacidad (o al menos eso nos venden muy bien). En esta alianza, han dejado claro que el procesamiento de la IA se hará, en la medida de lo posible, mediante «Private Cloud Compute».
¿Qué significa esto para los mortales? Pues que si le preguntas a la IA algo sobre una foto personal que tienes en el iPhone para compararla con un personaje de Disney, esa información no debería acabar en manos de anunciantes. Es un punto crítico, porque para que una IA multimodal sea realmente útil, tiene que conocernos un poco. Tiene que saber qué nos gusta, qué hemos visto y cómo reaccionamos. Si Disney pusiera esa información en subasta, tendríamos un problema gordo. Pero Apple actúa aquí como un filtro, un portero de discoteca que solo deja pasar lo estrictamente necesario.
Además, hay un tema ético importante con el uso de la imagen de los actores. Disney ha tenido sus más y sus menos con los sindicatos en Hollywood por el tema de la IA. Al aliarse con Apple, que tiene una imagen de marca más «limpia» y centrada en el creador, intentan suavizar el golpe. No es lo mismo que te digan «vamos a usar tu cara para una IA de una empresa de publicidad» a que te digan «vamos a integrarte en el ecosistema creativo más avanzado del planeta». El envoltorio importa, y mucho.
Impacto en el mercado español y el idioma
A menudo, cuando hablamos de estas noticias, parece que solo afectan a los que viven en Silicon Valley. Pero ojo, que España es un mercado clave para ambas compañías. Disney+ tiene una penetración brutal aquí, y el iPhone es, para muchos, un objeto de deseo y una herramienta de trabajo indispensable.
El gran reto de esta IA multimodal será el idioma. No es lo mismo entender el sarcasmo de un madrileño que las expresiones de un murciano o el tono de un gallego. La IA generativa suele pecar de ser demasiado «neutra», tirando a un español de México o un castellano de Valladolid muy académico. La alianza promete trabajar en modelos locales que entiendan las variantes culturales.
Además, pensemos en la industria del doblaje en España, que es de las mejores del mundo. ¿Cómo afectará esto a los actores de doblaje? Si la IA puede generar voces multimodales que suenan exactamente como el actor original pero en perfecto español, el sector va a sufrir un terremoto. Es un tema delicado que habrá que seguir de cerca, porque la tecnología corre más que la legislación, y ya sabemos que en palacio las cosas van despacio.
La nostalgia como motor tecnológico
Hay algo que Disney maneja mejor que nadie: la nostalgia. Y Apple sabe que la tecnología sin emoción es solo metal y cristal. Al combinar la IA multimodal con personajes que nos han acompañado desde niños, están creando un vínculo emocional que ninguna otra empresa tecnológica puede replicar.
Para que nos entendamos: Google puede tener una IA increíble, pero a nadie le hace ilusión hablar con un buscador. En cambio, si la IA tiene la personalidad de Pepito Grillo y te ayuda a organizar tu calendario o te explica por qué tu hijo está llorando basándose en el tono de su voz y su expresión facial (procesada por la cámara del iPad), la cosa cambia. Se vuelve algo personal.
La conclusión que saco de todo esto es que no estamos ante un simple anuncio de «más funciones para el móvil». Estamos ante el inicio de una era donde los dispositivos dejarán de ser herramientas pasivas para convertirse en compañeros que entienden nuestro mundo visual y sonoro. Y si ese compañero tiene las orejas de Mickey, pues parece que nos da menos miedo que si parece un robot de *Terminator*.
¿Qué podemos esperar en los próximos meses?
No esperéis que mañana vuestro iPhone se convierta en un genio de la lámpara. Estas cosas llevan su tiempo. Lo primero que veremos, seguramente en las próximas actualizaciones de iOS, será una Siri mucho más capaz de entender lo que sucede en las aplicaciones de Disney.
- Búsquedas visuales inteligentes: Podrás preguntar por lugares que aparecen en los documentales de National Geographic y obtener rutas de viaje integradas en Apple Maps.
- Edición de vídeo asistida: Herramientas para creadores de contenido que permitan usar recursos de Disney (bajo licencia, claro) de forma sencilla mediante comandos de voz.
- Experiencias educativas: Imagina a los chavales en el colegio aprendiendo historia con una IA que recrea escenarios de películas históricas de Disney de forma interactiva.
Al final del día, lo que Apple y Disney están construyendo es un ecosistema cerrado donde la IA es el pegamento que lo une todo. Es ambicioso, es un poco aterrador si piensas en el control que tendrán sobre nuestros datos, pero es, sin duda, el movimiento más lógico que podían hacer.
Vaya, que nos espera un futuro entretenido. Yo, por si las moscas, iré cargando el iPhone y limpiando las lentes de las gafas, porque lo que viene va a necesitar mucha batería y una vista muy aguda. Y mientras tanto, aquí seguiremos, en «aquí no hay quien viva», analizando cada paso de estos gigantes con un ojo en el código y otro en la realidad, que a veces supera a la ficción de Disney.
Para terminar, y esto es una opinión muy personal, creo que el éxito de esta alianza dependerá de si logran mantener ese «toque humano». La IA puede ser muy eficiente, pero si pierde la capacidad de sorprendernos o de hacernos reír como lo hacía una película de Pixar en los viejos tiempos, se quedará en otro juguete caro para tecnófilos. Pero conociendo a los implicados, dudo mucho que dejen ese detalle al azar. Estaremos atentos, porque la función no ha hecho más que empezar.
Deja una respuesta