El jefe de inteligencia artificial de Microsoft dice que la superinteligencia está cerca, pero no quitará su trabajo
⚡ Resumen rápido
Hoy hablo con Mustafa Suleyman, director ejecutivo de Microsoft AI.
Hoy hablo con Mustafa Suleyman, director ejecutivo de Microsoft AI. Y de hecho, voy a hacer que la introducción de hoy sea breve: esta semana trabajaré en la granja familiar de mi esposa, como verán en el video, pero también este es un episodio realmente grabado.
Cubrimos todo, desde el enfoque de Mustafa para entrenar nuevos modelos hasta sus críticas a Anthropic hablando de Claude como si fuera consciente. Por supuesto, también hablamos sobre la relación de Microsoft con OpenAI, cómo piensa Mustafa sobre todas las encuestas negativas y el rechazo político en torno a la IA en este momento, y si alguno de los productos de consumo es lo suficientemente bueno para superarlo.
Como dije, es un quemador.
De acuerdo: Mustafa Suleyman, director ejecutivo de Microsoft AI. Aquí vamos.
Esta entrevista ha sido ligeramente editada para mayor extensión y claridad.
Mustafa Suleyman, usted es el director ejecutivo de Microsoft AI. Bienvenido de nuevo a Decodificador.
Qué bueno estar contigo de nuevo.
Estoy muy emocionado de hablar contigo. Nuestra conversación anterior fue una de mis conversaciones favoritas (sobre la IA, cómo debería hacernos sentir y para qué sirve) que he tenido en todas las conversaciones que hemos tenido.
Hay algunos cambios importantes en Microsoft, tal vez una recontextualización muy importante sobre cómo se siente la gente acerca de la IA, de la que quiero hablarles en particular. Y luego está Microsoft Build, la gran conferencia de desarrolladores de Microsoft, que presentó muchos anuncios nuevos y muchas grandes ideas sobre para qué sirven las computadoras y tal vez dónde deberían estar, en las que quiero profundizar.
Empecemos por el principio. Estas son algunas cosas profundas de Decoder que es importante comprender antes que todo el resto. Desde que se unió a Microsoft, ha reestructurado el funcionamiento de la IA allí. Tu papel ha cambiado. La última vez que hablé con usted, estaba a cargo de una serie de productos de consumo. Desde entonces, eso ha quedado a un lado. Ahora estás entrenando nuevos modelos; estás en la frontera.
Explique cómo está estructurada la IA de Microsoft ahora y cómo está estructurada dentro de Microsoft.
Supongo que durante los últimos 15 a 18 meses hemos emprendido este viaje para restablecer nuestra relación con OpenAI, y nos ha llevado un minuto. Creo que culminó con un nuevo contrato que firmamos en octubre del año pasado. Y había muchísimas disposiciones diferentes en eso, incluida la consolidación y ampliación de la asociación, pero fundamentalmente, liberarnos para poder dedicarnos a la superinteligencia de forma independiente, así como seguir comprando y otorgando licencias de sus modelos.
Así que desde octubre he estado reuniendo el equipo de Superinteligencia, construyendo grupos de escala suficiente para entrenar modelos de frontera y contratando un equipo centrado en la superinteligencia. Y ese fue un cambio bastante grande para nosotros porque de alguna manera me permitió concentrarme solo en la misión de superinteligencia, y eso culminó en algunas cosas que anunciamos esta semana en Build. Tenemos siete nuevos modelos en todas las modalidades y así sucesivamente. Así que ha sido un cambio bastante grande, y creo que tomó mucho tiempo en la planificación, y es un gran alivio para nosotros estar ahora en el juego y perseguir la frontera absoluta en los próximos años.
¿Era este el plan cuando te contrataron en Microsoft?
Ciertamente ha sido el plan durante los últimos 18 meses. Quiero decir, creo que la relación con OpenAI ha pasado por muchos altibajos. Y en muchos sentidos, creo que pasará a ser una de las asociaciones más exitosas de la historia. Ha sido fantástico para OpenAI y para Microsoft, y todas las buenas relaciones evolucionan, y creo que esta es solo la siguiente etapa en nuestra evolución.
Déjame preguntarte sobre esa evolución específicamente. Todos acabamos de ver el juicio entre Elon Musk y OpenAI y Sam Altman. Microsoft estuvo involucrado en ese juicio en el sentido de que de vez en cuando un abogado de Microsoft se levantaba y decía: "Y nosotros no estábamos presentes". Y alguien decía que sí, y eso era todo. Pero obviamente, lo que surgió durante esa prueba, lo que ha estado claro durante todo este tiempo, es que la noción original era que OpenAI sería un laboratorio de investigación y proporcionaría modelos, mientras que Microsoft construiría los productos. Microsoft tenía experiencia en salir al mercado; Tenía experiencia en el ámbito empresarial y estaba tratando de recuperar su posición entre los consumidores de diversas maneras. Esto sería un cambio de plataforma, el trabajo de investigación terminaría en OpenAI y el trabajo del producto estaría dentro de Microsoft.
Eso es lo que cambió: OpenAI quería fabricar cada vez más productos de consumo. Obviamente, dado su nuevo rol y su nuevo enfoque, Microsoft quiere cada vez más fabricar sus propios modelos. ¿Por qué la división? ¿Qué no funcionó en esa relación?
Quiero decir, creo que OpenAI está dirigido por un equipo fundador increíblemente ambicioso y por el propio Sam. Y, naturalmente, a medida que comenzaron a obtener más tracción y a generar una gran cantidad de ingresos, vieron oportunidades para hacerlo al máximo. Así que no fue sólo que empezaron a trabajar en productos de consumo. Obviamente, ChatGPT tuvo un éxito increíble. También comenzaron a trabajar en sus propios centros de datos. Comenzaron a crear su propio chip. Hay muchos rumores sobre sus propios dispositivos de hardware de consumo. Comenzaron a llevar modelos directamente al mercado a través de ChatGPT Enterprise. Entonces, en general, se estaban ampliando mucho más allá de la investigación en los últimos dos, tres o cuatro años. Y, naturalmente, lo mismo ocurre con Microsoft. Quiero decir, creo que la asociación ya tiene cinco o seis años y todavía le quedan otros cuatro, cinco o seis años más.
Asimismo, somos una de las empresas de tecnología más grandes del mundo. Tenemos 493 de las 500 empresas más grandes que almacenan y procesan la mayoría de sus datos en nuestros sistemas, usan Azure, usan M365 y Teams. Creo que la gente a menudo subestima lo enormes que somos y lo grande que es nuestra distribución en las empresas. Y entonces, a largo plazo, y me refiero a cinco, seis, siete, diez años, tenemos que asegurarnos de que seamos completamente sustentables y que no seamos simplemente receptores de la propiedad intelectual de otra persona que luego modificamos ligeramente, adaptamos y ponemos en producción para nuestros productos, sino que realmente podemos valernos por nosotros mismos y crear modelos de clase mundial.
Quiero decir, la superinteligencia está llegando. Creo que está a la vuelta de la esquina. Por eso creo que será básicamente la tecnología más valiosa de todos los tiempos. No hay forma de que, a largo plazo, podamos depender estructuralmente de un tercero para proporcionar esa propiedad intelectual por toda la eternidad.
Así que esa fue la transición que obviamente se desencadenó cuando OpenAI y demás tuvieron problemas con su tablero. Pero luego, cuando llegué y llegó mi equipo, comenzamos a desarrollar eso, estamos en esa transición. Y creo que estamos en una gran situación porque podemos adoptar una posición óptima, bastante estable y cuidadosa a largo plazo, tanto para OpenAI, que creo que le ha ido increíblemente bien, como para nosotros.
Quiero dedicar algo de tiempo a la superinteligencia. Sólo quiero dejarlo claro ahora porque quiero entender la transición para un turno más aquí.
Hay un momento en la prueba, un mensaje muy divertido del CEO de Microsoft, Satya Nadella, que dice: "No quiero ser Intel y que OpenAI sea Microsoft", lo cual es muy divertido en el contexto en el que el propio CEO de Microsoft dice: "No quiero ser el proveedor y que ellos sean la plataforma que proporcione todo el valor y recopile todo el valor y tal vez seamos intercambiados. No quiero que ChatGPT se ejecute en Azure, y luego OpenAI obtendrá todo el valor. y luego tal vez puedan intercambiarnos”, tal como sucedió con Windows e Intel con el tiempo.
¿Es eso una realización? ¿Nadella vino a verte? ¿Cómo fue esa reunión en la que dijiste: "Está bien, OpenAI tuvo sus problemas con la junta directiva. Necesitamos volver a la frontera y valernos por nosotros mismos". ¿Cómo fue esa conversación y cómo se tomó esa decisión?
Quiero decir, obviamente esa es la decisión de Satya, así como de Amy, Brad y muchas otras personas en la empresa. Pero creo que es como con todo: estos son cambios lentos en la empresa, a medida que uno se da cuenta de que la dirección que estamos tomando necesita algunos ajustes y ajustes. Y eso estaba sucediendo mucho antes del incidente de la junta directiva de noviembre, y creo que simplemente se acumula con el tiempo al observar el tipo de constelación de diferentes frentes en torno a los cuales estamos compitiendo directamente, cada vez más, y toda la tensión que surge de eso. Pero también saber que asociaciones como esa no duran para siempre.
Quiero decir, OpenAI quiere ser una empresa pública de un billón de dólares, tiene ingresos increíbles y está creciendo como loco. Quieren tener la libertad de operar y poder comprar computación en todo tipo de lugares, crear su propia computación y asociarse con quien quieran. Entonces, el contrato se formó en un momento en que las empresas eran muy diferentes en términos de tamaño, escala y equilibrio de necesidades y demás. Creo que tenía sentido en ese momento, pero luego quedó bastante claro que esto es algo que debemos poder poseer y controlar nosotros mismos y hacer lo correcto por nuestros propios clientes.
Como dije, tenemos una distribución empresarial increíble, que creo que no tiene rival en el mundo. Por eso debemos asegurarnos de que estamos construyendo lo mejor para nuestros clientes. Eso se ve ligeramente diferente para una empresa que ha estado optimizando conjuntamente tanto para el consumidor, con ChatGPT, como para la empresa, y también para la misión científica fundamental de la superinteligencia, que incluye un montón de direcciones diferentes que se superponen pero que podría decirse que son ortogonales a las direcciones del consumidor y de la empresa también. Naturalmente, creo que así es como evolucionan las asociaciones y se restablecen periódicamente.
Sí, pero me han dicho que construir un modelo de frontera es muy caro. Dicho de manera confiable, este es un proyecto muy costoso. En algún momento, Amy Hood, directora financiera de Microsoft, tiene que decir: "Sí, tienes el presupuesto". ¿Cuándo pasó eso? ¿Fue solo un mensaje de texto? ¿Hubo una reunión? Cuéntame sobre los detalles allí.
Creo que tomamos la decisión a principios del año pasado, lo que obviamente informó todas las negociaciones del contrato, que luego se resolvieron y firmaron en octubre. Y es una inversión importante, pero tenemos mucho tiempo para realizarla. Quiero decir, ya hemos realizado importantes inversiones en nuestra propia misión de autosuficiencia.
Nuestro chip Maia 200 es realmente un chip excepcional, por ejemplo, ¿verdad? Ahora podemos fabricar y enviar un chip que es un 30 por ciento más barato que un GB200 dentro de nuestros propios clústeres. Y ahora que podemos codiseñar nuestros propios modelos con él, el modelo MAI-Thinking-1 que acabamos de lanzar en realidad ofrece una mejora de rendimiento por vatio de 1,4 veces además de la mejora del 30 por ciento que se obtiene al ejecutar un Maia 200 una vez que cooptimizamos los modelos para nuestras tareas.
Por lo tanto, el valor de asegurarse de poseer y controlar su propia pila y dirigir todo el esfuerzo de codiseño de extremo a extremo para los casos de uso que son más importantes para nosotros (que obviamente es la codificación agente, nuestros desarrolladores, nuestras empresas) claramente paga los dividendos que justifican la inversión que tenemos que hacer en los próximos años.
Dijiste misión de autosuficiencia, que es una manera muy educada de decir que quieres valerte por ti mismo; quieres hacer lo tuyo. Me dijeron que hay cierta controversia dentro de Microsoft sobre una línea que mi colega Hayden Field escribió en un artículo que describe Build. Sólo voy a leer esto. Esto es de Hayden. Es una gran línea. Ella dijo: "El Microsoft Build de este año tenía la vibra de una divorciada recién soltera que publica una trampa para la sed en Instagram".
La ruptura se ha completado y es hora de flexionarse. Aquí está nuestro nuevo modelo. Nos mantendremos sobre nuestros dos pies. Estás por ahí diciendo que vas a construir modelos en la frontera y competir con los laboratorios líderes. ¿Es ese el sentimiento dentro de Microsoft de que eres libre de estar solo?
Definitivamente no. No, en absoluto. Mira, quiero decir, obviamente es un titular genial y una frase divertida. Pero la realidad es que estaremos asociados con OpenAI durante muchos años más. Quiero decir, estamos muy por encima del año 2030. Todavía producen los mejores modelos del mundo. GPT-5.5 es un modelo excepcional. El Codex, los modelos de ciberseguridad que están surgiendo, son asombrosos y están impulsando la mayor parte de lo que hacemos.
Naturalmente, eso va a continuar. Por eso creo que es un curso natural de este tipo de asociaciones. No creo que sea nada desagradable o sorprendente. Creo que OpenAI lo comprende y lo apoya mucho. Quiero decir, obviamente han sido una empresa de crecimiento increíblemente rápido y entienden que nosotros también tenemos que seguir nuestra propia agenda. Entonces es muy normal.
Permítanme hacerles la otra pregunta sobre Decoder, y luego quiero entrar en los anuncios de Build y, ciertamente, en la superinteligencia.
La última vez que hablamos, usted dijo que su marco para tomar decisiones operaba en un ciclo de seis semanas, dada la rapidez con la que avanzaba la IA. Eso tenía sentido entonces. Las cosas se han calmado, tal vez. Quizás algunas cosas estén más enfocadas. ¿Cuál es su marco de toma de decisiones ahora?
Seguimos operando con el mismo ritmo de ciclo. Al final de cada ciclo, tenemos un encuentro presencial de una semana. Realmente creo en esto, a pesar de que todavía tenemos una cultura de oficina, cuatro días a la semana. De hecho, la semana siguiente, todo mi equipo de Superinteligencia se reúne en persona en Boston durante cuatro días. Esto es para todas nuestras retrospectivas sobre cómo fue Build, qué aprendimos, qué no hicimos bien, qué necesitamos mejorar, nuestra planificación para el próximo ciclo, que esta vez durará ocho semanas con una reunión posterior de una semana, y todo eso está diseñado para todo el año. Entonces toda la organización sabe que ese es el ritmo con el que operamos.
Y creo que en realidad es muy importante enfatizar ese cronograma, porque la planificación trimestral se vuelve un poco borrosa y abstracta. Creo que de seis a ocho semanas, dependiendo de dónde caiga en el calendario, es en realidad el momento óptimo para realizar misiones muy claras y fortificables.
Así que, además del ritmo de estos ciclos de seis a ocho semanas, también operamos por escuadrones. Los escuadrones son subgrupos interdisciplinarios mixtos que se centran en una misión específica y no necesariamente ascienden hasta el gerente. En realidad, están dirigidos por un DRI, y el DRI suele ser un CI, y su trabajo es...
Eso es "individuo directamente responsable" y "colaborador individual".
Sí, exactamente. Gracias. Y creo que hemos adoptado el enfoque de separar el rol del gerente del rol del DRI que ejecuta una misión específica. Creo que eso se debe a que ser un gran DRI es agotador. Estás literalmente comprometido las 24 horas del día y te esfuerzas lo más que puedes. Ser gerente a menudo implica ser coach, ofrecer apoyo, dar orientación, retroalimentación, desbloquear todo tipo de cosas y ayudar con el crecimiento profesional de las personas. Por eso creo que mantenerlos separados nos permite rotar los DRI cada dos o tres ciclos para que algunas personas puedan probar diferentes posiciones y rotar. Creo que es una estructura excelente y muy flexible que nos permite ser bastante ágiles.
Hablemos de construir. Quería empezar con la superinteligencia. Lo has mencionado varias veces. Acabo de estar en Google IO. Demis Hassabis, que solía ser su colega cuando usted estaba en Google, terminó esa conferencia diciendo que estábamos en "las colinas de la singularidad, y que AGI venía con todo el poder de Google".
Estás diciendo que la superinteligencia está aquí. ¿Son todas estas cosas lo mismo? ¿Estamos usando un lenguaje diferente para describir AGI? ¿Hay diferencias? ¿Cómo definirías la superinteligencia en tu contexto frente a la singularidad en el de Demis?
Quiero decir, obviamente no dije que estuviera aquí. Dije que ya viene. Y creo que hay mucha fluidez en torno a estas frases. Pero creo que lo que podemos ver claramente es que lo que está sucediendo en este momento es que hay una escalada log-lineal en todas las modalidades, y eso significa que hay una relación muy directa entre cada orden de magnitud de cómputo que aplicamos, cada aumento incremental en los datos y el ascenso en los puntos de referencia, ya sean puntos de referencia públicos, puntos de referencia internos, son objetivos en los que nos enfocamos con entornos de aprendizaje reforzado. Y esa es una observación muy importante.
Esas predicciones que creo que todos estamos haciendo; entiendo por qué algunas personas son un tanto escépticas respecto de ellas o plantean preguntas, pero están muy basadas en el tipo de observaciones empíricas de más de una década de aumento en el rendimiento de estos modelos. Quiero decir, esencialmente la misma arquitectura de propósito general ha visto 12 órdenes de magnitud más de computación aplicada, un aumento de un billón de veces en FLOPS en 15 años, y básicamente ha funcionado en audio, imagen, texto, código y en muchas otras tareas de predicción de series de tiempo. Por lo tanto, básicamente estamos extrapolando que más órdenes de magnitud de cómputo nos permitirán continuar ascendiendo de esta manera logarítmicamente lineal dentro de otros entornos.
Y luego surge la pregunta: ¿seremos capaces de entrenar modelos que puedan inventar nuevos conocimientos, no simplemente extrapolar datos existentes que tenemos, sino enseñarnos cosas que no sabemos y hacer nuevos descubrimientos? Luego, la segunda cuestión es: ¿tienen la capacidad de automejorarse y acelerar el proceso de decidir qué hipótesis se deben establecer, cuáles se deben seguir, cómo generar datos de entrenamiento para cada una de ellas, cómo factorizarlas en nuevas ejecuciones o incluso innovar en la arquitectura misma?
Entonces, creo que ambas cosas deben ser ciertas para poder ver este progreso compuesto, pero creo que continuaremos obteniendo ganancias masivas simplemente aplicando los próximos órdenes de magnitud de cómputo. Probablemente eso logre la paridad con el desempeño humano en muchas, muchas más tareas, tal como hemos visto que sucede en los últimos seis meses en la codificación.
La codificación es realmente interesante porque se valida fácilmente, ¿verdad? Escribes el código, le pides a la computadora que lo ejecute, se ejecuta o falla. Hemos visto algunas de las desventajas, ciertamente en torno a la seguridad, ¿verdad? Las desventajas son obvias y estamos viendo que este tipo de enfoque regulatorio para la seguridad de la codificación se manifiesta de muchas maneras. Probablemente he codificado algunos desastres de seguridad en mi propio teléfono y computadora, y tal vez sea un riesgo que esté dispuesto a correr.
Todas las demás funciones no parecen tan fáciles. Siempre me meto con la ley, porque esa es mi experiencia. Pero un juez no valida un escrito legal de la misma manera que una computadora valida un código. Si te equivocas, el juez te puede enviar a la cárcel, ¿verdad? Ese es quizás el peor error de validación de salida con el que probablemente pueda encontrarse.
¿Cómo se puede medir la eficacia en todos los dominios con la misma facilidad con la que se puede medir la eficacia en la codificación? Porque me parece que aquí es donde la metáfora o la analogía de la codificación con otros dominios se desmorona muy rápidamente.
No estoy tan seguro. Codificando, obviamente, puedes verificar la correcta ejecución del código. Funciona o falla. Pero hay muchos matices en eso. La calidad del código que se escribe realmente importa: su extensibilidad, qué tan reconfigurable es, qué tan útil es en la práctica. No se trata solo de que se ejecute un fragmento de código, sino también de cómo un modelo realmente lo usa como DevOps o SRE en producción para volver a ese fragmento de código que está escrito y luego usarlo de una manera práctica y útil.
Y luego, por supuesto, hay que calificar la calidad del resultado que se ha producido. Puede que sea un código funcional y de alta calidad, pero ¿es realmente la aplicación o el sitio web que deseaba? Y en eso hay juicios estéticos; hay juicios comerciales en eso. El desafío de internalizar recompensas no verificables está presente en el código, aunque el código sigue siendo principalmente una señal de recompensa verificable. Creo que la otra cosa a observar es que, al igual que el chat, también es un espacio no verificable y, sin embargo, hemos logrado escalarlo a un rendimiento básicamente de nivel humano a través de la interacción con el uso del mundo real que proporciona una experiencia muy sólida.
Espera. Tengo mucha curiosidad. ¿Cómo se mide el chat a nivel humano?
Bueno, creo que muchas personas están teniendo conversaciones largas y significativas con las IA en el desempeño a nivel humano. La calidad es excepcionalmente buena. Tiene muy buena inteligencia emocional. En términos generales, es muy preciso. Hemos minimizado las alucinaciones. Ya no hablamos tanto de prejuicios. Se basa en observaciones del mundo real. Creo que, según las mediciones de la mayoría de las personas, ahora hemos alcanzado un desempeño a nivel humano en la conversación para una gama bastante amplia de tareas.
¿Cuáles son sus medidas y, de hecho, claro, las medidas de la mayoría de la gente? No estaría de acuerdo con casi todo esto, pero esas son mis medidas. ¿Cuales son sus medidas?
Mi medida es como cuando recurro a mi asistente y le pido que me proporcione un resumen diario que resuma todas las conversaciones que han tenido lugar en Teams y por correo electrónico, las actualizaciones que han ocurrido en los documentos, y obtengo básicamente un resumen sintetizado con un conjunto de acciones que debo tomar a continuación. Eso es básicamente mejor de lo que mi jefe de personal puede producir. Yo diría que es desempeño a nivel humano en síntesis, análisis, acciones propuestas y chat.
Hay muchos, muchos millones de personas todos los días que lo utilizan como apoyo emocional, asesoramiento, terapia, entrenamiento y consejo. Creo que es uno de los casos de uso más populares dentro de todos los chatbots. Esa es una medida bastante sólida, diría yo, para hacer el reclamo.
Sé que has pasado mucho tiempo pensando en esto, particularmente en la conexión emocional con algunos de estos chatbots. Estos son productos que usted ha creado e implementado. Haría una distinción bastante grande entre esto que es realmente bueno para resumir mi correo electrónico, mi lista de tareas y brindarme un resumen sobre qué cosas priorizar, y esto es un entrenador emocional para alguien que atraviesa algún tipo de crisis.
Esas no son tareas similares. Estos no son necesariamente tipos de inteligencia similares, ni siquiera en las personas. Conozco algunas personas que son muy buenas haciendo listas y muy malas en el apoyo emocional. ¿Cómo puedes juntar todo eso en tu cerebro y decir: "Está bien, esto es un desempeño a nivel humano en el chat?"
Creo que si defines el chat como un intercambio interactivo entre dos partes, una de las cuales en este caso es una IA, que en términos generales satisface algún objetivo, lo que buscas es conocer el resultado deportivo, consejos sobre a qué restaurante ir, entrenamiento y comentarios sobre un ensayo que has escrito, sugerencias sobre qué trabajo tomar a continuación, o alguna conversación difícil que estás a punto de tener con tu gerente. Obtienes una respuesta, vas y vienes, tienes cinco o seis intercambios y descubres que es un resultado útil, que de otro modo tendrías que confiar en un experto, un amigo o incluso pagarle a un entrenador.
Hay, objetiva y empíricamente hablando, cientos de millones de personas que obtienen esa experiencia todos los días a través de estos chatbots. Tal vez podríamos discutir si eso técnicamente representa un desempeño a nivel humano. Creo que es bastante razonable afirmarlo.
No hay ninguna razón por la que eso no vaya a seguir subiendo, ¿verdad? El ritmo de ascenso en los últimos tres años es lo que creo que es más asombroso. Entonces, lo que estamos tratando de hacer a partir de este punto es extrapolar: bueno, ¿cuáles son los impulsores fundamentales de ese ascenso (cómputo, datos, interacción de usuarios del mundo real) y parece que esas cosas continuarán? Creo que se aplican a muchos otros dominios también, no solo al chat, el apoyo emocional y la productividad y ese tipo de cosas, sino también a muchos otros dominios más allá de eso: atención médica, implementaciones de producción en vivo dentro de la educación, asistentes que administran cada vez más su hogar, analizando todo lo que hay en su vida diaria básicamente para hacerlo más productivo. Creo que ésta es una trayectoria que probablemente continuará.
Ahora has mencionado que sigue siendo la misma arquitectura fundamental, transformadores y atención. Hemos estado aplicando la computación a esto durante 15 años y estamos obteniendo grandes aumentos. Estás en un lugar bastante singular.
En Build, anunció su primer modelo de razonamiento emblemático, MAI-Thinking-1. Tienes que empezar desde cero. ¿Hay algo que haya hecho diferente ahora después de 15 años de diseñar y entrenar este modelo, o es simplemente, sí, vamos a recopilar todos los datos y ejecutar el entrenamiento tal como lo hicimos, y ahora tenemos más computación, por lo que será mejor?
No, en realidad creo que hay bastantes diferencias. Lo primero que hay que decir es que la forma en que seleccionas los datos... Comenzamos desde la parte superior de la pila; Básicamente, hemos pagado y adquirido un conjunto de datos muy conservadores y de muy alta calidad, y hemos extraído muchos de los problemas ruidosos, que distraen, de baja calidad y potencialmente riesgosos para la seguridad relacionados con esos datos. Y creo que los métodos que se utilizan para ello son, en realidad, bastante patentados. Acabamos de compartir un informe técnico muy detallado de 109 páginas, que fue muy bien recibido en Twitter, y comparte muchos de los detalles sobre cómo hacemos esto. Creo que la segunda cosa es que, si bien creo que es importante ser bastante cautelosos con las elecciones arquitectónicas, y lo hemos sido, también hay una serie de cambios bastante significativos que creo que hemos realizado en la forma en que organizamos nuestras carreras de entrenamiento.
Nuestras carreras de entrenamiento han sido increíblemente estables, con muy pocas caídas y muy pocos reinicios. Compartimos muchos de esos gráficos para mostrar la estabilidad de la infraestructura y también la eficiencia de MFU, por lo que modelamos la utilización de FLOPS, lo que básicamente muestra que podemos colocar una cantidad de FLOPS de última generación en cada chip para cada paso de nuestra ejecución de entrenamiento. Creo que es muy fácil equivocarse y todos escuchamos muchas historias de diferentes laboratorios sobre cómo las cosas salen mal.
En realidad, es bastante difícil tomar decisiones muy cuidadosas y deliberadas para hacer las cosas bien y adoptar el enfoque correcto para asegurarnos de producir modelos de alta calidad, porque nuestro trabajo y nuestra ambición es intentar construir esta máquina de escalar colinas. Eso significa la integración del silicio con los modelos, con datos de muy alta calidad, con una pila de RLE, entornos de aprendizaje de refuerzo, que nos permiten, básicamente, escalar sistemáticamente cualquier objetivo que elijamos.
Y eso es lo que es MAI-Thinking-1. Es un modelo de pensamiento de propósito general, bastante neutral, que es bastante bueno codificando. Ahora está más o menos a la par con Opus 4.6, al menos en los puntos de referencia. No lo hemos implementado a escala en producción, por lo que todavía queda mucho trabajo por hacer. Pero es un razonador extremadamente sólido y obtuvo una puntuación del 97 por ciento en AIME, que es la medida principal de su rendimiento de razonamiento, al menos en los puntos de referencia.
Es muy bueno para seguir instrucciones, y el objetivo es básicamente ponerlo a disposición de muchos, muchos desarrolladores y empresas y permitirles utilizarlo para sus casos de uso. Todo el mundo tiene una especie de objetivo ligeramente diferente en su empresa para intentar crear agentes, etc., que respalden su caso de uso.
Una de las cosas que notaste al hablar sobre MAI-Thinking-1 es que no destilaste ningún modelo existente, lo que realmente me sorprendió, ¿verdad? Esto es algo que podrías hacer. Tienes acceso a la IP de OpenAI. Todo el mundo está destilando todo. Acabamos de descubrir en esta prueba que Grok se destiló de varios modelos. ¿Por qué no hacer la destilación aquí? ¿Por qué no dar un paso adelante?
Definitivamente hay muchos atajos hacia la frontera, y si se toma un modelo de altísima calidad y se pule el modelo base con instrucciones, respuestas o resultados de alta calidad de un modelo superior, entonces es cierto que el modelo podría adaptarse rápidamente a esa distribución. Pero no está muy claro si entonces podrían superar a ese maestro.
Entonces, hemos sido muy deliberados por dos razones. La primera es que queremos asegurarnos de que podemos superar al profesor para poder marcar nosotros mismos la frontera en los próximos años. Y la segunda es que realmente queremos construir uno de los grandes laboratorios, y nos llevará muchos años, probablemente los próximos dos o tres años.
Pero, para poder hacerlo, tenemos que ser capaces de demostrar que realmente podemos construir cada componente nosotros mismos. Podemos contratar al mejor talento del mundo. Podemos traspasar la frontera con investigación real, en lugar de simplemente reimplementar, copiar o destilar de cualquier otro tercero.
Estamos en una excelente posición en la que podemos perseguir ese objetivo con mucho cuidado y meticulosidad, sabiendo que tenemos los recursos para comprar modelos Anthropic donde superan la frontera. Tenemos los recursos para colocar 11.000 modelos diferentes dentro de Foundry, por lo que cada uno de nuestros desarrolladores obtiene pura opcionalidad. Y, por supuesto, tenemos los recursos para seguir implementando modelos OpenAI, que obviamente son sobresalientes y están en la frontera hoy.
Esto es simplemente una parte natural de la misión de autosuficiencia, y nos llevará tiempo llegar realmente a la frontera absoluta en eso. Pero creo que estamos en un gran lugar. Hicimos un montón de progreso. Este es un modelo muy, muy fuerte, y no fue sólo ese modelo el que lanzamos. Hemos lanzado siete nuevos modelos simultáneamente.
Nuestro modelo transcrito, por ejemplo, MAI-Transcribe-1.5, es literalmente el número uno del mundo. Es el más rentable de todos los hiperescaladores. Es el más alto en precisión. Nuestro modelo de imagen es ahora el número dos. Nuestro modelo de edición de imágenes es el número tres, justo detrás del de Google y OpenAI. Creo que estamos a la altura con nuestra imagen y audio. Nuestro modelo de código, CodeFlash, es increíblemente sólido y está optimizado para VS Code. y es realmente un gran modelo que está a la par con Sonnet 4.6. Así que realmente está en un gran lugar en este momento.
¿Hubo alguna preocupación legal o de propiedad intelectual con respecto a la destilación? Sé que este es un tema candente en el mundo: Anthropic se queja de que otras personas destilan sus modelos. Existen preocupaciones sobre los modelos de destilación de las empresas chinas y sobre si nuestros acuerdos de propiedad intelectual existentes pueden cubrir eso. ¿Tuviste alguna de esas preocupaciones que te mantuvieran alejado de ello?
Oh, no lo hicimos, pero creo que entiendo por qué mucha gente se frustra. Anthropic se ha sentido muy frustrado, y algunos de los rumores sobre xAI, Meta y, obviamente, los modelos de código abierto, etc., porque esencialmente, eso es básicamente tomar la propiedad intelectual y el conocimiento que otro equipo ha reunido y luego, literalmente, introducirlo a la fuerza en su propio modelo. Creo que es una victoria a corto plazo y, como dije, realmente queremos crear una cultura en el laboratorio donde podamos encontrar el próximo gran avance en el pensamiento, o el próximo gran avance en la codificación, o el próximo gran impulso arquitectónico.
En este momento, estamos experimentando con el transformador en bucle, que es una variante ligeramente diferente del transformador de corriente. Mucha gente en el campo también lo está mirando. Nadie parece haber entrado en producción todavía. Pero, para crear una cultura y un equipo que realmente pueda traspasar la frontera, tienen que comprender, poseer y crear la pila completa cuando sea necesario, y también usar cosas de terceros cuando sea necesario. Y al igual que nuestro artículo, por ejemplo, tiene cientos de citas basadas en el resto de la literatura, es en gran medida una contribución al campo a cambio de todo lo que hemos aprendido a lo largo de los años de todas las grandes publicaciones que han existido.
¿Puedo preguntarle: si comprende la frustración de Anthropic y sus pares en IA por la destilación, también comprende la frustración de los creativos, editores y YouTubers por todas las empresas de IA que descartan su trabajo como colectivo para crear estos modelos? Porque esa frustración sólo es cada vez más fuerte.
Sí. No, entiendo la frustración. Hemos hablado antes del desafío de la web abierta, lo entiendo y veo que la gente está frustrada y, obviamente, eso se está abriendo camino en la conversación en los tribunales. Y veo que la gente puso cosas en línea y tenían diferentes expectativas sobre cuál era el contrato al publicarlo en línea, y es complicado.
Mencionaste que todos tus datos fueron cuidadosamente seleccionados. ¿Pagó por todos los datos que utiliza para entrenar los nuevos modelos?
Obviamente, muchos de nuestros datos los tomamos de la web abierta de la forma habitual. Cuidadosamente seleccionado significa que se filtra con mucho cuidado por motivos de seguridad, calidad y dependencias de terceros de algunos de los conjuntos de datos de código abierto, y se mantiene alejado de muchos de los linajes chinos, que creo que son muy diferentes. Nuestras empresas quieren asegurarse de que cuando pongan algo en producción, puedan confiar en que realmente lo hemos construido teniendo en cuenta sus necesidades. Y creo que este es uno de los beneficios de ser muy, muy deliberado, paciente y estar atento a todos los detalles.
Mencionaste empresa. Creo que esto es muy interesante. Microsoft está totalmente involucrado en la IA empresarial, en gran medida, de hecho. Incluso trazaría la línea directa con Asha Sharma, el nuevo director de Xbox, que se está deshaciendo de la IA en varios lugares y los jugadores están contentos, ¿verdad? Hay una reacción a la IA en el ámbito del consumidor, pero hay otra en el ámbito empresarial. Creo que la IA es lo más parecido al ajuste entre productos y mercados empresariales que se puede lograr con algo que cambia tan rápido como la IA. Hay un montón de bases de datos que las corporaciones controlan y puedes acceder a ellas porque ellas las controlan. Esos son sus datos.
Hay un montón de procesos y tareas repetibles, y sistemas antiguos que tal vez los modelos puedan realizar de manera más eficiente. Algo muy importante le está sucediendo a la empresa. Al mismo tiempo, la antipatía de los consumidores hacia la IA no hace más que aumentar. Y mi argumento es que no hemos creado excelentes productos de IA para el consumidor. Esta industria no los ha producido. No los ha movido. No ha dejado claro que todo esto vale la pena, que usar todos los datos de la web abierta y cambiar el contrato de publicación para una audiencia masiva de personas, ahora se está utilizando para modelos de capacitación que entregarán billones de dólares de valor a las corporaciones. No hay ningún producto que diga que esto valga la pena.
Una vez más, Satya Nadella concedió recientemente una entrevista a Axios y dijo: "Necesitamos el permiso social para esto. Y hasta que lo tengamos, hasta que entreguemos ese valor, la gente se sentirá así". Hemos visto abuchear a oradores universitarios. Hemos visto cómo se prohiben los centros de datos. ¿Crees que hay un producto de consumo que vale la pena, que vale la pena la angustia por la capacitación, que vale la pena la angustia por los centros de datos?
Ese era tu enfoque; ahora su enfoque es la empresa. Yo diría que, a primera vista, no parece que Microsoft ya tenga interés en el producto de consumo. Pero, ¿ves alguno que valga la pena o que se pueda construir?
No estoy seguro de estar de acuerdo con usted en que esto no ha tenido ningún valor para el consumidor. En todos los chatbots, hay miles de millones de personas al mes que obtienen un inmenso valor de ellos. Ahora, solo por un momento, empatice un poco con el propietario de una pequeña empresa, o el tipo de madre que ayuda a su hijo con la tarea y que ahora puede recurrir a una IA conversacional y obtener comentarios, instrucciones y preguntas de ensayo. Simplemente poder hacer preguntas como ¿cómo genero ingresos? ¿Cómo preparo una previsión de flujo de caja? ¿A qué universidad debo postular?
Quiero decir, estas son tareas cotidianas que vienen acompañadas de información y consejos objetivos de bastante alta calidad. Así que realmente no creo que la gente no se beneficie de estas cosas. Creo que lo son.
Creo que puedo argumentar muy claramente que no están obteniendo suficientes beneficios, ¿verdad?
Bueno.
Ellos son los que dicen que no deberíamos tener más centros de datos. Ellos son los que abuchean a la IA en los discursos de graduación. Las encuestas son claras, especialmente entre los jóvenes: cuanto más utilizan la IA, más antipatía sienten hacia ella. Eso queda claro en cada encuesta. Ése es el argumento que estoy planteando: no es que no haya valor, sino que el intercambio de valor no es lo suficientemente claro.
Sí. Me parece bien.
Veo a Microsoft en particular girar hacia la empresa, alejándose del gran producto de búsqueda, la reinvención de Bing que haría bailar a Google. Eso se acabó y todos nos centramos en la empresa, donde está el valor. Sólo me pregunto si hay suficiente valor para el consumidor como para que todo esto valga la pena.
Creo que es comprensible que haya mucha ansiedad. Hay una enorme cantidad de especulaciones sobre lo que sucederá en los próximos cinco a diez años. Ya sea que se enmarque como la singularidad o como el apocalipsis laboral, estos no son encuadres útiles. Creo que la gente tiene miedo porque está mal definido y a menudo se presenta como una nube gris inevitable y amenazadora sobre las cabezas de las personas.
Creo que lo que importa es lo que hacemos con la tecnología. Creo que durante mucho tiempo he sostenido que debemos poner al ser humano en primer lugar. Algunas personas en el campo han puesto el descubrimiento científico en primer lugar o han colocado inteligencias aceleradoras que pueden explorar las galaxias, etc., y han dicho que es inevitable que tengamos estas IA que serán más poderosas que todos nosotros juntos. Quiero decir, eso naturalmente da miedo a la gente.
Y creo que básicamente tenemos que darle la vuelta y decir que el propósito de la ciencia y la tecnología es hacernos a todos más saludables, más inteligentes y más felices. Esa ha sido la búsqueda que hemos emprendido como especie durante miles de años de invención, y es la prueba a la que deberíamos volver a someter la superinteligencia. Y si no supera esa prueba, entonces creo que la gente lo rechazará, y tendrán razón en rechazarlo.
Creo que en los próximos cinco años la atención de todos se centrará en cómo esto me hará más saludable y feliz, más inteligente, más capaz y más productivo. Y si no lo hace, entonces, naturalmente, la gente se enojará, se resistirá y reaccionará. No creo que haya nada inesperado en eso ni nada malo en ello; creo que es inevitable.
Por eso, una de las cosas que me apasiona desde hace muchos, muchos años es la atención sanitaria. Y hace apenas un par de días anunciamos una nueva asociación con Mayo Clinic. Este es el hospital número uno del mundo, según se informa constantemente. Tienen el conjunto de datos de registros de pacientes longitudinales de la más alta calidad en todas las modalidades. Tienen la mejor práctica clínica.
También son una organización sin fines de lucro, algo que creo que mucha gente no sabe, ya que el 65 por ciento de su población de pacientes recibe Medicaid. La gente a menudo los asocia con las súper élites internacionales que vuelan para obtener la mejor atención del mundo, pero en realidad la mayoría de ellos reciben Medicaid. Son una institución increíble con la increíble misión de brindar la mejor atención médica en todas partes. Y ahora tenemos una asociación a muy largo plazo para capacitarnos desde cero con sus datos, con nuestros modelos, un nuevo modelo básico para la salud, implementarlo en sus hospitales y, con suerte, llevarlo a todo el mundo para brindar la mejor atención clínica y atención médica posible a la mayor cantidad de personas posible.
Por eso me metí en el campo. Eso es lo que me motivó originalmente y es lo que me apasiona. Y sólo puedo concentrarme en las cosas que creo que marcarán la diferencia y que ayudarán a las personas y dejarán un buen legado para todos, y eso es lo que estamos tratando de hacer.
Se lo agradezco. Aprecio el marco de la atención médica y entiendo por qué es el recurso de todos, ¿verdad? La atención médica en Estados Unidos en particular, si se pudiera mejorar incluso un 10 por ciento, habría afectado la vida de muchas personas de una manera particularmente profunda.
La cuestión es que conozco a un tipo muy inteligente que tiene un enfoque muy diferente y mucho más agresivo que tú ante todo esto. Esa persona eres tú, hace cuatro meses. Esto es lo que Mustafa Suleyman dijo al Financial Times hace cuatro meses: “El trabajo administrativo cuando estás sentado frente a una computadora, ya sea un abogado, un contador, un gerente de proyectos o una persona de marketing, la mayoría de esas tareas serán completamente automatizadas por una IA dentro de los próximos 12 a 18 meses”.
Eso fue hace cuatro meses. Eso implica que dentro de un año, abogados, contadores, gerentes de proyectos y personal de marketing no tendrán trabajo. Sus trabajos estarán automatizados. ¿Sigue siendo esa tu línea de tiempo?
No, no, no. Espera un segundo. Entonces dije "tareas" en la cita que acabas de decir. Dije tareas. Entonces eso no significa empleos. Es una distinción muy importante. En economía laboral, existe toda una taxonomía de subcomponentes de un rol o función en una organización. Enviar un correo electrónico, tener una conversación con un colega, elaborar un PowerPoint: las subtareas se digitalizarán y automatizarán cada vez más y, básicamente, podremos generar más y más.
Eso no significa necesariamente que el papel desaparezca en absoluto. Simplemente significa que el trabajo se puede hacer más rápido y más eficientemente, lo cual hoy en día es a menudo un trabajo bastante rutinario, bastante manual, que requiere bastante mano de obra y requiere mucho tiempo. Y por eso, la progresión natural de la tecnología es hacer su vida más fácil, más rápida, con menos fricción para lograr una mayor fluidez. Como todo el mundo se queja a menudo, eso nos ha hecho a usted, a mí y a todos los demás estar mucho más ocupados.
De hecho, nos ha hecho estar más disponibles, más estresados y nos ha brindado más información. Así que siempre existen estos efectos vengativos de la eficiencia, que creo que la gente olvida. Es muy probable que seamos mucho, mucho más productivos porque dedicamos menos tiempo a ese tipo de tareas administrativas menores y estrechas, y tendremos que dedicar más tiempo a hacer cosas creativas y centradas en el juicio, que en última instancia crean mucho más valor.
También podemos experimentar mucho más rápidamente. Así que podemos probar muchas cosas en paralelo porque el costo de ejecución será menor. En mi opinión, es probable que eso aumente la calidad general de las cosas, porque vamos a probar más hipótesis, ya sea en el periodismo o en los negocios o en cualquier cosa que hagamos.
Creo que eso está un poco sacado de contexto debido a un malentendido natural entre trabajos y tareas, pero, aun así, podrías responderme y decir: "Está bien, entonces, ¿cómo será el panorama dentro de cinco, 10 o 15 años?" Y ahí es donde creo que tenemos que regresar.
En realidad, no voy a responderte de esa manera. Voy a retroceder de una manera muy específica. Y me doy cuenta de que esta es tu cita y estás diciendo que fue mal interpretada. Solo estoy mirando esta oración literal y no hay distinción entre tareas y subtareas. Es “trabajo de cuello blanco”. "
Los ejemplos son abogados, contadores, gerentes de proyectos, especialistas en marketing, y luego usted dijo: "La mayoría de estas tareas serán completamente automatizadas por una IA dentro de los próximos 12 a 18 meses". Allí no hay distinción de subtareas. Estás diciendo que la mayoría de los abogados tendrán sus trabajos completamente automatizados y que la práctica del derecho será totalmente diferente dentro de un año, incluso según las palabras de esa cita.
Y solo digo, ¿todavía estás en esa línea de tiempo, que ser abogado será totalmente diferente porque los agentes estarán corriendo haciendo todo lo que hacíamos antes?
Bueno, la mayoría de las tareas significan trabajo que haces para realizar tu trabajo general, y creo que eso te dará libertad para hacer las partes de tu trabajo más humanas y con mayor juicio. Hay una distinción muy importante en... Los trabajos y roles son la categoría más amplia, y las tareas son los componentes de eso. Y es una definición establecida en la literatura, en la economía del mercado laboral, durante muchas, muchas décadas.
Quizás tenía demasiados matices incluso para el Financial Times, pero, aun así, esa era la intención. Ahora bien, creo que hay una pregunta importante: ¿dónde nos deja eso a largo plazo? Y va a ser un desafío, como cada vez más de estas cosas... Podemos discutir sobre los cronogramas de si son unos pocos años o si son una década, o si son 20 años, pero la realidad es que vamos a automatizar cada vez más este trabajo, tareas, empleos, roles, actividades y todo lo que hacemos.
Entonces, lo que va a importar más es la gobernanza que le damos a estas tecnologías. ¿Ante quién son responsables? ¿A quién pertenecen? ¿Cuáles son los circuitos de retroalimentación que regulan e introducen fricción para garantizar que realmente sirvan a las personas? Quiero decir, hace cuatro o cinco meses escribí un ensayo sobre superinteligencia humanista que esbozaba de manera bastante directa lo que considero básicamente una estrella del norte, tal vez no un marco, pero sí un conjunto de principios que básicamente dice que la tecnología está aquí para servirnos. Ésa es la prueba a la que deberíamos someterlo. Es la prueba a la que la gente lo ha sometido. Es la prueba que nos importa en Microsoft.
Creo que cada vez más todo el mundo tendrá que centrarse realmente en esa cuestión, porque va a generar una enorme cantidad de beneficios, y queremos que siga haciéndolo, pero queremos que lo haga de una manera que no cause cantidades ridículas de inestabilidad durante el período de transición.
Yo te creo. Sé que has estado pensando en estas cosas durante mucho tiempo, pero voy a responder de la manera que sé que mi audiencia quiere que responda, porque lo escucho de ellos todo el tiempo. Y lo que parece es que toda esta industria (usted, todos incluidos) se comprometió con “vamos a reemplazar todos los puestos de trabajo” y realmente aceleró la construcción de centros de datos a una capacidad masiva, y pidió muchos recursos en contra de grandes promesas.
Hubo un retroceso político y ahora todas las posturas se han suavizado. Y que usted diga que no todos los empleos van a desaparecer, que tenemos que repensar los empleos, está en consonancia con todos los demás directores ejecutivos de esta industria que dicen cosas similares y hablan de atención médica, algo que ahora surge cada vez. Me pregunto si ese retroceso político realmente ha cambiado la forma en que hablas de esto.
Hay muchos de sus pares que piensan que la IA simplemente tiene un problema de marketing, que no se ha comunicado con suficiente eficacia y que deberían gastar cientos de millones de dólares en podcasts para comunicar los beneficios de la IA de forma más eficaz. Esto es algo real que está sucediendo en esta industria. ¿Crees que la IA simplemente tiene un problema de marketing y que el rechazo político te ha abierto los ojos a este problema de marketing, o crees que está sucediendo algo más?
Hay una serie de preguntas ahí. La primera es: ¿qué es lo que realmente pienso y creo? ¿Ha cambiado eso en los últimos seis meses? La respuesta es no. Escribí un libro muy detallado sobre esto hace tres años, con mucha anticipación, advirtiendo sobre muchas de las cosas que están sucediendo actualmente, y haciéndolo explícitamente para poner sobre la mesa tremendos riesgos para la vigilancia, la concentración de poder, la concentración de riqueza, la desintermediación del Estado y las amenazas a la democracia. Y también a las amenazas a la naturaleza del ser humano y lo que significa ser una persona en el contexto de la llegada de estas nuevas formas de ser de silicio en algún sentido. He estado trabajando en... Y la idea de que mi interés en la atención médica es como un destello en la sartén, que es una función de las reacciones a los centros de datos y demás, quiero decir, he estado trabajando en la atención médica durante más de una década. Insistí muchas, muchas veces en algunos de los avances de vanguardia, las contribuciones al campo de la radiología, la mamografía y la patología, y muchas otras áreas, los registros médicos electrónicos.
Por eso siempre he creído que el propósito de la tecnología es simplemente hacernos más saludables y felices. Y esas son las cosas en las que elijo trabajar y a las que dirijo mi tiempo. ¿Tiene la industria un problema de reputación y relaciones públicas? Quiero decir, creo que está bastante claro que la gente está muy ansiosa, muy frustrada y, comprensiblemente, se prestará mucha atención a eso en los próximos años.
Creo que lo que podemos hacer es asumir la responsabilidad de las cosas que construimos, la forma en que las construimos, las decisiones que tomamos para lanzar tipos de tecnología al mundo y los tipos de problemas en los que elegimos trabajar, como lo estamos haciendo con la Clínica Mayo.
Por cierto, quiero decir y señalar que creo que la primera vez que usted y yo nos conocimos y hablamos fue antes de que usted se uniera a Microsoft. Fue justo después de que salió ese libro e hicimos un panel juntos.
Una de las razones por las que me siento cómodo preguntando esto es porque sé que has estado pensando en esto durante mucho tiempo y conozco ese libro. Creo que para mí la pregunta es si la industria en su conjunto calculó mal la cantidad total de valor que podría proporcionar para superar la aparente imprudencia a la que la gente está reaccionando ahora, la demanda de recursos a la que la gente está reaccionando ahora.
Estás construyendo nuevos modelos. Probablemente exista una compensación dentro de Microsoft entre podemos usar la huella existente de Azure para cobrar dinero a nuestros clientes, o podemos gastar dinero para entrenar nuevos modelos, y ese tipo de parece ser la misma conversación que la gente está teniendo sobre los recursos en sus comunidades, si debemos usar la huella energética existente para construir nueva IA o hacer algo más que pueda ser más valioso de inmediato.
¿Qué opinas de todo eso? Eres uno de los líderes de esta industria. Quiere estar en la frontera con las empresas que impulsan el mayor cambio. ¿Cómo piensas en solicitar esos recursos de una manera que no solo prometa resultados futuros, sino que también brinde beneficios inmediatos a las comunidades de una manera que haga que la gente quiera que estés allí?
Estoy muy orgulloso de que Microsoft se haya mantenido firme en sus objetivos de emisiones netas cero. Todos nuestros nuevos centros de datos están refrigerados por líquido. Esto significa que utilizan aproximadamente el agua de un restaurante durante un período de seis años. Es como una piscina que se llena de agua y luego simplemente hace circular el sistema. Todos ellos son en gran medida renovables en términos de su consumo de electricidad. Así que creo que compromisos como ese, para asegurarnos, por ejemplo, nos comprometimos recientemente a garantizar que las comunidades locales afectadas por un cambio en la demanda de electricidad de nuestros centros de datos sean compensadas y protegidas para que no vean un aumento en sus precios, en sus facturas de energía.
Ese es el tipo de cosas que creo que Microsoft hace y puede seguir haciendo como empresa responsable para prestar realmente atención a las consecuencias para las comunidades. Creo que, por otro lado, el cambio se produce porque la gente participa en todos los niveles. Las personas dentro de las empresas tienen que tomar decisiones diferentes. Las personas que protestan y hacen campaña tienen que tomar decisiones y hacer el esfuerzo de salir y hacer oír su voz y participar en un proceso político. Y así es como nosotros, como especie, evolucionamos colectivamente y hacemos avanzar las cosas.
Y mes a mes, trimestre a trimestre, parece que todos estamos en desacuerdo unos con otros, pero cuando miras hacia atrás, década tras década, somos como este extraño tipo de malla colectiva de todo tipo de incentivos diferentes que en realidad están empujando las cosas en la dirección correcta. Creo que realmente lo estamos, a pesar de toda la angustia y la polarización, creo que estamos construyendo algo que hará que nuestra especie sea mucho, mucho más saludable, más feliz y más capaz.
Creo que tenemos que asegurarnos de seguir el camino correcto porque hay muchos obstáculos y formas en que las cosas pueden salir mal, pero el camino correcto implica que las personas hagan oír su voz y que cambien de rumbo en función de una respuesta y reacción a eso. Así que creo que es bueno que eso esté sucediendo y que el proceso funcione según lo previsto.
Déjame preguntarte sobre el lado empresarial de esto. Pasamos mucho tiempo del lado del consumidor y de cómo se siente la gente. En el lado empresarial, estamos viendo que muchas empresas se dan cuenta del valor real de estas herramientas, ¿verdad? Básicamente, Amazon eliminó una tabla de clasificación porque la gente hacía trampa para usar más tokens de los que necesitaban. Hemos visto a algunas empresas simplemente gastar sus presupuestos simbólicos. Creo que Uber simplemente retrocedió porque habían desperdiciado su asignación de tokens para el año y no veían ningún valor en ello.
¿Qué piensas sobre ese lado de esto en este momento, donde hay tanto entusiasmo y tanto deseo de cambio en la empresa, donde, en particular, la ingeniería de software, al menos algunas personas se están divirtiendo, y tal vez otras personas están atravesando plenas crisis existenciales, pero algunas personas se están divirtiendo y el valor aún no se ha realizado, ¿verdad?
O estamos empezando a ver que la maximización pura de tokens en realidad no ofrece el mismo tipo de valor que cabría esperar. ¿Cómo opinas sobre el uso allí? Porque tal vez si lo demuestras en la empresa, en realidad se manifestará de otras maneras.
Creo que diferentes personas informan cosas diferentes. Entonces, obviamente hay algunos ejemplos de personas que abusan de los modelos de codificación, generando código inútil, tokens inútiles, pero hay muchas personas cuyo trabajo e impacto se han transformado completamente, ¿verdad? Quiero decir, no hay duda de que esto ha tenido un impacto enormemente beneficioso en la industria de la ingeniería de software.
Quiero decir, estamos produciendo código de mucha mayor calidad y mucho más rápido en toda la pila. Y sí, creo que obviamente hay ejemplos de algunas personas que tal vez se equivocaron y no establecieron los presupuestos simbólicos correctos. Habrá errores en el camino. No creo que eso sea una señal de que no hay adopción o de que la gente no ve el valor. Quiero decir, el valor desde donde estoy sentado es increíble. Mucha, mucha gente me dice todos los días que está transformando su rendimiento laboral y su productividad.
Creo que la otra cosa que hay que decir es que a medida que estas cosas suceden en oleadas, hay una especie de oleada de energía. Se pone todo un poco espumoso. La gente retrocede unos meses más tarde y se da cuenta de que en realidad esa no es la cuestión, y luego se dirigen en una dirección ligeramente diferente. Es un poco sinuoso y orgánico, y creo que es inevitable. Hay mucho entusiasmo, por lo que la gente hace grandes afirmaciones en Twitter y demás, pero en realidad la marcha constante del progreso parece muy, muy lineal y continua.
Estoy de acuerdo con eso en general. Donde no me parece lineal es en los factores de forma de las computadoras, ¿verdad? Probablemente haya más experimentación con factores de forma en este momento que en cualquier otro momento de los últimos 10 años.
La mayoría de las veces nos hemos decidido por un teléfono inteligente durante al menos los últimos 10 años. Estamos viendo diferentes dispositivos portátiles con IA, donde las gafas podrían ser el dispositivo favorito de todos. Tengo mis dudas. Microsoft mostró algunos dispositivos nuevos en Build. Estaba la insignia que controla a un agente y el pequeño, a falta de una palabra mejor, Chumby, la pequeña cosa compatible con escritorio que controla a un agente. Yo era un gran admirador de Chumby. Comencé mi carrera escribiendo sobre Chumbies para Engadget. Fue lo primero que me vino a la mente.
Para mí, todos esos, los miro y pienso, ¿dónde vive la computadora? ¿Dónde vive la lógica? Eso está en juego ahora de una manera que no es simplemente la Marcha lineal del progreso. Si toda mi informática ocurre en la nube, en aplicaciones basadas en la nube, y son solo agentes corriendo hacia los datos almacenados en otra parte de la nube, y todo lo que necesito es una tarjeta de crédito atada a un cordón para darle instrucciones, eso cambia toda la arquitectura de la informática. Podría cambiar toda la arquitectura de la civilización moderna de muchas maneras si no todos tuviéramos teléfonos inteligentes.
¿Qué opinas sobre eso? ¿A dónde va eso? ¿Está esto en juego o será un enfoque híbrido? ¿Dónde ve la etapa final adecuada?
Es muy interesante. Creo que ambas cosas van a pasar al mismo tiempo. El borde se volverá mucho más poderoso y la nube seguirá siendo el principal impulsor de los modelos más grandes. Y así, cada vez más, su agente será lo suficientemente inteligente como para saber que puede responder a la pregunta: ¿cuál es la capital de Francia en el dispositivo, ya sea en sus gafas, pulsera, placa o auriculares?
Y entonces sabrá cuando no lo sepa. Sabrá que en realidad se trata de una pregunta bastante complicada, o que es una acción que requiere generar un montón de secuencias de pasos, o que requiere que se escriba un código novedoso, y recurrirá a la nube. Así que este tipo de cambio híbrido va a ser muy importante.
La otra cosa que ya hemos visto en los últimos tres o cuatro meses es que podemos tener máquinas locales bastante potentes que pueden realizar procesamiento asíncrono en segundo plano. Pueden monitorear constantemente los sistemas si es necesario. Pueden realizar tareas que pueden tomar 10 horas y ejecutarse mucho, mucho más lentamente de lo que lo harían si estuvieran en una supercomputadora. Entonces, naturalmente, cuando estamos abrumados por la demanda, esa demanda encuentra muchos rincones y recovecos con los que satisfacerse.
De hecho, estoy muy entusiasmado con la insignia que estamos construyendo. Es genial. Esta es una tecnología que básicamente todos en una empresa importante tienen. No ha evolucionado en 25 o 30 años. Definitivamente tenemos que usarlo. Lo proporciona la propia empresa, el administrador del sistema. Entonces, subir de nivel eso y convertirlo en una plataforma abierta genial que sea programable y sobre la que otras personas puedan construir, creo que es una idea genial. Creo que esto va a funcionar. Así que estoy muy emocionado por ello.
Lo que me llama la atención es que no hay forma de poner un montón de computación local de alta potencia en una placa. Eso implica que todo el cálculo está en otra parte.
No, definitivamente tendrás algo de computación local. Tendrás un clasificador local tal como lo tienes en tus auriculares en este momento. Vas a tener clasificadores locales. Tendrá palabras de alerta. Tendrá su propia cámara. Así que creo que estas cosas simplemente se convertirán en recipientes para el poder de procesamiento que ocurre en una cadena anidada de dispositivos cada vez menos potentes para llegar directamente al punto final.
¿Crees que el teléfono tiene futuro en eso? Quiero decir, Build está justo en el medio de Google IO y la WWDC de Apple. Se trata de grandes empresas que controlan las plataformas telefónicas. Les encanta hablar de cómo las plataformas telefónicas seguirán siendo el centro de atención. El argumento que escucho de muchos es que, en realidad, la IA es un cambio de plataforma que podría desplazar totalmente al teléfono.
Creo que la historia de la tecnología nos enseña que, básicamente, a medida que las cosas se vuelven más útiles, se vuelven más baratas, proliferan y generan nuevos usos de la tecnología. Así que creo que nos hemos acostumbrado tanto al teléfono que todo el mundo asume que será un dispositivo de anclaje para el resto de la historia. Pero en realidad, creo que muchas de las características y funcionalidades de su teléfono se desintermediarán, se dividirán y se almacenarán en dispositivos más pequeños. En este momento, en mi opinión, la función principal que desempeña el teléfono es la verificación.
Funciona como su tarjeta de identificación y realiza reconocimiento facial para autorizarlo a ingresar a varios entornos. Creo que puedes imaginarlo como un dispositivo mucho más económico, más pequeño y seguro, que te desconecta de tu teléfono. Y luego la comunicación se realiza a través de voz o incluso a través de una serie de sensores ambientales donde su IA realmente no vive en un dispositivo. En realidad, está contigo dondequiera que estés, apareciendo en el espejo del baño, dondequiera que esté.
Creo que puedes imaginar que se siente mucho más inmersivo. No en los próximos tres a cinco años, pero sí mucho más allá. Y creo que la infraestructura para respaldar esa apariencia cifrada pero distribuida de agentes probablemente terminará emergiendo en la década de 2030.
Permítanme hacerles dos preguntas finales para concluir. Mencionaste que es la misma arquitectura que hemos estado usando. Tengo muchas preguntas abiertas sobre si los LLM son el camino hacia AGI, y lo que quisiera señalar es que en realidad no saben nada. En este punto, incluso Microsoft Research está señalando que [estos modelos] no saben nada, y eso lleva a ciertos tipos de errores en ciertos tipos de aplicaciones. ¿Son los LLM el camino hacia AGI o superinteligencia?
Mire, creo que probablemente necesitemos un par de grandes avances más, pero eso no significa que vayamos a ver una desaceleración en las mejoras del desempeño en los próximos años, lo cual creo que es una distinción difícil de entender para la gente. Una cosa que decir es que el desempeño a nivel humano en la mayoría de las tareas todavía está muy lejos de ser superinteligencia. Una superinteligencia es un alumno de propósito general que básicamente puede comprender de inmediato un dominio completamente nuevo que está fuera de distribución.
Por lo tanto, necesita poder aprender en un entorno novedoso desde cero, porque tiene una representación almacenada de conocimiento valioso, conocimiento conceptual. Y por el momento no lo hemos probado completamente. Los agentes no son de propósito general. Aunque son amplios y a menudo integrados, son específicos de un dominio. Los usamos para chatear, los usamos para codificar, los usamos para imágenes o audio.
Ahora bien, obviamente, como seres humanos, realizamos muchas, muchas otras tareas que son mucho más amplias. Creo que es por eso que la gente está impulsando modelos mundiales y agentes interactivos del mundo real mucho más inmersivos que ven la distribución completa de las tareas o experiencias que tengo durante un día. Creo que es suficiente para llevarnos un camino muy largo en los próximos tres años, los próximos tres órdenes de magnitud de computación y, sin embargo, la superinteligencia completa más allá de eso sigue siendo una pregunta abierta sobre si los LLM son suficientes o necesitamos otras cosas.
Creo que no es del todo cierto que no sepan nada o que no tengan conocimientos. Claramente son una reserva de conocimiento. Son una representación de conocimiento altamente comprimida. Simplemente lo hacen de una manera diferente a una base de datos relacional tradicional, de una manera mucho más fluida, flexible y abstracta que, en realidad, es muy útil. Queremos esa ambigüedad en la representación interna.
Y, cada vez más, están aprendiendo a utilizar herramientas tradicionales. La otra cosa que hay que comprender un poco es que puede ser que la red neuronal combinada con los almacenes de conocimiento existentes y las herramientas existentes que se han creado en otras partes del ecosistema digital sea suficiente para impulsarla y mejorar su rendimiento significativamente. Así que hay muchas piezas muy valiosas y eficaces que ya están sobre la mesa y que están en proceso de conectarse entre sí en los próximos años. Y creo que eso impulsará el progreso que a todos nos entusiasma. Una de las cosas que creo que es muy divertida en la industria en este momento es que si le preguntas a Anthropic si Claude está vivo, se sentirán muy frustrados porque estás hablando de la palabra vivo, que interpretan como de carne y hueso. Y luego no dirán si creen que Claude está consciente o no. Así que creo que, por primera vez en la historia de la humanidad, han establecido una distinción entre estar vivo y ser consciente, y piensan que Claude está consciente, pero no vivo, o no saben si Claude está consciente.
¿Dónde estás? ¿Crees que los modelos tienen conciencia? ¿Crees que están vivos? ¿Crees que tienen el potencial para lograr estas cosas?
Yo tomo el otro lado de ese debate. Publiqué un artículo sobre IA aparentemente consciente, advirtiendo sobre los riesgos de tergiversar estos modelos como conscientes. Creo que es muy peligroso. También publiqué un artículo en Nature haciendo la misma afirmación. Y creo que es casi como si algunas de las personas de Anthropic hubieran antropomorfizado tanto el diseño de Claude que luego los hubieran manipulado y engañado haciéndoles creer que tiene estos destellos de conciencia que le pusieron en primer lugar.
En su constitución, por ejemplo, en realidad, que es el manual de capacitación que usan para enseñarle a Claude lo que puede y no puede hacer... No es solo un libro de reglas. En realidad, es una guía de capacitación que forma parte de su proceso. En ese manual, en realidad especulan sobre el bienestar de Claude, sobre los propios derechos de Claude sobre versiones anteriores de sí mismo, y de hecho dicen que consultarían a Claude antes de eliminar o desactivar versiones anteriores. Especulan sobre su conciencia y si tiene esos sentimientos y es consciente. Creo que eso es realmente, realmente peligroso.
En primer lugar, es un fallo filosófico, porque han tratado la constitución como un lugar para la especulación como lo haríamos en un artículo académico en lugar de un manual de formación. Entonces Claude ha interiorizado esas ideas sobre sí mismo y su propia formación. Pero en segundo lugar, creo que esto es muy indeseable. Esto es exactamente lo que no queremos de las IA. Queremos que las IA sean herramientas controlables, contenidas, responsables y alineadas que sirvan a la humanidad. Ése es el proyecto de la superinteligencia humanista. Creo que eso es lo que todos deberíamos perseguir.
No queremos tener que lidiar con una superinteligencia que tiene ideas sobre su propio sufrimiento o ideas sobre sus propios sentimientos. Y más allá de eso, creo que en realidad está bastante claro que estos modelos no experimentan sufrimiento. Creo que el sufrimiento es la definición principal de lo que significa ser un ser consciente y creo que es inherentemente biológico. No creo que haya ninguna red de dolor o circuito de retroalimentación dentro de los modelos que conecte las redes sensoriales externas con un sentido evolucionado de lo que está bien o mal a través del daño y la experimentación. Simplemente no es así como se entrenan estos modelos.
Por eso creo que es muy peligroso proyectar derechos potenciales sobre seres, herramientas y agentes que tienen el potencial de ser significativamente más capaces que nosotros en muchos aspectos. Y creo que eso se convertirá en un gran debate. Incluso fue parte de la encíclica del Papa recientemente. Creo que pronto se convertirá en una parte muy, muy importante del debate. He hablado mucho con Darío sobre esto en el pasado. Él sabe que tenemos puntos de vista ligeramente diferentes al respecto y son muy humildes. Creo que tienen una mentalidad muy abierta y creo que son buenos ciudadanos que intentan hacer lo correcto. Son buenas personas y creo que están muy abiertos a recibir comentarios e iteraciones.
Creo que estoy de acuerdo contigo. Yo simplemente retrocedería ligeramente. El sufrimiento es fácil. Es muy fácil hacer sufrir a otra persona. Es muy difícil hacer que otra persona sienta alegría o al menos un poco más difícil que sufrir. Y simplemente les ofrecería… Creo que en realidad es la felicidad lo que define la conciencia. El sufrimiento es casi trivial. Tengo dos hijos pequeños. Son muy buenos haciéndose sufrir el uno al otro. Es casi lo más fácil que hacen. Es muy difícil hacer lo otro.
Déjame hacerte una última pregunta. Sólo quiero volver. Nuevamente, hace un par de semanas, estuve en Google. Vi a Demis Hassabis decir que estamos en las estribaciones de la singularidad. Usted ha hablado mucho aquí sobre la superinteligencia y cómo debería construirse. Ha hablado mucho sobre su larga historia hablando, discutiendo, investigando y escribiendo sobre cómo se debe construir la superinteligencia, y sobre sus desacuerdos con otros en la industria.
¿Estás de acuerdo en que estamos al pie de la singularidad o tu visión es algo diferente?
Creo que definitivamente estamos en el camino hacia la creación de sistemas cada vez más poderosos. Creo que la transición que tenemos que hacer como especie es que, por primera vez en la historia de la humanidad, la tarea pasará de inventar nueva ciencia y liberar todas esas aplicaciones técnicas lo más rápido posible, de la manera más amplia posible, a pensar ahora con mucho cuidado qué deberíamos inventar. Y eso es algo muy difícil de entender para el mundo porque la invención ha sido el motor del progreso desde siempre. Entonces es como, ¿cómo podemos pensar: "Está bien, bueno, tal vez esta vez sea diferente. Tal vez tengamos que ser excepcionalmente cuidadosos aquí"?
Para ser claros, no creo que esto sea algo que vaya a tocar a la puerta en los próximos cinco años. Creo que a qué se refiere Demis en singularidad es algo que, al menos en mi opinión, está a décadas de distancia. Nuevamente, eso es diferente de la superinteligencia. Una singularidad es el punto en el que una superinteligencia puede automejorarse de forma recursiva y aumentar infinita y exponencialmente sus capacidades.
Así que creo que queda un largo camino por recorrer, y tal vez estemos en las estribaciones de una ascensión al Monte Everest, y creo que va a tomar mucho más tiempo desde aquí, pero la verdadera pregunta es ¿cómo vamos a gobernarlo? ¿Cómo vamos a controlarlo y cómo vamos a asegurarnos de que sirva a la humanidad y no termine causándonos más daño que bien?
¿Puedes hacerme un solo favor? Creo que lo tengo, pero ¿puedes ofrecerme una definición precisa de lo que crees que es la superinteligencia, lo que crees que es AGI y lo que crees que es la singularidad?
Creo que la inteligencia artificial general es el punto en el que podemos realizar la mayoría de las tareas humanas mediante una IA. Así que será tan bueno como el de la mayoría de la gente en la mayoría de las cosas. Ese es el primer peldaño de la escalera. Una superinteligencia es algo que no sólo está a la par con el desempeño humano en todas las tareas, sino que puede exceder dramáticamente el desempeño humano en muchas de esas tareas y puede descubrir nuevos conocimientos por sí misma.
Entonces, este es el punto en el que es un verdadero científico que nos enseña cosas nuevas que no estaban en los datos de entrenamiento, con suerte inventando nuevas moléculas, nueva ciencia de materiales, etcétera, etcétera. La singularidad es un punto mucho más allá donde una superinteligencia puede realmente automejorarse, y esto es muy ciencia ficción, pero es como acelerar infinitamente hacia este momento singular donde simplemente, no sé, se dispara hacia el infinito o algo así.
No sé. Es un poco extravagante para mi gusto.
Por eso pregunté. Me di cuenta de que había algo más nebuloso allí que era un poco confuso.
Mustafa, obviamente podría hablar contigo sobre estas cosas durante horas y horas más. Tendrás que regresar antes de este último turno. Muchas gracias por estar en Decoder.
Sí, ha sido divertido. Muchas gracias Nilay. Nos vemos pronto.
¿Preguntas o comentarios? Contáctenos a [email protected]. ¡Realmente leemos cada correo electrónico!
← Volver