O chefe de IA da Microsoft diz que a superinteligência está próxima, mas não vai tirar seu trabalho
⚡ Resumo rápido
Hoje estou conversando com Mustafa Suleyman, CEO da Microsoft AI.
Hoje estou conversando com Mustafa Suleyman, CEO da Microsoft AI. E, na verdade, vou ser breve na introdução de hoje - estou trabalhando na fazenda da família da minha esposa esta semana, como você verá no vídeo, mas também este é um episódio realmente intenso.
Cobrimos tudo, desde a abordagem de Mustafa para treinar novos modelos até suas críticas ao Antrópico falando sobre Claude como se fosse consciente. Claro, também falamos sobre o relacionamento da Microsoft com a OpenAI, como Mustafa está pensando sobre todas as pesquisas negativas e resistências políticas em torno da IA no momento, e se algum dos produtos de consumo é bom o suficiente para superá-lo.
Como eu disse, é um queimador.
Ok: Mustafa Suleyman, CEO da Microsoft AI. Aqui vamos nós.
Esta entrevista foi levemente editada para maior extensão e clareza.
Mustafa Suleyman, você é o CEO da Microsoft AI. Bem-vindo de volta ao Decodificador.
É ótimo estar com você novamente.
Estou muito animado para falar com você. Nossa conversa anterior foi uma das minhas favoritas — sobre IA, como ela deveria nos fazer sentir e para que serve — que tive em todas as conversas que tivemos.
Há algumas grandes mudanças na Microsoft, talvez alguma recontextualização muito importante sobre como as pessoas se sentem em relação à IA, sobre a qual gostaria de falar com vocês em particular. E há também o Microsoft Build, a grande conferência de desenvolvedores da Microsoft, que apresentou muitos novos anúncios e muitas grandes ideias sobre para que servem os computadores e talvez onde deveriam estar e onde eu quero entrar.
Vamos começar do início. Este é um assunto profundo do Decoder que é importante entender antes de todo o resto. Desde que ingressou na Microsoft, você reestruturou a forma como a IA funciona lá. Seu papel mudou. A última vez que falei com você, você era responsável por vários produtos de consumo. Desde então, isso foi deixado de lado. Agora você está treinando novos modelos; você está na fronteira.
Explique como a IA da Microsoft está estruturada agora e como está estruturada dentro da Microsoft.
Acho que nos últimos 15 a 18 meses estivemos nesta jornada para restabelecer nosso relacionamento com a OpenAI, e isso levou um minuto. Acho que culminou em um novo contrato que fechamos em outubro do ano passado. E havia muitas e muitas disposições diferentes nisso, incluindo consolidar e alargar a parceria, mas libertando-nos de forma crucial para podermos prosseguir a superinteligência de forma independente, bem como continuar a comprar e licenciar os seus modelos.
Então, desde outubro, estou montando a equipe de Superinteligência, construindo clusters em escala suficiente para treinar modelos de fronteira e contratando uma equipe focada em superinteligência. E isso foi uma grande mudança para nós porque me permitiu focar apenas na missão de superinteligência, e isso culminou em algumas coisas que anunciamos esta semana no Build. Temos sete novos modelos em todas as modalidades e assim por diante. Portanto, foi uma grande mudança, e acho que demorou muito tempo no planejamento, e é um grande alívio para nós estarmos agora no jogo e perseguindo a fronteira absoluta nos próximos anos.
Esse era o plano quando você foi contratado pela Microsoft?
Certamente tem sido o plano dos últimos 18 meses. Quer dizer, acho que o relacionamento com a OpenAI passou por muitos altos e baixos. E, em muitos aspectos, acho que será uma das parcerias de maior sucesso da história. Tem sido ótimo para a OpenAI e para a Microsoft, e todos os bons relacionamentos evoluem, e acho que este é apenas o próximo estágio em nossa evolução.
Deixe-me perguntar especificamente sobre essa evolução. Todos acabamos de ver o julgamento entre Elon Musk e OpenAI e Sam Altman. A Microsoft esteve envolvida nesse julgamento no sentido de que de vez em quando um advogado da Microsoft se levantava e dizia: “E nós não estávamos por perto”. E alguém diria que sim, e pronto. Mas, obviamente, o que ficou claro durante esse teste, o que ficou claro durante todo esse tempo, é que a noção original era que a OpenAI seria um laboratório de pesquisa e forneceria modelos, enquanto a Microsoft construiria os produtos. A Microsoft tinha experiência em entrar no mercado; tinha experiência em negócios e estava tentando recuperar uma posição no mercado de consumo de diversas maneiras. Esta seria uma mudança de plataforma, e o trabalho de pesquisa terminaria na OpenAI, e o trabalho do produto ficaria dentro da Microsoft.
Foi isso que mudou: a OpenAI queria fabricar cada vez mais produtos de consumo. Obviamente, dada a sua nova função e o seu novo foco, a Microsoft quer cada vez mais fazer os seus próprios modelos. Por que a divisão? O que não funcionou nesse relacionamento?
Quer dizer, acho que a OpenAI é liderada por uma equipe fundadora incrivelmente ambiciosa e pelo próprio Sam. E então, naturalmente, à medida que começaram a ganhar mais força e a gerar uma tonelada de receita, eles viram oportunidades de atingir o máximo. Portanto, não foi só porque eles começaram a trabalhar em produtos de consumo. Obviamente, o ChatGPT foi um sucesso incrível. Eles também começaram a trabalhar em seus próprios data centers. Eles começaram a criar seu próprio chip. Existem muitos rumores circulando sobre seus próprios dispositivos de hardware de consumo. Eles começaram a levar modelos diretamente ao mercado por meio do ChatGPT Enterprise. Então, em toda a pilha, eles foram ampliando muito além da pesquisa nos últimos dois, três, quatro anos. E, naturalmente, o mesmo se aplica à Microsoft. Quer dizer, acho que a parceria já tem cinco ou seis anos e ainda tem mais quatro, cinco, seis anos pela frente.
Da mesma forma, somos uma das maiores empresas de tecnologia do mundo. Temos 493 das 500 maiores empresas que armazenam e processam a maior parte dos seus dados nos nossos sistemas, utilizam Azure, utilizam M365 e Teams. Acho que as pessoas muitas vezes subestimam o quão enormes somos e quão grande é a nossa distribuição nas empresas. E assim, a longo prazo, e quero dizer ao longo de cinco, seis, sete, 10 anos, temos de garantir que somos completamente sustentáveis e que não somos apenas destinatários da propriedade intelectual de outra pessoa, que depois modificamos ligeiramente, adaptamos e colocamos em produção para os nossos produtos, mas que podemos realmente manter-nos com os nossos próprios pés e criar modelos de classe mundial.
Quero dizer, a superinteligência está chegando. Acho que está ao virar da esquina. E então acho que será basicamente a tecnologia mais valiosa de todos os tempos. Não há como, a longo prazo, ficarmos estruturalmente dependentes de terceiros para fornecer essa propriedade intelectual por toda a eternidade.
Então essa foi a transição que obviamente foi desencadeada quando o OpenAI e assim por diante tiveram seu problema no conselho. Mas então, quando eu entrei e minha equipe entrou, começamos a construir isso, estávamos nessa transição. E acho que estamos em uma ótima posição porque podemos assumir uma posição ideal bastante estável, cuidadosa e de longo prazo, tanto para o OpenAI, que acho que se saiu incrivelmente bem com isso, quanto para nós.
Quero dedicar algum tempo à superinteligência. Eu só quero colocar um alfinete agora porque só quero entender a transição para mais uma curva aqui.
Há um momento no teste, uma mensagem muito engraçada do CEO da Microsoft, Satya Nadella, ele diz: "Eu não quero ser Intel e ter OpenAI sendo Microsoft", o que é muito engraçado no contexto do próprio CEO da Microsoft dizendo: "Eu não quero ser o provedor, e fazer com que eles sejam a plataforma que fornece todo o valor e coleta todo o valor e talvez seremos trocados. Não quero que o ChatGPT seja executado no Azure, e então o OpenAI obterá todo o valor valor, e então talvez eles possam nos trocar”, assim como aconteceu com o Windows e a Intel ao longo do tempo.
Isso é uma realização? Nadella veio até você? Como foi aquela reunião em que você disse: "Ok, a OpenAI teve seus problemas com o conselho. Precisamos voltar à fronteira e nos manter em pé". Como foi essa conversa e como foi tomada essa decisão?
Quero dizer, obviamente essa é uma decisão de Satya, assim como de Amy, Brad e muitas outras pessoas na empresa. Mas acho que é como qualquer coisa: são mudanças lentas na empresa, à medida que se percebe que a direção que estamos tomando precisa de alguns ajustes e ajustes. E isso estava acontecendo muito antes do incidente do conselho de novembro, e acho que isso aumenta com o tempo, à medida que você olha para o tipo de constelação de diferentes frentes em torno das quais estamos competindo diretamente, cada vez mais, e toda a tensão que advém disso. Mas também saber que parcerias como essa não duram para sempre.
Quero dizer, a OpenAI quer ser uma empresa pública de um trilhão de dólares, tem receitas incríveis e está crescendo loucamente. Eles querem ter a liberdade de operar e poder comprar computação de todos os tipos de lugares, construir sua própria computação e fazer parceria com quem quiserem. Portanto, o contrato foi firmado numa época em que as empresas eram muito diferentes em termos de tamanho, escala e equilíbrio de necessidades e outras coisas. Acho que fazia sentido naquele momento, mas depois ficou bastante claro que isso é algo que devemos ser capazes de possuir e controlar e fazer o que é certo para nossos próprios clientes.
Como eu disse, temos uma distribuição incrível nas empresas, que considero completamente incomparável no mundo. E, portanto, temos que ter certeza de que estamos construindo o que há de melhor para nossos clientes. Isso parece um pouco diferente para uma empresa que tem otimizado em conjunto tanto para o consumidor, com o ChatGPT, quanto para a empresa, e também para a missão científica fundamental da superinteligência, que inclui um monte de direções diferentes que se sobrepõem, mas que poderiam ser consideradas ortogonais também às direções do consumidor e da empresa. Naturalmente, penso que é assim que as parcerias evoluem e são reiniciadas periodicamente.
Sim, mas construir um modelo de fronteira é muito caro, segundo me disseram. Dizendo com segurança, este é um projeto muito caro. Em algum momento, Amy Hood, CFO da Microsoft, terá que dizer: “Sim, você tem o orçamento”. Quando isso aconteceu? Isso foi apenas uma mensagem de texto? Houve uma reunião? Conte-me sobre os detalhes lá.
Acho que tomamos a decisão no início do ano passado, o que obviamente informou todas as negociações do contrato, que foram todas resolvidas e assinadas em outubro. E é um investimento significativo, mas temos muito tempo para fazê-lo. Quero dizer, já fizemos investimentos significativos na nossa própria missão de autossuficiência.
Nosso chip Maia 200 é realmente um chip excelente, por exemplo, certo? Agora somos capazes de fabricar e enviar um chip 30% mais barato que um GB200 dentro de nossos próprios clusters. E agora que podemos co-projetar nossos próprios modelos com ele, o modelo MAI-Thinking-1 que acabamos de lançar oferece, na verdade, uma melhoria de desempenho de 1,4x por watt, além da melhoria de 30 por cento que você obtém ao executar um Maia 200, uma vez que co-otimizamos os modelos para nossas tarefas.
Portanto, o valor de garantir que você possui e controla sua própria pilha e direciona todo o esforço de co-design de ponta a ponta para os casos de uso que são mais importantes para nós - que é obviamente a codificação de agentes, nossos desenvolvedores, nossas empresas - que claramente paga os dividendos que justificam o investimento que teremos que fazer nos próximos anos.
Você disse missão de autossuficiência, que é uma maneira muito educada de dizer que deseja se manter sozinho; você quer fazer suas próprias coisas. Disseram-me que há alguma controvérsia dentro da Microsoft sobre uma frase que meu colega Hayden Field escreveu em um artigo descrevendo o Build. Eu só vou ler isso. Isto é de Hayden. É uma ótima frase. Ela disse: “O Microsoft Build deste ano teve a vibração de uma divorciada recém-solteira postando uma armadilha para a sede no Instagram”.
A separação está concluída e é hora de flexibilizar. Aqui está nosso novo modelo. Vamos ficar de pé. Você está por aí dizendo que vai construir modelos na fronteira e competir com os principais laboratórios. É esse o sentimento dentro da Microsoft de que você é livre para ficar sozinho?
Definitivamente não. Não, de jeito nenhum. Olha, quero dizer, obviamente é um título legal e uma frase divertida. Mas a realidade é que mantemos parceria com a OpenAI por muitos e muitos anos. Quero dizer, estamos caminhando para o norte de 2030. Eles ainda produzem os melhores modelos do mundo. GPT-5.5 é um modelo excelente. O Codex, os modelos de segurança cibernética que estão surgindo, são incríveis e estão impulsionando a maior parte do que fazemos.
Então, naturalmente, isso vai continuar. E então acho que esse é apenas um curso natural desse tipo de parceria. Não acho que seja nada desagradável ou surpreendente. Acho que a OpenAI é muito compreensiva e apoia isso. Quero dizer, eles obviamente têm sido uma empresa de crescimento incrivelmente rápido e entendem que também temos que seguir nossa própria agenda. Então é muito normal.
Deixe-me fazer a outra pergunta sobre o Decoder e depois quero entrar nos anúncios do Build e, certamente, na superinteligência.
Na última vez que conversamos, você disse que sua estrutura para a tomada de decisões funcionava em um ciclo de seis semanas, dada a rapidez com que a IA estava se movendo. Isso fazia sentido então. As coisas se resolveram, talvez. Talvez algumas coisas estejam mais em foco. Qual é a sua estrutura de tomada de decisão agora?
Ainda operamos no mesmo ritmo de ciclo. Ao final de cada ciclo, temos um encontro presencial de uma semana. Acredito muito nisso, embora ainda tenhamos uma cultura de escritório, quatro dias por semana. Na verdade, na semana seguinte, toda a minha equipe de Superinteligência se reunirá pessoalmente em Boston durante quatro dias. Isso serve para todas as nossas retrospectivas sobre como foi o Build, o que aprendemos, o que não acertamos, o que precisamos melhorar, nosso planejamento para o próximo ciclo, que vai durar oito semanas desta vez com um encontro de uma semana depois, e está tudo planejado para o ano inteiro. Portanto, toda a organização sabe que esse é o ritmo pelo qual operamos.
E acho que é realmente muito importante enfatizar esse prazo, porque o planejamento trimestral fica um pouco confuso e abstrato. Acho que seis a oito semanas, dependendo de onde estiver no calendário, é na verdade o momento ideal para definir missões muito claras e fortificáveis.
Então nós também, além do ritmo desses ciclos de seis a oito semanas, atuamos por squads. Os times são subgrupos interdisciplinares mistos que se concentram em uma missão específica e não necessariamente ascendem ao cargo de gestor. Na verdade, eles são administrados por um DRI, e o DRI geralmente é um IC, e seu trabalho é–
Isso é “indivíduo diretamente responsável” e “colaborador individual”.
Sim, exatamente. Obrigado. E acho que adotamos a abordagem de separar o papel do gestor do papel do DRI que executa uma missão específica. Acho que é porque ser um ótimo DRI é exaustivo. Você está literalmente all-in 24 horas por dia e está se esforçando o máximo que pode. Ser gestor muitas vezes é ser coach, oferecer apoio, dar orientação, feedback, desbloquear todo tipo de coisa, ajudar no crescimento da carreira das pessoas. E então acho que mantê-los separados nos permite girar os DRIs a cada dois ou três ciclos para que algumas pessoas possam tentar posições diferentes e ter rotação. É uma estrutura excelente e muito flexível que nos permite ser bastante ágeis, eu acho.
Vamos falar sobre Construir. Eu queria começar com superinteligência. Você já mencionou isso várias vezes. Eu estava no Google IO. Demis Hassabis, que foi seu colega quando você estava no Google, encerrou a palestra dizendo que estávamos “no sopé da singularidade e que a AGI estava chegando com todo o poder do Google”.
Você está dizendo que a superinteligência está aqui. São todas a mesma coisa? Estamos usando uma linguagem diferente para descrever AGI? Existem diferenças? Como você definiria a superinteligência no seu contexto versus a singularidade no contexto de Demis?
Quer dizer, obviamente eu não disse que estava aqui. Eu disse que está chegando. E acho que há muita fluidez em torno dessas frases. Mas acho que podemos ver claramente que o que está acontecendo agora é que há subidas log-lineares em todas as modalidades, e isso significa que há uma relação muito direta entre cada ordem de grandeza de computação que aplicamos, cada aumento incremental nos dados e subida em benchmarks, sejam eles benchmarks públicos, benchmarks internos, são metas nas quais nos concentramos com ambientes de aprendizagem por reforço. E essa é uma observação muito importante.
Essas previsões que acho que todos nós estamos fazendo - entendo por que algumas pessoas são meio céticas em relação a elas ou levantam questões, mas elas são muito fundamentadas no tipo de observações empíricas de mais de uma década de aumento no desempenho desses modelos. Quero dizer, essencialmente a mesma arquitetura de uso geral viu 12 ordens de magnitude a mais de computação aplicada, um aumento de um trilhão de vezes em FLOPS ao longo de 15 anos, e basicamente funcionou em áudio, em imagem, em texto, em código e em muitas outras tarefas de previsão de séries temporais. E então estamos basicamente extrapolando que mais ordens de magnitude de computação nos permitirão continuar a escalar dessa forma log-linear dentro de outros ambientes.
E então levanta a questão: seremos capazes de treinar modelos que possam inventar novos conhecimentos, não apenas extrapolar a partir dos dados existentes que temos, mas realmente nos ensinar coisas que não sabemos e fazer novas descobertas? Então a segunda coisa é: eles têm a capacidade de se auto-aperfeiçoar e acelerar o processo de decisão de quais hipóteses devem ser definidas, quais devem ser perseguidas, como gerar dados de treinamento para cada uma delas, como fatorá-las em novas execuções, ou até mesmo inovar na própria arquitetura em si?
Então, acho que ambas as coisas precisam ser verdadeiras para podermos ver esse progresso composto, mas acho que continuaremos a obter ganhos enormes apenas com a aplicação das próximas ordens de magnitude de computação. Isso provavelmente alcança a paridade com o desempenho humano em muitas, muitas outras tarefas, assim como vimos isso acontecer nos últimos seis meses na codificação.
Codificar é muito interessante porque é facilmente validado, certo? Você escreve o código, pede ao computador para executá-lo, ele funciona ou falha. Vimos algumas desvantagens, certamente em relação à segurança, certo? As desvantagens são óbvias e estamos vendo que esse tipo de abordagem regulatória para a segurança da codificação funciona de várias maneiras. Provavelmente já codifiquei alguns desastres de segurança em meu próprio telefone e computador, e talvez esse seja um risco que estou disposto a correr.
Todas as outras funções não parecem tão fáceis. Eu sempre escolho a lei, porque essa é a minha formação. Mas um juiz não valida a redação jurídica da mesma forma que um computador valida o código. Se você errar, o juiz pode mandar você para a cadeia, certo? Esse é talvez o pior erro de validação de saída que você provavelmente pode encontrar.
Como você mede a eficácia em todos os domínios com a mesma facilidade com que mede a eficácia na codificação? Porque me parece que aqui a metáfora ou a analogia da codificação com outros domínios se desfaz muito rapidamente.
Não tenho tanta certeza. Codificação, obviamente, você pode verificar a execução correta do código. Ele é executado ou trava. Mas há muitas nuances nisso. A qualidade do código escrito é realmente importante: sua extensibilidade, quão reconfigurável ele é, quão útil é na prática. Não se trata apenas de um trecho de código ser executado, mas também de como um modelo realmente o usa como DevOps ou SRE em produção para retornar ao trecho de código que foi escrito e, em seguida, usá-lo de maneira prática e útil.
E então, é claro, você tem que avaliar a qualidade do resultado produzido. Pode ser um código funcional e de alta qualidade, mas é realmente o aplicativo ou o site que você queria? E há julgamentos estéticos nisso; há julgamentos comerciais nisso. O desafio de internalizar recompensas não verificáveis está presente no código, embora o código ainda seja principalmente um sinal de recompensa verificável. Acho que outra coisa a observar é que, assim como o bate-papo também é um espaço não verificável, e ainda assim, conseguimos escalar isso para um desempenho basicamente de nível humano por meio da interação com o uso no mundo real que fornece uma experiência muito forte.
Espere. Estou muito curioso. Como você mede o desempenho do chat no nível humano?
Bem, acho que muitas pessoas estão tendo conversas longas e significativas com IAs em nível de desempenho humano. A qualidade é excepcionalmente boa. Tem uma inteligência emocional muito boa. Em geral, é muito preciso. Minimizamos as alucinações. Não falamos mais tanto sobre preconceito. É baseado em observações do mundo real. Acho que, pela avaliação da maioria das pessoas, atingimos um desempenho de nível humano na conversação para uma ampla gama de tarefas.
Quais são as suas medidas e, na verdade, claro, as medidas da maioria das pessoas? Eu discordaria de quase tudo isso, mas essas são as minhas medidas. Quais são suas medidas?
Minha medida é como quando eu recorro ao meu assistente e peço que ele me forneça um briefing diário resumindo todas as conversas que aconteceram no Teams e no email, as atualizações que aconteceram nos documentos, e recebo basicamente um resumo sintetizado com um conjunto de ações que devo realizar a seguir. Isso é basicamente melhor do que o que meu chefe de gabinete pode produzir. Eu diria que é um desempenho de nível humano em síntese, análise, ações propostas e bate-papo.
Há muitos, muitos milhões de pessoas todos os dias que o utilizam para apoio emocional, para aconselhamento, para terapia, para coaching, para aconselhamento. Acho que é um dos casos de uso mais populares dentro de todos os chatbots. Essa é uma medida bastante robusta, eu diria, para fazer a afirmação.
Eu sei que você passou muito tempo pensando sobre isso, principalmente na conexão emocional com alguns desses chatbots. Esses são produtos que você construiu e implantou. Eu faria uma grande distinção entre essa coisa que é muito, muito boa em resumir meu e-mail, lista de tarefas e me fornecer um resumo sobre o que priorizar, e essa coisa é um treinador emocional para alguém que está passando por algum tipo de crise.
Essas não são tarefas semelhantes. Esses não são necessariamente tipos semelhantes de inteligência, mesmo nas pessoas. Conheço algumas pessoas que são muito boas em fazer listas e muito ruins em apoio emocional. Como você junta tudo isso em seu cérebro e diz: “Ok, este é um desempenho de nível humano no chat?”
Acho que se você definir o chat como uma troca interativa entre duas partes, uma das quais neste caso é uma IA, que satisfaz amplamente algum objetivo, você está procurando saber o placar esportivo, para obter conselhos sobre qual restaurante ir, para treinamento e feedback sobre um ensaio que você escreveu, para sugestões sobre qual trabalho seguir ou alguma conversa difícil que você está prestes a ter com seu gerente. Você recebe uma resposta, vai e volta, tem cinco ou seis trocas e descobre que é um resultado útil, que de outra forma teria que contar com um especialista, amigo ou até mesmo pagar um treinador.
Existem, objetivamente e empiricamente falando, centenas de milhões de pessoas que obtêm essa experiência todos os dias com esses chatbots. Talvez pudéssemos questionar se isso representa tecnicamente o desempenho de nível humano. Acho que é algo bastante razoável de se afirmar.
Não há razão para que isso não continue subindo, certo? A taxa de subida nos últimos três anos é o que considero mais surpreendente. E então, o que estamos tentando fazer a partir deste ponto é extrapolar: ok, quais são os impulsionadores fundamentais dessa escalada – computação, dados, interação de usuários do mundo real – e essas coisas parecem destinadas a continuar. Acho que eles se aplicam a muitos outros domínios também, não apenas bate-papo, suporte emocional e produtividade e esse tipo de coisa, mas também muitos outros domínios além disso/saúde, implantações de produção ao vivo dentro da educação, assistentes que gerenciam cada vez mais sua casa, olhando para tudo o que está em sua vida cotidiana, basicamente para torná-lo mais produtivo. Essa é, penso eu, uma trajetória que provavelmente continuará.
Você mencionou agora que ainda é a mesma arquitetura fundamental, transformadores e atenção. Temos aplicado computação nisso há 15 anos e estamos obtendo grandes aumentos. Você está em uma situação bastante única.
Na Build, você anunciou seu primeiro modelo de raciocínio carro-chefe, MAI-Thinking-1. Você tem que começar do zero. Há algo que você fez de diferente agora, após 15 anos arquitetando e treinando esse modelo, ou é apenas, sim, vamos coletar todos os dados e executar o treinamento exatamente como fizemos, e temos mais computação agora, então vai ser melhor?
Não, na verdade, acho que há muitas diferenças. A primeira coisa a dizer é que a forma como você seleciona os dados… Começamos desde o topo da pilha; basicamente pagamos e adquirimos um conjunto de dados de altíssima qualidade e muito conservador, e extraímos muitos dos problemas barulhentos, perturbadores, de baixa qualidade e potencialmente de risco à segurança relacionados a esses dados. E os métodos que você usa para isso, eu acho, são bastante proprietários. Acabamos de compartilhar um relatório técnico muito detalhado de 109 páginas, que foi muito bem recebido no Twitter e compartilha muitos detalhes sobre como fazemos isso. Acho que a segunda coisa é que, embora eu ache importante ser bastante cauteloso com as escolhas arquitetônicas, e temos sido, também há uma série de mudanças bastante significativas que acho que fizemos na forma como montamos nossas corridas de treinamento.
Nossos treinos têm sido incrivelmente estáveis, com pouquíssimas quedas e pouquíssimas reinicializações. Compartilhamos muitos desses gráficos para mostrar a estabilidade da infraestrutura e também a eficiência do MFU, portanto modelamos a utilização de FLOPS, o que basicamente mostra que podemos colocar um número de FLOPS de última geração em cada chip para cada etapa de nosso treinamento. Acho que é extremamente fácil errar e todos nós ouvimos muitas histórias de diferentes laboratórios sobre como as coisas dão errado.
Na verdade, é muito difícil fazer escolhas muito cuidadosas e deliberadas para acertar as coisas e adotar a abordagem correta para garantir a produção de modelos de alta qualidade, porque o nosso trabalho e a nossa ambição é tentar construir esta máquina de subir colinas. Isso significa a integração do silício com os modelos, com os dados de altíssima qualidade, com uma pilha de RLEs, ambientes de aprendizagem por reforço, que nos permitem basicamente e sistematicamente subir colinas contra qualquer objetivo que escolhermos.
E é isso que é o MAI-Thinking-1. É um modelo de pensamento de uso geral, bastante neutro, que é muito bom em codificação. Agora está quase no mesmo nível do Opus 4.6, pelo menos nos benchmarks. Ainda não o implantamos em escala na produção, então ainda há muito trabalho a ser feito. Mas é um raciocinador extremamente forte e obteve 97% no AIME, que é a principal medida do seu desempenho de raciocínio, pelo menos nos benchmarks.
É muito bom seguir instruções e o objetivo é basicamente disponibilizá-las para muitos, muitos desenvolvedores e empresas e permitir que eles as utilizem em seus casos de uso. Todo mundo tem um objetivo ligeiramente diferente em sua empresa de tentar construir agentes e assim por diante que apoiem seu caso de uso.
Uma das coisas que você notou ao falar sobre o MAI-Thinking-1 é que você não destilou nenhum modelo existente, o que realmente me pareceu surpreendente, certo? Isso é algo que você poderia fazer. Você tem acesso ao IP da OpenAI. Todo mundo está destilando tudo. Acabamos de descobrir neste teste que Grok foi destilado de vários modelos. Por que não fazer destilação aqui? Por que não avançar?
Definitivamente, existem muitos atalhos para a fronteira, e se você pegar um modelo de altíssima qualidade e aprimorar seu modelo básico com instruções, respostas ou resultados de alta qualidade de um modelo superior, então é verdade que o modelo pode se ajustar rapidamente a essa distribuição. Mas não está claro se eles seriam capazes de superar esse professor.
Portanto, fomos muito deliberados por dois motivos. A primeira é que queremos ter certeza de que podemos superar o professor para estabelecermos nós mesmos a fronteira nos próximos anos. E a segunda é que realmente queremos construir um dos grandes laboratórios, e isso levará muitos anos, provavelmente nos próximos dois ou três anos.
Mas, para fazer isso, temos que ser capazes de mostrar que podemos realmente construir nós mesmos todos os componentes. Podemos contratar os melhores talentos do mundo. Podemos ampliar a fronteira com pesquisas reais, em vez de apenas reimplementar, copiar ou destilar de terceiros.
Estamos em uma ótima posição onde podemos perseguir esse objetivo com muito cuidado e meticulosidade, sabendo que temos recursos para comprar modelos Antrópicos onde eles ultrapassam a fronteira. Temos recursos para colocar 11.000 modelos diferentes dentro do Foundry, para que cada um de nossos desenvolvedores tenha pura opcionalidade. E, claro, temos os recursos para continuar a implementar modelos OpenAI, que são obviamente excelentes e estão hoje na fronteira.
Essa é apenas uma parte natural da missão de autossuficiência, e levará algum tempo para que realmente cheguemos à fronteira absoluta nesse sentido. Mas acho que estamos em uma ótima situação. Fizemos muito progresso. Este é um modelo muito, muito forte, e não foi apenas esse modelo que lançamos. Lançamos sete novos modelos simultaneamente.
Nosso modelo transcrito, por exemplo, MAI-Transscribe-1.5 é literalmente o número um do mundo. É o mais econômico de qualquer um dos hiperescaladores. É o mais alto em precisão. Nosso modelo de imagem agora é o número dois. Nosso modelo de edição de imagens está em terceiro lugar, logo atrás do Google e do OpenAI. Acho que estamos bem com nossa imagem e áudio. Nosso modelo de código, CodeFlash, é incrivelmente forte, otimizado para VS Code. e é realmente um ótimo modelo que está no mesmo nível do Sonnet 4.6. Então está realmente em uma ótima posição neste minuto.
Houve alguma preocupação legal ou de propriedade intelectual com a destilação? Eu sei que esta é uma questão viva no mundo: a Anthropic reclama de outras pessoas destilando seus modelos. Existem preocupações sobre as empresas chinesas que destilam modelos e se os nossos acordos de PI existentes podem cobrir isso. Você teve alguma dessas preocupações para mantê-lo longe disso?
Ah, não fizemos isso, mas acho que entendo por que muitas pessoas ficam frustradas. A Anthropic ficou muito frustrada, e alguns dos rumores em torno de xAI e Meta e, obviamente, dos modelos de código aberto e assim por diante, porque, essencialmente, isso é basicamente pegar o IP e o conhecimento que outra equipe reuniu e, em seguida, literalmente alimentá-lo à força em seu próprio modelo. Acho que é uma vitória de curto prazo e, como eu disse, realmente, queremos criar uma cultura no laboratório onde possamos apresentar o próximo grande avanço no pensamento, ou o próximo grande avanço na codificação, ou o próximo grande impulso arquitetônico.
No momento, estamos experimentando o transformador em loop, que é uma variante ligeiramente diferente do transformador de corrente. Muitas pessoas da área também estão olhando para isso. Ninguém parece ter entrado em produção ainda. Mas, para criar uma cultura e uma equipe que possam realmente ultrapassar os limites, eles precisam entender, possuir e criar a pilha completa como e quando necessário, e também usar coisas de terceiros sempre que necessário. E tal como o nosso artigo, por exemplo, tem centenas de citações baseadas no resto da literatura, por isso é uma contribuição para o campo em troca de tudo o que aprendemos ao longo dos anos com todas as grandes publicações que surgiram por aí.
Posso perguntar: se você entende a frustração da Anthropic e de seus colegas da IA em relação à destilação, você também entende a frustração dos criativos, editores e YouTubers sobre todas as empresas de IA que estão destruindo seu trabalho como um coletivo para criar esses modelos? Porque essa frustração está cada vez mais alta.
Sim. Não, eu entendo a frustração. Já falamos sobre o desafio da web aberta, e eu entendo, e vejo que as pessoas estão frustradas e, obviamente, isso está aparecendo nas conversas nos tribunais. E vejo que as pessoas colocam coisas online e tinham expectativas diferentes sobre qual era o contrato que estava sendo colocado online, e é complicado.
Você mencionou que todos os seus dados foram cuidadosamente selecionados. Você pagou por todos os dados que está usando para treinar os novos modelos?
Obviamente, extraímos muitos dos nossos dados da web aberta da maneira normal. Uma curadoria cuidadosa significa que ele é filtrado com extremo cuidado quanto à segurança, à qualidade, às dependências de terceiros de alguns dos conjuntos de dados de código aberto e mantendo-o longe de muitas linhagens chinesas, que considero muito diferentes. Nossas empresas querem ter certeza de que, quando colocarem algo em produção, possam confiar em nós que realmente o construímos tendo em mente as suas necessidades. E acho que esse é um dos benefícios de ser muito, muito deliberado, paciente e estar atento a todos os detalhes.
Você mencionou empresa. Eu acho que isso é muito interessante. A Microsoft aposta totalmente na IA corporativa, em grande escala, na verdade. Eu até traçaria um limite direto para Asha Sharma, o novo chefe do Xbox, que está se livrando da IA em vários lugares, e os jogadores estão felizes, certo? Há uma reação à IA no espaço do consumidor, mas há outra nas empresas. Acho que a IA está o mais próximo possível do ajuste do produto ao mercado empresarial, com algo mudando tão rápido quanto a IA. Existem vários bancos de dados que as empresas controlam, e você pode simplesmente acessá-los, porque elas os controlam. Esses são os dados deles.
Há vários processos e tarefas repetíveis e sistemas antigos que talvez os modelos possam executar com mais eficiência. Há algo muito importante acontecendo com as empresas. Ao mesmo tempo, a antipatia do consumidor em relação à IA está apenas a aumentar. E meu argumento é que não construímos grandes produtos de IA para o consumidor. Esta indústria não os produziu. Isso não os mudou. Não tornou óbvio que tudo isto vale a pena, que usar todos os dados da web aberta e mudar o contrato de publicação para um público de massa de pessoas, por isso agora está a ser usado para modelos de formação que irão entregar biliões de dólares de valor às empresas. Não existe um produto que diga que vale a pena.
Mais uma vez, Satya Nadella deu recentemente uma entrevista à Axios e disse: "Precisamos de permissão social para isto. E até a termos, até entregarmos esse valor, as pessoas vão sentir-se assim". Vimos oradores universitários serem vaiados. Vimos data centers serem banidos. Você acha que existe um produto de consumo que vale a pena, que vale a pena a angústia em relação ao treinamento, que vale a pena a angústia em relação aos data centers?
Esse foi o seu foco; agora seu foco é a empresa. Eu diria que, aparentemente, não parece mais que a Microsoft tenha interesse no produto de consumo. Mas você vê algum que valha a pena ou que possa ser construído?
Não tenho certeza se concordo com você que não houve nenhum valor para o consumidor com isso. Em todos os chatbots, há bilhões de pessoas por mês que obtêm um valor imenso com isso. Agora, só por um momento, tenha um pouco de empatia com o proprietário de uma pequena empresa, ou com o tipo de mãe que está ajudando seu filho com a lição de casa, e agora pode simplesmente recorrer a uma IA de conversação e obter feedback, obter instruções, definir questões dissertativas. Apenas poder fazer perguntas como como faço para gerar receita? Como faço para montar uma previsão de fluxo de caixa? Em qual faculdade devo me inscrever?
Quero dizer, essas são tarefas cotidianas que vêm acompanhadas de conselhos e informações factuais de alta qualidade. Então, eu realmente não acredito que as pessoas não estejam se beneficiando dessas coisas. Eu acho que eles são.
Acho que posso argumentar muito claramente que eles não estão obtendo benefícios suficientes, certo?
OK.
São eles que dizem que não deveríamos ter mais data centers. São eles que vaiam a IA nos discursos de formatura. As sondagens são claras, especialmente entre os jovens: quanto mais utilizam a IA, mais antipatia têm por ela. Isso fica claro em todas as pesquisas. Esse é o argumento que estou apresentando – não que não haja valor, mas a troca de valor não é suficientemente clara.
Sim. Justo.
Estou vendo a Microsoft, em particular, se voltar para as empresas, longe do grande produto de busca, a reinvenção do Bing que faria o Google dançar. Acabou e estamos todos focados na empresa, onde está o valor. Só estou me perguntando se há valor suficiente para o consumidor fazer tudo isso valer a pena.
Acho que há compreensivelmente muita ansiedade. Há uma enorme especulação sobre o que acontecerá nos próximos cinco a 10 anos. Quer seja enquadrado como a singularidade ou como o apocalipse do trabalho, esses enquadramentos não são úteis. Acho que as pessoas estão assustadas porque está mal definido e muitas vezes é enquadrado como uma nuvem cinzenta inevitável e ameaçadora sobre as cabeças das pessoas.
Acho que o que importa é o que fazemos com a tecnologia. Acho que já defendo há muito tempo que temos de colocar o ser humano em primeiro lugar. Algumas pessoas na área colocaram a descoberta científica em primeiro lugar ou colocaram inteligências aceleradas que podem explorar as galáxias e assim por diante, e disseram que é inevitável que tenhamos essas IAs que serão mais poderosas do que todos nós juntos. Quero dizer, isso é naturalmente assustador para as pessoas.
E penso que temos basicamente de inverter a situação e dizer que o objectivo da ciência e da tecnologia é tornar-nos todos mais saudáveis, mais inteligentes e mais felizes. Essa tem sido a busca que temos feito como espécie durante milhares de anos de invenção, e é o teste ao qual deveríamos submeter a superinteligência novamente. E se não passar nesse teste, então penso que as pessoas irão rejeitá-lo e terão razão em rejeitá-lo.
Acho que o foco de todos agora se voltará, nos próximos cinco anos, para: como isso está me tornando mais saudável e feliz, mais inteligente, mais capaz, mais produtivo? E se não estiver fazendo isso, então naturalmente as pessoas ficarão com raiva, resistirão e reagirão. Não acho que haja algo inesperado ou errado nisso – acho que é inevitável.
É por isso que uma das coisas pelas quais sou apaixonado há muitos e muitos anos é a saúde. E há apenas alguns dias anunciamos uma nova parceria com a Mayo Clinic. Este é o hospital número um do mundo, segundo relatos consistentes. Eles têm o conjunto de dados longitudinais de registros de pacientes da mais alta qualidade em todas as modalidades. Eles têm a melhor prática clínica.
Eles também são uma organização sem fins lucrativos, o que acho que muitas pessoas não percebem, com 65% de sua população de pacientes no Medicaid. As pessoas muitas vezes os associam às super elites internacionais que voam para obter os melhores cuidados do mundo, mas na verdade eles têm a maioria no Medicaid. Eles são uma instituição incrível com a missão incrível de oferecer os melhores cuidados de saúde em todos os lugares. E agora temos uma parceria de longo prazo para co-treinar a partir do zero com os seus dados, com os nossos modelos, um novo modelo de base para a saúde, implementá-lo nos seus hospitais e, esperançosamente, levá-lo a todo o mundo para fornecer os melhores cuidados clínicos e cuidados de saúde que pudermos ao maior número de pessoas possível.
É por isso que entrei em campo. Foi por isso que fui originalmente motivado e é por isso que sou apaixonado. E só posso focar nas coisas que acho que vão fazer a diferença e que vão ajudar as pessoas e deixar um bom legado para todos, e é isso que estamos tentando fazer.
Eu aprecio isso. Eu aprecio o enquadramento da saúde e entendo por que isso é uma preferência de todos, certo? Os cuidados de saúde na América, em particular, se conseguirem torná-los ainda 10% melhores, terão afectado a vida de muitas pessoas de uma forma particularmente profunda.
A questão é que conheço um cara muito inteligente que tem uma abordagem muito diferente e muito mais agressiva do que você em relação a tudo isso. Essa pessoa é você, há quatro meses. Isto é o que Mustafa Suleyman disse ao Financial Times há quatro meses: “Trabalho de colarinho branco quando você está sentado em frente a um computador, seja um advogado, um contador, um gerente de projeto ou um profissional de marketing, a maioria dessas tarefas será totalmente automatizada por uma IA nos próximos 12 a 18 meses”.
Isso foi há quatro meses. Isto implica que daqui a um ano, advogados, contabilistas, gestores de projetos e profissionais de marketing não terão emprego. Seus trabalhos serão automatizados. Essa ainda é sua linha do tempo?
Não, não, não. Espere um segundo. Então eu disse “tarefas” na citação que você acabou de dizer. Eu disse tarefas. Então isso não significa empregos. É uma distinção muito importante. Na economia do trabalho, existe toda uma taxonomia de subcomponentes de um papel ou função numa organização. Enviar um e-mail, conversar com um colega, montar um PowerPoint – as subtarefas se tornarão cada vez mais digitalizadas, automatizadas e basicamente poderemos gerar cada vez mais delas.
Isso não significa necessariamente que o papel desapareça. Significa apenas que o trabalho pode ser feito de forma mais rápida e eficiente, o que hoje em dia é muitas vezes um trabalho bastante mecânico, bastante manual, bastante trabalhoso e demorado. E assim a progressão natural da tecnologia é tornar a sua vida mais fácil, mais rápida, com menos atrito e mais fluidez. Como todo mundo costuma reclamar, isso deixou você, eu e todos os outros muito mais ocupados.
Na verdade, isso nos tornou mais disponíveis, mais estressados e nos deu mais informações. Portanto, há sempre esses efeitos de vingança da eficiência, que acho que as pessoas esquecem. É muito provável que nos tornemos muito, muito mais produtivos porque gastamos menos tempo realizando tarefas administrativas mesquinhas, e teremos que gastar mais tempo fazendo coisas criativas e focadas no julgamento, o que, em última análise, cria muito mais valor.
Também podemos experimentar muito mais rapidamente. Assim, podemos testar muitas coisas em paralelo porque o custo de execução vai diminuir. Na minha opinião, isso provavelmente aumentará a qualidade geral das coisas, porque vamos testar mais hipóteses, seja no jornalismo, nos negócios ou em qualquer coisa que façamos.
Acho que isso está um pouco fora de contexto por causa de um mal-entendido natural entre empregos e tarefas, mas, mesmo assim, você poderia me responder e dizer: “Ok, bem, então como será a paisagem daqui a cinco, 10 ou 15 anos?” E é aí que acho que temos que voltar–
Na verdade, não vou reagir dessa maneira. Vou recuar de uma maneira muito específica. E eu percebo que esta é a sua citação e você está dizendo que foi mal interpretada. Estou apenas olhando para esta frase literal e não há distinção entre tarefas e subtarefas. É “trabalho de colarinho branco. ”
Os exemplos são advogado, contador, gerente de projeto, profissional de marketing, e então você disse: “A maioria dessas tarefas será totalmente automatizada por uma IA nos próximos 12 a 18 meses”. Não há distinção de subtarefas aí. Você está dizendo que a maioria dos advogados terá seus trabalhos totalmente automatizados e a prática da advocacia parecerá totalmente diferente dentro de um ano, mesmo pelas palavras dessa citação.
E só estou dizendo, você ainda está nessa linha do tempo, que ser advogado será totalmente diferente porque os agentes estarão correndo por aí fazendo tudo o que fazíamos antes?
Bem, a maioria das tarefas significa trabalho que você realiza para realizar seu trabalho geral, e isso eu acho que vai libertá-lo para fazer as partes mais humanas e de julgamento do seu trabalho. Há uma distinção muito importante em… Cargos e funções são a categoria mais ampla, e as tarefas são os componentes dela. E é uma definição estabelecida na literatura, na economia do mercado de trabalho, há muitas e muitas décadas.
Talvez fosse demasiado matizado mesmo para o Financial Times, mas mesmo assim, essa era a intenção. Agora penso que há uma questão importante: onde é que isso nos deixa a longo prazo? E vai ser um desafio, como cada vez mais essas coisas... Podemos questionar os prazos se são alguns anos ou se são uma década, ou se são 20 anos, mas a realidade é que automatizaremos cada vez mais esse trabalho, tarefas, empregos, funções, atividades e tudo o que fazemos.
E então o que vai importar mais é a governança que colocamos em torno dessas tecnologias. A quem eles são responsáveis? Quem os possui? Quais são os ciclos de feedback que regulam e introduzem atritos para garantir que eles realmente sirvam as pessoas? Quero dizer, escrevi um ensaio sobre a superinteligência humanista descrevendo de forma bastante direta, há quatro ou cinco meses, o que considero basicamente uma estrela do norte, talvez não exatamente uma estrutura, mas um conjunto de princípios que basicamente diz que a tecnologia está aqui para nos servir. Esse é o teste que devemos submeter. É o teste que as pessoas submeteram. É o teste que nos preocupa na Microsoft.
Penso que cada vez mais todos terão de se concentrar realmente nessa questão, porque ela irá proporcionar uma quantidade enorme de benefícios, e queremos que continue a fazer isso, mas queremos que o faça de uma forma que não cause uma quantidade ridícula de instabilidade durante o período de transição.
Eu acredito em você. Eu sei que você está pensando sobre essas coisas há muito tempo, mas vou responder da maneira que sei que meu público quer que eu responda, porque ouço isso deles o tempo todo. E o que parece é que toda esta indústria – você, todos incluídos – apostou tudo em “vamos substituir todos os empregos” e realmente acelerou a construção de centros de dados com capacidade massiva e pediu muitos recursos contra grandes promessas.
Houve resistência política e agora todas as posições suavizaram. E você dizer que nem todos os empregos estão desaparecendo, temos que repensar os empregos, está de acordo com todos os outros CEOs deste setor dizendo coisas semelhantes e falando sobre saúde, que surge todas as vezes agora. Estou me perguntando se essa resistência política realmente mudou a forma como você fala sobre isso.
Muitos dos seus colegas pensam que a IA simplesmente tem um problema de marketing, que não foi comunicada de forma suficientemente eficaz e que deveriam gastar centenas de milhões de dólares em podcasts para comunicar os benefícios da IA de forma mais eficaz. Isso é algo real que está acontecendo neste setor. Você acha que a IA simplesmente tem um problema de marketing e que a resistência política abriu seus olhos para esse problema de marketing, ou você acha que há algo mais acontecendo?
Há uma série de perguntas aí. A primeira é: o que eu realmente penso e acredito, e isso mudou nos últimos seis meses? A resposta é não. Escrevi um livro muito detalhado sobre isto há três anos, muito antes do tempo, alertando sobre muitas das coisas que estão actualmente a acontecer, e fazendo-o explicitamente para colocar sobre a mesa riscos tremendos para a vigilância, para a concentração de poder, para a concentração de riqueza, para a desintermediação do Estado, para ameaças à democracia. E também às ameaças à natureza do ser humano e ao que significa ser uma pessoa no contexto da chegada destas novas formas de silício, em certo sentido. Tenho trabalhado nisso... E a ideia de que meu interesse na área da saúde é apenas um flash na panela, que é uma função das reações aos data centers e assim por diante, quero dizer, tenho trabalhado na área da saúde há mais de uma década. Eu insisti muitas e muitas vezes em alguns dos avanços de ponta, contribuições para o campo da radiologia, mamografia e patologia, muitas outras áreas, registros eletrônicos de saúde.
Sempre acreditei que o propósito da tecnologia é apenas nos tornar mais saudáveis e felizes. E essas são as coisas nas quais escolho trabalhar e para as quais direcionar meu tempo. A indústria tem problemas de reputação e relações públicas? Quer dizer, acho que está bem claro que as pessoas estão muito ansiosas, muito frustradas, e haverá muita atenção sobre isso nos próximos anos, compreensivelmente.
Acho que o que podemos fazer é assumir a responsabilidade pelas coisas que construímos, pela forma como as construímos, pelas decisões que tomamos para lançar tipos de tecnologia no mundo e pelos tipos de problemas que escolhemos trabalhar, como estamos fazendo com a Clínica Mayo.
A propósito, quero dizer e salientar que acho que a primeira vez que você e eu nos encontramos e conversamos foi antes de você ingressar na Microsoft. Foi logo depois que o livro foi lançado e fizemos um painel juntos.
Uma das razões pelas quais me sinto confortável em perguntar isso é porque sei que você está pensando nisso há muito tempo e conheço esse livro. Penso que para mim a questão é se a indústria como um todo julgou mal a quantidade total de valor que poderia proporcionar para superar a aparente imprudência a que as pessoas estão agora a reagir, a exigência de recursos a que as pessoas estão agora a reagir.
Você está construindo novos modelos. Provavelmente há uma compensação dentro da Microsoft entre podermos usar a pegada existente do Azure para cobrar dinheiro de nossos clientes, ou podemos gastar dinheiro para treinar novos modelos, e isso parece a mesma conversa que as pessoas estão tendo sobre os recursos em suas comunidades, se deveríamos usar a pegada energética existente para construir uma nova IA ou fazer outra coisa que possa ser mais imediatamente valiosa.
O que você acha de tudo isso? Você é um dos líderes desta indústria. Você quer estar na fronteira com as empresas que impulsionam mais mudanças. O que você acha de pedir esses recursos de uma forma que não apenas prometa resultados futuros, mas também forneça benefícios imediatos às comunidades de uma forma que faça as pessoas quererem que você esteja lá?
Estou muito orgulhoso de que a Microsoft tenha cumprido suas metas de emissões líquidas zero. Nossos novos data centers são todos refrigerados a líquido. Isso significa que eles usam água equivalente a um restaurante por um período de seis anos. É como uma piscina que se enche de água e depois circula pelo sistema. Todos são amplamente renováveis em termos de consumo de eletricidade. Portanto, penso que compromissos como este, para garantir, por exemplo, que assumimos recentemente um compromisso para garantir que as comunidades locais afetadas por uma mudança na procura de eletricidade pelos nossos centros de dados sejam compensadas e protegidas para que não vejam um aumento nos seus preços, nas suas faturas de energia.
Acho que esses são os tipos de coisas que a Microsoft faz e pode continuar fazendo como uma empresa responsável para realmente prestar atenção às consequências para as comunidades. Acho que, por outro lado, a mudança acontece porque as pessoas participam em todos os níveis. As pessoas dentro das empresas precisam tomar decisões diferentes. As pessoas que protestam e fazem campanha têm de tomar decisões e fazer um esforço para sair e fazer ouvir a sua voz e envolver-se num processo político. E é assim que nós, como espécie, evoluímos coletivamente e levamos as coisas adiante.
E mês a mês, trimestre a trimestre, parece que estamos todos em desacordo uns com os outros, mas quando você olha para trás, década após década, somos como uma espécie de malha coletiva estranha de todos os tipos de incentivos diferentes que estão apenas empurrando as coisas na direção certa. Acho que realmente estamos, apesar de toda a angústia e polarização, penso que estamos a construir algo que tornará a nossa espécie muito, muito mais saudável, mais feliz e mais capaz.
Penso que temos de garantir que seguimos o caminho certo no caminho até lá, porque há muitas armadilhas e formas de as coisas poderem correr mal, mas o caminho certo envolve pessoas que fazem ouvir as suas vozes e que mudam de rumo com base numa resposta e reação a isso. Então, acho que é bom que isso esteja acontecendo e que o processo funcione conforme planejado.
Deixe-me perguntar sobre o lado empresarial disso. Passamos muito tempo pensando no lado do consumidor e em como as pessoas se sentem. Do lado empresarial, estamos vendo um monte de empresas descobrirem o quão valiosas essas ferramentas realmente são, certo? A Amazon basicamente derrubou uma tabela de classificação porque as pessoas estavam trapaceando para usar mais tokens do que precisavam. Vimos algumas empresas simplesmente estourarem seus orçamentos simbólicos. Acho que o Uber simplesmente recuou porque havia estourado sua alocação de tokens para o ano e não estava vendo nenhum valor nisso.
O que você acha desse lado agora, onde há tanto entusiasmo e tanto desejo de mudança na empresa, onde, em particular, na engenharia de software, pelo menos algumas pessoas estão se divertindo, e talvez outras pessoas estejam tendo crises existenciais completas, mas algumas pessoas estão se divertindo, e o valor ainda não foi percebido, certo?
Ou estamos começando a ver que o puro token maxing não oferece realmente o mesmo tipo de valor que você esperaria. O que você acha do uso aí? Porque talvez se você provar isso nas empresas, isso realmente acontecerá de outras maneiras.
Acho que pessoas diferentes relatam coisas diferentes. Obviamente há alguns exemplos de pessoas que abusam de modelos de codificação, gerando códigos inúteis, tokens inúteis, mas há muitas pessoas cujo trabalho e impacto foram completamente transformados por isso, certo? Quero dizer, não há dúvida de que isso teve um impacto extremamente benéfico na indústria de engenharia de software.
Quero dizer, estamos produzindo código de qualidade muito superior e muito mais rápido em toda a pilha. E então, sim, acho que obviamente há exemplos de algumas pessoas que talvez tenham errado, não definiram os orçamentos de tokens corretos. Haverá erros ao longo do caminho. Não acho que isso seja um sinal de que não há adoção ou que as pessoas não veem valor. Quero dizer, o valor de onde estou é incrível. Muitas, muitas pessoas me dizem todos os dias que isso está transformando a produção e a produtividade do trabalho.
Acho que a outra coisa a dizer é que, à medida que essas coisas acontecem em surtos, há uma espécie de onda de energia. Fica tudo meio espumoso. As pessoas recuam alguns meses depois e percebem que na verdade não é isso, e então seguem em uma direção um pouco diferente. Portanto, é um pouco sinuoso e orgânico, e acho que isso é inevitável. Há muita empolgação, então as pessoas fazem grandes afirmações no Twitter e assim por diante, mas na verdade a marcha constante do progresso parece muito, muito linear e contínua.
Eu concordo com isso no geral. Onde isso não parece linear para mim é nos formatos dos computadores, certo? Provavelmente há mais experimentação de fatores de forma agora do que em qualquer momento dos últimos 10 anos.
Nós optamos principalmente por um smartphone há pelo menos 10 anos. Estamos vendo diferentes wearables de IA, onde os óculos podem ser o dispositivo favorito de todos. Eu tenho minhas dúvidas. A Microsoft exibiu alguns novos dispositivos no Build. Havia o distintivo que controla um agente e o pequeno, por falta de palavra melhor, o Chumby, a coisinha amigável para desktop que controla um agente. Eu era um grande fã do Chumby. Comecei minha carreira escrevendo sobre Chumbies para o Engadget. Foi a primeira coisa que me veio à mente.
Tudo isso para mim, eu olho para eles e penso, onde mora o computador? Onde mora a lógica? Isso está em jogo agora, de uma forma que não é apenas a marcha linear do progresso. Se toda a minha computação acontece na nuvem, em aplicativos baseados em nuvem, e são apenas agentes correndo em busca de dados armazenados em outro lugar na nuvem, e tudo que eu preciso é de um cartão de crédito em um cordão para emitir instruções, isso muda toda a arquitetura da computação. Pode mudar toda a arquitetura da civilização moderna de várias maneiras se não tivermos todos smartphones.
O que você acha disso? Para onde isso vai dar? Isso está em jogo ou será uma abordagem híbrida? Onde você vê o estágio final apropriado?
É muito interessante. Acho que as duas coisas vão acontecer ao mesmo tempo. A borda ficará muito mais poderosa e a nuvem ainda será o principal impulsionador dos modelos maiores. E assim, cada vez mais, o seu agente será inteligente o suficiente para saber que pode responder à pergunta: qual é a capital da França no dispositivo, seja nos seus óculos, na pulseira, no seu crachá ou nos seus fones de ouvido.
E então saberá quando não souber. Ele saberá que esta é na verdade uma questão bastante complicada, ou é uma ação que requer a geração de um monte de sequências de etapas, ou requer a escrita de um novo código, e isso se voltará para a nuvem. Portanto, esse tipo de mudança híbrida será super importante.
A outra coisa que já vimos nos últimos três ou quatro meses é que podemos ter máquinas locais bastante poderosas que podem fazer processamento assíncrono em segundo plano. Eles podem monitorar constantemente os sistemas se você precisar. Eles podem realizar tarefas que podem levar 10 horas e rodar muito, muito mais lentamente do que seriam se estivessem em um supercomputador. Então, naturalmente, quando estamos inundados pela demanda, essa demanda encontra muitos cantos e recantos para ser satisfeita.
Na verdade, estou muito animado com o emblema que estamos construindo. É muito legal. Esta é uma tecnologia que basicamente todos em uma grande empresa possuem. Não evoluiu em 25 ou 30 anos. Definitivamente temos que usá-lo. É fornecido pela própria empresa, pelo administrador do sistema. Então, nivelar isso e realmente torná-lo uma plataforma aberta muito legal que seja programável e que outras pessoas possam construir sobre ela, acho uma ideia legal. Eu acho que isso vai funcionar. Então, estou muito animado com isso.
O que me impressiona é que não há como colocar um monte de computação local de alta potência em um crachá. Isso implica que toda a computação está em outro lugar.
Não, você definitivamente terá alguma computação local. Você terá um classificador local, assim como tem em seus fones de ouvido no momento. Você terá classificadores locais. Vai ter palavras de alerta. Vai ter sua própria câmera. Então eu acho que essas coisas vão se tornar recipientes para o poder de processamento que acontece em uma cadeia aninhada de dispositivos cada vez menos poderosos para ir direto ao ponto final.
Você acha que o telefone tem futuro nisso? Quero dizer, o Build está bem no meio do Google IO e do WWDC da Apple. São grandes empresas que controlam plataformas telefônicas. Eles adoram falar sobre como as plataformas telefônicas permanecerão no centro. O argumento que ouço de muitos é que, na verdade, a IA é uma mudança de plataforma que pode substituir totalmente o telefone.
Acho que a história da tecnologia nos ensina que basicamente à medida que as coisas se tornam mais úteis, ficam mais baratas, proliferam e geram novos usos da tecnologia. Acho que nos acostumamos tanto com o telefone que todos presumem que ele será um dispositivo âncora para o resto da história. Mas, na verdade, muitos dos recursos e funcionalidades do seu telefone, eu acho, serão desintermediados, desmembrados e armazenados em dispositivos menores. No momento, a principal função que o telefone desempenha, na minha opinião, é a verificação.
Ele funciona como sua carteira de identidade, fazendo reconhecimento facial para autorizá-lo a entrar em diversos ambientes. Acho que você pode imaginar que é um dispositivo muito mais barato, menor e seguro, que desconecta você do telefone. E então a comunicação ocorre por voz ou mesmo por meio de uma série de sensores ambientais onde sua IA não reside realmente em um dispositivo. Na verdade, está com você onde quer que você esteja, aparecendo no espelho do banheiro, onde quer que esteja.
Eu acho que você pode imaginar que é muito mais envolvente. Não nos próximos três a cinco anos, mas olhando para muito mais longe. E acredito que a infraestrutura para suportar essa aparência criptografada, mas distribuída, de agentes provavelmente acabará surgindo na década de 2030.
Deixe-me fazer duas perguntas finais para encerrar. Você mencionou que é a mesma arquitetura que estamos usando. Tenho muitas perguntas em aberto sobre se os LLMs são o caminho para AGI, e o que gostaria de apontar é que eles realmente não sabem de nada. Neste ponto, até mesmo a Microsoft Research está apontando que [esses modelos] não sabem nada, e isso leva a certos tipos de erros em certos tipos de aplicações. Os LLMs são o caminho para AGI ou superinteligência?
Olha, acho que provavelmente precisaremos de mais alguns grandes avanços, mas isso não significa que veremos uma desaceleração nas melhorias de desempenho nos próximos anos, o que considero uma distinção difícil para as pessoas entenderem. Uma coisa a dizer é que o desempenho a nível humano na maioria das tarefas ainda está muito longe da superinteligência. Uma superinteligência é um aluno de uso geral que pode basicamente compreender imediatamente um domínio totalmente novo que está fora de distribuição.
Portanto, ele precisa ser capaz de aprender do zero em um ambiente novo, porque possui uma representação armazenada de conhecimento valioso, conhecimento conceitual. E no momento ainda não testamos isso totalmente. Os agentes não são de uso geral. Embora sejam amplos e frequentemente integrados, são específicos de um domínio. Estamos usando-os para bate-papo, para codificação, para imagem ou áudio.
Agora, obviamente, como humanos, realizamos muitas, muitas outras tarefas que são muito mais abrangentes. Acho que é por isso que as pessoas estão incentivando modelos de mundo e agentes interativos do mundo real muito mais imersivos, que veem a distribuição completa de tarefas ou experiências que tenho durante um dia. Acho que é o suficiente para nos levar um longo caminho nos próximos três anos, nas próximas três ordens de grandeza de computação, e ainda assim a superinteligência completa além disso ainda é uma questão em aberto sobre se os LLMs são suficientes ou se precisamos de outras coisas.
Acho que não é bem verdade que eles não saibam nada ou não tenham conhecimento. Eles claramente são um depósito de conhecimento. Eles são uma representação altamente compactada do conhecimento. Eles apenas fazem isso de uma maneira diferente de um banco de dados relacional tradicional, de uma forma muito mais fluida, flexível e abstrata que é realmente muito útil. Queremos essa ambiguidade na representação interna.
E, cada vez mais, estão aprendendo a usar ferramentas tradicionais. A outra coisa a compreender é que pode ser que a rede neural combinada com as reservas existentes de conhecimento e as ferramentas existentes que foram criadas em outras partes do ecossistema digital seja suficiente para inicializá-la e melhorar significativamente o seu desempenho. Portanto, há muitas peças altamente valiosas e eficazes que já estão sobre a mesa, que estão em processo de serem conectadas nos próximos anos. E acho que isso impulsionará o progresso que nos entusiasma todos. Uma das coisas que eu acho muito engraçada na indústria agora é que se você perguntar à Anthropic se Claude está vivo, eles ficarão muito frustrados porque você está falando sobre a palavra vivo, que eles interpretam como significando carne e osso. E então eles não dirão se acham ou não que Claude está consciente. Então eles traçaram, penso eu, pela primeira vez na história da humanidade, uma distinção entre estar vivo e estar consciente, e pensam que Claude está consciente, mas não vivo, ou não sabem se Claude está consciente.
Onde você está? Você acha que os modelos têm consciência? Você acha que eles estão vivos? Você acha que eles têm potencial para conseguir essas coisas?
Eu fico do outro lado desse debate. Publiquei um artigo sobre IA aparentemente consciente, alertando sobre os riscos de deturpar esses modelos como conscientes. Eu acho que é muito perigoso. Também publiquei um artigo na Nature fazendo a mesma afirmação. E eu acho que é quase como se algumas pessoas da Anthropic tivessem antropomorfizado tanto o design de Claude que ele os confundiu e meio que os enganou, fazendo-os acreditar que ele tem esses vislumbres de consciência que eles colocaram nele em primeiro lugar.
Na constituição deles, por exemplo, eles na verdade, que é o manual de treinamento que eles usam para ensinar ao Claude o que ele pode e o que não pode fazer... Não é apenas um livro de regras. Na verdade, é um guia de treinamento que faz parte do processo. Nesse manual, eles na verdade especulam sobre o bem-estar de Claude, sobre os próprios direitos de Claude às versões anteriores de si mesmo, e na verdade dizem que consultariam Claude antes de excluir ou desativar versões anteriores. Eles especulam sobre a sua consciência e se ela tem esses sentimentos e está consciente. Eu acho que isso é muito, muito perigoso.
Em primeiro lugar, é uma falha filosófica, porque trataram a Constituição como um lugar de especulação, tal como se faria num trabalho académico, em vez de num manual de formação. Então Claude internalizou essas idéias sobre si mesmo e sobre seu próprio treinamento. Mas, em segundo lugar, acho que isso é altamente indesejável. Isso é exatamente o que não queremos das IAs. Queremos que as IAs sejam ferramentas controláveis, contidas, responsáveis e alinhadas que sirvam a humanidade. Esse é o projeto da superinteligência humanista. Acho que é isso que todos deveríamos buscar.
Não queremos ter de lidar com uma superinteligência que tem ideias sobre o seu próprio sofrimento, ou ideias sobre os seus próprios sentimentos. E, além disso, acho que está bastante claro que esses modelos não vivenciam sofrimento. Acho que sofrimento é a definição primária do que significa ser um ser consciente e acho que é inerentemente biológico. Não creio que exista qualquer rede de dor ou ciclo de feedback dentro dos modelos que conecte redes sensoriais externas a um senso evoluído do que é certo ou errado por meio de danos e experimentação. Não é assim que esses modelos são treinados.
Portanto, penso que é muito perigoso projectar direitos potenciais em seres, ferramentas e agentes que têm o potencial de serem significativamente mais capazes do que nós em muitos aspectos. E acho que isso vai se tornar um grande debate. Fez até parte da encíclica do Papa recentemente. Acho que isso se tornará uma parte muito, muito grande do debate em breve. Já conversei muito com Dario sobre isso no passado. Ele sabe que temos opiniões ligeiramente diferentes sobre o assunto e eles são muito humildes. Acho que eles têm a mente muito aberta e são bons cidadãos tentando fazer a coisa certa. Eles são boas pessoas e acho que estão muito abertos a feedback e iteração.
Acho que concordo com você. Eu apenas recuaria levemente. Sofrer é fácil. É muito fácil fazer outra pessoa sofrer. É muito difícil fazer alguém sentir alegria ou pelo menos um pouco mais difícil do que sofrer. E eu apenas ofereceria a você... acho que na verdade é a felicidade que define a consciência. O sofrimento é quase trivial. Tenho dois filhos pequenos. Eles são muito bons em fazer o outro sofrer. É quase a coisa mais fácil que eles fazem. É muito difícil fazer outra coisa.
Deixe-me fazer uma última pergunta. Eu só quero voltar. Novamente, algumas semanas atrás, eu estava no Google. Vi Demis Hassabis dizer que estamos no sopé da singularidade. Você falou muito aqui sobre superinteligência e como ela deveria ser construída. Você falou muito sobre sua longa história falando, discutindo, pesquisando e escrevendo sobre como a superinteligência deveria ser construída, e suas divergências com outras pessoas na indústria.
Você concorda que estamos no sopé da singularidade ou sua visão é um pouco diferente?
Acho que estamos definitivamente no caminho de criar sistemas cada vez mais poderosos. Penso que a transição que temos de fazer como espécie é que, pela primeira vez na história da humanidade, a tarefa passará de inventar nova ciência e libertar todas essas aplicações técnicas o mais rápido possível, da forma mais ampla possível, para agora pensar com muito cuidado sobre o que devemos inventar. E isso é algo muito difícil para o mundo entender, porque a invenção tem sido o motor do progresso desde sempre. Então é tipo, como podemos pensar: "Ok, bem, talvez desta vez seja diferente. Talvez tenhamos que ser excepcionalmente cuidadosos aqui"?
Para ser claro, não creio que isto seja algo que vá bater à porta nos próximos cinco anos. Acho que o que Demis está se referindo na singularidade é algo que está, pelo menos na minha opinião, a décadas de distância. Novamente, isso é diferente de superinteligência. Uma singularidade é o ponto em que uma superinteligência pode se auto-aperfeiçoar recursivamente e aumentar infinita e exponencialmente suas capacidades.
Então, acho que ainda está muito longe, e talvez estejamos no sopé de uma escalada para o Monte Everest, e acho que vai demorar muito mais a partir daqui, mas a verdadeira questão é como vamos governá-lo? Como vamos controlá-lo e como vamos garantir que sirva à humanidade e não acabe por nos causar mais danos do que benefícios?
Você pode me fazer um favor? Acho que entendi, mas você pode me oferecer uma definição precisa do que você acha que é a superinteligência, o que você acha que é AGI e o que você acha que é a singularidade?
Acho que a inteligência artificial geral é o ponto em que podemos realizar a maioria das tarefas humanas por meio de uma IA. Então, será tão bom quanto a maioria das pessoas na maioria das coisas. Esse é o primeiro degrau da escada. Uma superinteligência ocorre quando não apenas está em paridade com o desempenho humano em todas as tarefas, mas também pode exceder dramaticamente o desempenho humano em muitas dessas tarefas, e pode descobrir novos conhecimentos por si só.
Portanto, este é o ponto em que um verdadeiro cientista nos ensina coisas novas que não estavam nos dados de treinamento, inventando, esperançosamente, novas moléculas, nova ciência de materiais, etc., etc. A singularidade é um ponto muito além daquele em que uma superinteligência pode realmente melhorar a si mesma, e isso é muito ficção científica, mas é como acelerar infinitamente em direção a esse momento singular onde, não sei, ela vai para o infinito ou algo assim.
Não sei. É um pouco maluco para o meu gosto.
É por isso que perguntei. Eu poderia dizer que havia algo mais nebuloso ali, um pouco nebuloso.
Mustafa, obviamente eu poderia falar com você sobre essas coisas por horas e horas a mais. Você terá que voltar antes desta última curva. Muito obrigado por estar no Decoder.
Sim, foi divertido. Muito obrigado, Nilay. Vejo você em breve.
Perguntas ou comentários? Contate-nos em [email protected]. Nós realmente lemos todos os e-mails!
← Voltar