#75 Modelo com Janela de Contexto de 100 Milhões de Tokens, Nova AI de Geração de Vídeos e AI Criando Jogos de Computador
Mais uma semana de avanços no universo das Inteligências Artificiais Generativas!
E, como aqui você não perde nada do que acontece, esta edição está repleta de assuntos interessantes e relevantes. Os temas de hoje são:
Modelo com janela de contexto de 100 milhões de tokens; Novo modelo de geração de vídeos com AI; AI gerando jogos de computador; Gere interfaces web a partir de comandos de texto; Crie recursos gráficos com AI.
News
Modelo com janela de contexto de 100 milhões de tokens
Um novo modelo de Inteligência Artificial com janela de contexto de 100 milhões de tokens acaba de ser lançado pela empresa Magic.
Esse é um avanço incrível na área e eu vou te explicar o porquê.
Para quem ainda não conhece, a Magic é uma startup de AI fundada por Steinberger e Sebastian De Ro em 2022.
Desde a sua fundação, a empresa já recebeu um investimento total de U$ 465 milhões - de grandes nomes como Nat Friedman, Daniel Gross, CapitalG, Sequoia e Eric Schmidt. Um valor tão grande e em tão pouco tempo é justificado pela capacidade do time fundador e pelos objetivos e caminhos que a empresa pretende trilhar.
A missão da Magic é automatizar a pesquisa em inteligência artificial e a geração de código, para assim acelerar o desenvolvimento da tecnologia em direção a uma AGI.
Segundo a empresa, a melhor forma de alcançar esse ambicioso objetivo é através de quatro pilares: treinamento de modelos em larga escala, aprendizado por reforço em domínios específicos, uso de janelas de contexto ultralongas e aumento do tempo de resposta dos modelos (permitindo que eles “pensem” por mais tempo antes de responder).
Essa combinação permitiria que os modelos superassem as limitações atuais e realizassem raciocínios mais complexos e robustos - uma vez que eles seriam mais inteligentes, mais especializados, possuiriam mais contexto/informações para realizar as tarefas e dedicariam mais tempo para cada tarefa que realizassem.
O plano faz bastante sentido, já até comentamos sobre isso aqui na newsletter.
E para colocá-lo em prática, a Magic está focando primeiro em desenvolver o pilar das “janelas de contexto ultralongas”.
Com isso, ela está criando os modelos de Memória de Longo Prazo (Long-Term Memory, LTM) e recentemente lançou o LTM-2-mini.
O novo modelo tem uma janela de contexto de 100 milhões de tokens. Isso significa que ele é capaz de processar de uma só vez e de se “lembrar” com precisão, de aproximadamente 750 romances ou 10 milhões de linhas de código. Um número muito impressionante.
Fazendo uma comparação para entender a magnitude desse número, antes do LTM-2-mini, a maior janela de contexto do mercado era do Gemini 1.5 Pro, com 2 milhões de tokens.
Mas qual a vantagem de ter uma janela de contexto tão grande?
Imagine que, toda vez que você fosse fazer uma pergunta para o ChatGPT sobre algo do seu trabalho, ele tivesse acesso a tudo que você já leu e estudou na vida, a tudo que você já produziu no seu trabalho, a todos documentos e planilhas que você lida no dia a dia e a todos os detalhes da empresa que te emprega.
Todo este contexto melhoraria - e muito - a qualidade das respostas que ele geraria para você e ele se tornaria algumas dezenas ou centenas de vezes mais útil do que antes.
Este exemplo é uma extrapolação para ilustrar o fato de que quanto mais contexto se dá aos modelos de AI, melhor eles tendem a ficar.
No caso do LTM-2-mini, que é um modelo especializado em geração de códigos, o contexto que ele possibilita que seus usuários - programadores - tenham, por exemplo, diz respeito a todo o seu código, documentações relevantes e bibliotecas em contexto, incluindo aquilo que não está disponível na internet.
Isso amplia muito a utilidade da AI no campo da programação.
Mas além desta grande janela de contexto, como o modelo se compara em termos de “inteligência” e habilidades gerais em relação aos principais do mercado, como GPT-4o, Claude 3.5 Sonnet e Llama 3.1 400b?
Nisso ele não se sai muito bem. O LTM-2-mini tem capacidades muito inferiores as destes modelos, pois é um modelo muito menor.
Ele é como uma prova de conceito, bem menos capaz do que pode ser.
Assim, após lançá-lo, a Magic iniciou o treinamento da versão “grande” do LTM-2 em seu próprio super computador. Espera-se que esta versão seja mais poderosa e compita melhor, em termos de capacidades, com os principais modelos do mercado.
Vamos aguardar.
Apesar das limitações dessa versão mini, sua grande janela de contexto já o torna ábil para algumas aplicações. Então se você quiser experimentar o modelo é só clicar aqui e entrar na lista de espera.
De qualquer forma, esse avanço é bem importante e realça a tendência que os modelos de linguagem estão seguindo. Com o avanços na arquitetura desses modelos e do poder computacional, em breve teremos modelos capazes de interpretar quantidades massivas de informação - e isso levará-los a um novo nível.
Novo modelo de geração de vídeos com AI
Mais uma vez, um novo modelo de geração de vídeos chinês acaba de ser lançado e alcança o Sora!
Desde que o Sora foi anunciado pela OpenAI em fevereiro deste ano e estabeleceu um novo estado da arte na geração de vídeos com AI, todos aguardam seu lançamento.
Sete meses se passaram e pelo menos cinco modelos de AI - Veo, Dream Machine, Kling, Gen-3 e Video-01 - já o alcançaram e foram disponibilizados publicamente.
O mais recente destes modelos a ser lançado é o Video-01 e é dele que vamos falar.
O novo modelo foi lançado nesta semana pela MiniMax.
A MiniMax é uma startup chinesa de inteligência artificial fundada no final de 2021. Por trás da empresa estão duas gigantes do mercado de tecnologia da China - Alibaba e Tencent.
A startup já levantou cerca de 600 milhões de dólares em investimentos e agora está lançando seu primeiro modelo de geração de vídeos com Inteligência Artificial.
O Video-01 é capaz de gerar vídeos a partir de comandos de texto. Ele gera vídeos em uma resolução nativa de 1280 x 720 pixels, operando a 25 quadros por segundo, o que proporciona uma qualidade de imagem muito boa. A duração dos vídeos é limitada a 6 segundos por geração.
O modelo cria vídeos em diversos estilos, de animação a realismo. A qualidade dos vídeos é bem alta, veja alguns exemplos aqui.
Além disso, os vídeos gerados possuem boa consistência temporal (os cenários e objetos se mantém os mesmos ao longo do vídeo) e boa aderência aos comandos dos usuários (seguem aquilo que foi pedido).
Um detalhe que me chamou atenção no Video-01 foi a sua capacidade de gerar expressões faciais de forma muito realista - reproduzindo bem as emoções das pessoas geradas. Isso é algo não tão avançado em outros modelos.
Apesar disso, alguns vídeos realistas gerados pelo modelo dão uma impressão de serem retirados de videogame - ainda têm um toque artificial.
Mas de maneira geral, o modelo é bastante comparável aos seus concorrentes, se saindo melhor em alguns aspectos e pior em outros.
Um dos principais pontos negativos do Video-01 é a curta duração dos vídeos gerados. A maior parte dos modelos é capaz de gerar vídeos mais longos ou dão a possibilidade de expandir os vídeos após a geração.
E a Minimax até planeja aumentar este tempo de duração para 10 segundos, mas ainda é relativamente pouco, considerando que o Sora, por exemplo, consegue gerar vídeos de mais de um minuto.
Ainda sim, o modelo é bem impressionante e eu recomendo muito que você teste-o.
Para acessar o modelo basta clicar aqui. O acesso é gratuito e qualquer pessoa pode gerar vídeos na plataforma. Tudo o que você precisa fazer é criar uma conta e cadastrar um número de telefone (números internacionais são aceitos, então sem problemas para nós brasileiros).
AI gerando jogos de computador
Muitos acreditam que, no futuro, os videogames não são programados linha por linha por humanos, mas sim gerados por modelos de AI.
Apesar disso parecer muito distante, no início do ano falamos do Genie, um modelo de AI do Google capaz de gerar ambientes interativos ou “jogáveis”.
Este modelo funcionava da seguinte forma: os usuários enviavam uma imagem e, a partir dela, o modelo imaginava e gerava um universo em 2D - estilo Super Mario - novo e interativo. Nesse universo criado, o usuário poderia controlar o personagem, movendo-o como em um jogo.
Esta era a primeira versão de um jogo criado do zero por Inteligência Artificial.
Recentemente, outros pesquisadores do próprio Google deram mais um passo importante nesse campo.
Eles conseguiram criar uma versão totalmente gerada por AI do jogo Doom - o famoso jogo de tiro em primeira pessoa de 1993 (revolucionário na época por trazer um ambiente e gráficos 3D).
Nessa versão de AI, a simulação é criada em tempo real, permitindo que o jogador interaja com o ambiente de forma dinâmica, enquanto a AI responde às suas ações e reproduz os cenários e a jogabilidade do jogo original.
Tudo isso foi possível graças ao GameNGen, um sistema de AI que eles criaram com esse objetivo. Muito mais complexo do que o Genie, ele não só gera jogos do zero, mas é capaz de reproduzir jogos existentes, gerar jogos 3D e possibilitar uma experiência de jogo muito mais real.
Você pode ver um vídeo do jogo gerado pelo modelo clicando aqui.
Mas como ele funciona?
GameNGen funciona em duas etapas: aprendizado por reforço (RL) e geração com modelos de difusão.
Aprendizado por Reforço: o aprendizado por reforço é uma técnica que permite que um agente de AI aprenda a tomar decisões com base em interações com um ambiente. No caso do GameNGen, o agente foi treinado para jogar o Doom.
Durante o treinamento, o agente interage com o ambiente do jogo, explorando mapas, enfrentando inimigos e recebendo recompensas por completar tarefas como derrotar esses inimigos ou alcançar certos pontos do mapa.
Desta forma, o processo é registrado, gerando um conjunto de dados que inclui todas as ações do agente, suas observações e as consequências de suas decisões.
Modelos de Difusão: na segunda fase, utiliza-se um modelo de difusão, similar ao utilizado em ferramentas de geração de imagens como DALL-E 3 e Stable Diffusion.
Esse modelo é treinado com os dados gerados pelo agente de aprendizado por reforço, e, ao invés de gerar imagens estáticas, ele aprende a prever o próximo quadro do jogo com base nos quadros e ações anteriores - e assim gera os recursos visuais correspondentes a cada momento da jogabilidade.
Em resumo, um agente de AI aprende como o jogo funciona e ensina para o modelo de difusão, que gera o jogo em tempo real, dependendo do que o usuário faz.
Para que isso funcione, o modelo deve gerar os gráficos do jogo em uma velocidade incrível - 20 quadros por segundo -, pois, caso não fizesse isso, o usuário teria que esperar o cenário, objetos e modificações serem geradas toda vez que tomasse alguma ação. Isso estragaria a fluidez da experiência.
Outra característica importante é a memória da AI. Ela precisa se lembrar de aspectos como a porcentagem de vida que o personagem tem e dos cenários que ele acabou de passar.
Apesar desta memória existir, ela ainda é limitada a alguns segundos, o que não é o ideal.
Outra limitação do GameNGen é a baixa resolução dos gráficos que ele gera - não conseguindo ainda gerar jogos muito realistas ou modernos.
Mas de maneira geral, o que os pesquisadores do Google conseguiram alcançar com esse projeto é muito impressionante.
Desenvolvimentos como estes nos guiarão para um futuro onde os jogos são criados com muito mais velocidade e de forma muito mais personalizada - já que eles não precisarão ser completamente programados e ainda se adaptarão aos desejos de cada usuário.
Ainda há um grande caminho a ser percorrido, mas estamos avançando rápido.
Indicações
Vercel v0
Gere interfaces web a partir de simples comandos de texto e obtenha o código para integrar em suas aplicações.
Playground
Crie recursos gráficos como estampas de camisetas, logos, posts para redes sociais e etc. com essa ferramenta de AI.
Dica de Uso
Você sabia que as empresas por trás dos principais modelos de AI fornecem bibliotecas de prompts completas e gratuitas?
Isto é, elas disponibilizam listas de comandos que você pode utilizar nas AIs para cumprir diversos propósitos e funções. Estas bibliotecas são ótimas para poupar tempo, obter inspiração e até aprender mais sobre como escrever bons prompts.
É realmente bem legal, então vou listar três delas para você acessar:
Nos nossos vídeos do Instagram também damos muitas dicas de comandos, alguns até mais avançados, então não esquece de conferir também!
Pensamento do Dia
Apesar dos gargalos significativos no treinamento de AIs, nossas estimativas sugerem que eles não diminuirão significativamente a taxa de crescimento. Isso indica que poderemos ver outro grande aumento de escala — comparável ao salto de GPT-2 para GPT-4 — até 2030.
- Epoch AI
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!