#52 Sora - o Melhor Modelo de Geração de Vídeos com AI, Lançamento do Gemini 1.5 e Sam Altman Buscando Investimento de U$7 Trilhões
Essa foi a semana mais importante do ano no universo das Inteligências Artificiais Generativas, com os dois maiores players lançando novos e incríveis modelos!
E como aqui você não perde nada, a newsletter de hoje está muito interessante e relevante. Os temas de hoje são:
Sora - o melhor modelo de geração de vídeos com AI até hoje; Lançamento do Gemini 1.5 com janela de contexto de 1 milhão de tokens; Sam Altman busca investimento de U$ 7 trilhões para desenvolver chips de AI; Gere notas organizadas automaticamente com AI; Crie seu próprio e personalizado chatbot de AI rode-o localmente.
News
Sora - o melhor modelo de geração de vídeos com AI até hoje
Na última quinta-feira (15), a OpenAI lançou o melhor modelo de geração de vídeos com Inteligência Artificial do mercado!
O novo modelo da empresa por trás de ChatGPT e DALL-E 3 chama-se Sora e é simplesmente incrível, superando - por muito - todos os modelos já desenvolvidos até hoje, incluindo Runway e Pika Labs.
Como você pode ver nessa demo aqui (recomento que assista antes de continuar com a leitura), os vídeos gerados pelo novo modelo de AI são realmente impressionantes, tendo altíssima qualidade e realismo.
Mas não só isso, três características do Sora o colocam em uma categoria própria dentre os demais modelos:
Duração dos vídeos gerados: o Sora gera vídeos de até um minuto (!), enquanto os outros modelos conseguem gerar só alguns segundos;
Consistência: essa talvez seja a capacidade mais impressionante do Sora - os objetos e ambientes de seus vídeos são extremamente consistentes, ou seja, se mantêm os mesmos do início ao fim, resolvendo um grande problema presente nos vídeos gerados por outros modelos;
Complexidade criativa: o modelo é capaz de gerar cenas complexas com vários personagens, tipos de movimento e detalhes precisos do assunto e do ambiente - entendendo, não apenas o que o usuário pediu no prompt, mas também como essas coisas existem no mundo real.
O Sora consegue gerar vídeos a partir de simples comandos de textos, então basta pensar em uma ideia, escrever e enviar ao modelo para ter um vídeo de alta qualidade e na proporção que quiser criado unicamente para você.
E o modelo faz mais do que gerar vídeos a partir de prompts de texto. É possível, também:
Criar vídeos a partir de imagens, dando vida a frames estáticos;
Criar vídeos a partir de vídeos, ampliando a duração de vídeos pré-existentes;
Criar vídeos a partir de vídeos, escrevendo comandos para modificar o estilo ou os elementos do vídeo de referência;
Unir dois vídeos em uma criação única e coesa.
Por fim, o Sora tem a capacidade de gerar incríveis imagens com resolução de até 2048x2048, dá só uma olhada:
Arrisco dizer que essas imagens podem ser até melhores do que as do Midjourney e do próprio DALL-E 3.
Ok, o Sora é excelente. Mas o que a OpenAI fez para conseguir atingir tamanho sucesso em seu desenvolvimento?
A empresa liberou um artigo contando como o Sora foi criado.
Sem entrar nos detalhes mais técnicos - muitos deles nem foram revelados ainda -, o Sora foi treinado utilizando uma quantidade massiva de vídeos de diversas proporções, resoluções e durações. Dentre esses vídeos, acredita-se que a OpenAI usou de milhões de stock vídeos (de sua parceria com a Shutterstock) e de vídeos de gameplays de jogos.
Esses vídeos, antes de serem inseridos no modelo, precisavam de ser legendados. Para isso, desenvolveu-se um modelo de AI especializado em escrever legendas altamente descritivas para vídeos. Assim, todos os vídeos foram legendados de maneira detalhada - algo que só uma empresa do porte da OpenAI pode se dar ao luxo de fazer.
Com essas legendas nos vídeos usados no treinamento, o modelo final se tornou muito melhor em seguir as instruções do usuário e passou a gerar vídeos de maior qualidade.
Caso se interesse em saber mais sobre a arquitetura do Sora, basta clicar aqui.
Por enquanto o modelo está sendo submetido à times de avaliação de risco, para que seja lançado publicamente de forma responsável e segura, e sendo testado por alguns artistas visuais, designers e cineastas, para obtenção de feedback.
É provável que em breve poderemos acessar o Sora, assim como acessamos o DALL-E 3, e eu estou ansioso por isso.
Mas suspeito que esse modelo seja apenas uma parte de um grande plano da OpenAI para criar algo ainda maior e revolucionário. No texto de anúncio do Sora a empresa escreveu:
“Estamos ensinando AI a compreender e simular o mundo físico em movimento, com o objetivo de treinar modelos que ajudem as pessoas a resolver problemas que exigem interação no mundo real.”
De qualquer maneira, esse modelo de geração de vídeo não é perfeito, e mostra que ainda há um longo caminho a percorrer. No entanto, estamos acelerando e chegaremos lá muito antes do que a maioria espera.
Lançamento do Gemini 1.5 com janela de contexto de 1 milhão de tokens
Um pouco mais cedo, naquela mesmas quinta feira que a OpenAI lançou o Sora, o Google lançava o Gemini Pro 1.5, um incrível grande modelo de linguagem (LLM), que talvez seja o mais poderoso do mundo no momento.
O Gemini Pro 1.5 foi “coincidentemente” ofuscado pelo lançamento da OpenAI e não recebeu a atenção que merecia.
O modelo de AI é uma atualização do Gemini 1.0 - modelo desenvolvido e lançado pelo Google DeepMind no final do ano passado para superar o GPT-4.
Como já falamos aqui na newsletter, o Gemini 1.0 veio em três versões:
Ultra - a maior e mais poderosa, superou o GPT-4 e requer bastante poder computacional.
Nano - a mais leve e eficiente, funcionando até em dispositivos móveis.
Pro - um meio termo entre as duas anteriores, que superou ligeiramente o ChatGPT-3.5.
E foi essa versão intermediária, a Pro, que ganhou uma atualização na semana passada.
O Gemini Pro 1.5 ganhou melhorias muito significativas em suas capacidades gerais.
Quando foi testado em uma série de benchmarks para avaliar as habilidades de lidar texto, código, imagem, áudio e vídeo, o 1.5 Pro superou o 1.0 Pro em 87% deles.
E, quando comparado com o 1.0 Ultra nos mesmos benchmarks, ele teve um desempenho bastante semelhante, utilizando muito menos poder computacional.
Mas o fato mais legal e interessante sobre o Gemini 1.5 é que ele tem uma janela de contexto de 1 milhão de tokens. Só para ter uma noção do quão absurdo isso é, o GPT-4 tem uma janela de 128 mil tokens.
Isso significa que ele consegue ler e interpretar, de uma só vez: mais de 700.000 palavras, 30.000 linhas de código, 11 horas de áudio ou 1 hora de vídeo.
700 mil palavras equivalem à, mais ou menos, 10 livros inteiros. Ele consegue ler tudo isso em apenas alguns segundos e você pode fazer qualquer pergunta sobre esse conteúdo e ele te responderá.
Essa é, de longe, a maior janela de contexto do mercado.
A grande vantagem de ter uma janela de contexto tão grande é que a maior parte dos arquivos que o usuário envia podem ser lidos e abstraídos em sua totalidade. Isso, muitas vezes, é bem melhor que técnicas já existentes de Retrieval Augmented Generation (RAG) que “quebram” os arquivos em partes menores e adicionam ao contexto as que são mais relevantes, deixando de fora várias informações contextuais.
Tudo isso é possível graças a sua arquitetura inovadora, chamada de Mixture-of-Experts (MoE). Falamos da MoE na última newsletter, uma vez que ela foi aplicada, de maneira muito bem sucedida, no modelo da Mistral AI.
Nessa arquitetura MoE, o grande modelo é dividido em pequenos modelos especialistas, que são ativados de acordo com a relevância em relação ao tipo de input do usuário. Isso faz com que o modelo requeira bem benos poder computacional para funcional, o que o torna mais rápido e barato.
Assim, o Gemini 1.5 faz mais com menos, e por isso é tão bom.
Por enquanto o modelo está disponível apenas via API, no AI Studio e Vertex AI. E em breve estará integrado ao Gemini Advanced (plano pago do Gemini), inicialmente com uma janela de contexto de 128 mil tokens - que aumentará gradativamente.
Vale lembrar que Google ainda deve lançar a versão 1.5 do Gemini Ultra, que será ainda melhor que o Pro.
Esses avanços têm finalmente colocado uma pressão na OpenAI, o que é ótimo para nós consumidores.
Sam Altman busca investimento de U$ 7 trilhões para desenvolver chips de AI
Falando mais uma vez da OpenAI, nas últimas semanas o seu CEO tem buscado quantias astronômicas de investimento para o um ambicioso projeto.
Não é segredo que o grande objetivo da OpenAI é desenvolver uma Artificial General Intelligence (AGI) - uma AI que supere os seres humanos em todas ou quase todas as atividades econômicas.
Muitos especulam o quão próximo nós estamos dessa tecnologia. E vários sinais indicam que a OpenAI talvez alcance esse marco nos próximos anos ou até meses.
Como citei acima falando do Sora, a empresa vem juntando as peças do quebra-cabeça da AGI, desenvolvendo modelos avançados, criando arquiteturas que melhoram o raciocínio desses modelos e investindo em agentes autônomos - e parece estar se preparando para algo bem grande.
Recentemente, Sam Altman postou em seu Twitter (X):
“Acreditamos que o mundo precisa de mais infra-estruturas de AI – capacidade fabril, energia, datacenters, etc. – do que as pessoas planejam construir atualmente.
A construção de infraestruturas de AI em grande escala e uma cadeia de abastecimento resiliente são cruciais para a competitividade econômica.
OpenAI tentará ajudar!”
Na mesma época, o Wall Street Journal reportou que o CEO está buscando U$ 7 trilhões em investimentos para o desenvolvimento de chips de AI.
Esses chips (principalmente GPUs) são fundamentais para o desenvolvimento e funcionamento dos modelos de AI como GPT-4, Sora, DALL-E 3 e Gemini.
E é de conhecimento de todos que a limitação na oferta desses chips é um dos grandes gargalos no desenvolvimento de modelos de ponta. Isto é tão notório que a Nvidia, principal fabricante desses GPUs (detém cerca de 80% do mercado) foi uma das empresas que mais cresceu no último ano, atingindo valuation próximo do da Amazon e da Alphabet.
Para aumentar a capacidade global de produção de chips, Altman vem buscando esse valor absurdo de trilhões de dólares em investimentos. Ele já está negociando com uma série de investidores, incluindo alguns de países como Emirados Árabes Unidos.
No entanto, o presidente da Nvidia, Jensen Huang, não acredita que a quantia buscada seja necessária. Afinal, estima-se que toda a indústria mundial de semicondutores gere cerca de US$ 1 trilhão por ano e, segundo ele, inovações na arquitetura dos GPUs são mais necessárias do que construir uma nova cadeia de suprimentos de chips para AI.
Se isso faz sentido ou se Sam Altman realmente irá conseguir captar tamanha quantia, apenas o tempo dirá.
Mas é importante se ater ao fato de que o simples interesse na construção de tamanha infraestrutura mostra o quão ambiciosos são os planos da OpenAI e o quão poderosos esses modelos de AI ainda ficarão.
Se essas expectativas forem concretizadas, o impacto será enorme.
Vamos acompanhar a situação e trazer atualizações.
Indicações
NotesGPT
Transforme gravações de voz em anotações organizadas utilizando essa ferramenta de AI.
Chat With RTX
Construa seu chatbot de AI personalizado e que roda em seu próprio computador com esse novo modelo da Nvidia.
Dica de Uso
Uma ótima forma de aprender sobre novos assuntos é usando jogos.
E com o prompt abaixo, é possível fazer com que as AIs, como o ChatGPT, Claude e Bard, criem jogos de aventura educativos e personalizados pra você.
Dá só uma olhada:
Na sua AI de preferência - eu recomendo o Bing/Copilot ou o ChatGPT plus - você vai escrever o seguinte comando:
"Vamos jogar um jogo de RPG baseado em escolhas para eu aprender sobre [insira tema que quer aprender]. Você é o mestre do jogo e eu sou o jogador.
- Seja criativo na condução do jogo e prenda minha atenção.
- Faça eu tomar decisões que requerem que eu reflita sobre o conteúdo que estou aprendendo.
- Deixe-me tomar essas decisões por conta própria.
- Penalize-me ou me faça perder caso tome decisões erradas e me recompense por decisões acertadas
- O jogo deve ser [insira nível de dificuldade desejado], desafiador e educativo"
Enviando o comando, você começará a jogar o jogo, a história se desenvolverá e você tomará decisões enquanto aprende sobre o tema.
Esses jogos são ótimos para todas as idades, basta modular o nível de dificuldade, e eles tornam o processo de aprendizado muito mais fluido.
Fique a vontade para modificar o comando que usei e criar os jogos que mais fazem sentido para você.
Pensamento do Dia
“We are on the edge of change comparable to the rise of human life on Earth.”
- Vernor Vinge
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até segunda!