#72 Midjourney Superado por Novo Modelo de AI, Primeiro Cientista de AI Autônomo, Atualizações Sobre a OpenAI e Novo Engenheiro de Software de AI Lançado
Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!
A edição de hoje está cheia de assuntos interessantes e relevantes! Os temas de hoje são:
Midjourney superado por novo modelo de AI; Primeiro cientista de AI autônomo; Atualizações sobre a OpenAI; Notícia Bônus: novo engenheiro de software de AI lançado e superando todos do mercado; Gere páginas de vendas para dropshipping automaticamente com AI; Acesse o marketplace de soluções com AI.
News
Midjourney superado por novo modelo de AI
Midjourney e DALL-E 3 acabam de ser superados por um novo modelo de geração de imagens com Inteligência Artificial.
O modelo se chama FLUX.1 e foi criado pela Black Forest Labs.
Se você não está se lembrando desse laboratório de AI, é porque ele sequer tinha sido anunciado publicamente quinze dias atrás.
O Black Forest foi recém fundado por alguns dos melhores e mais renomados pesquisadores de AI do mundo - sendo que, dentre eles, estão ex-funcionários da Stability AI, responsáveis por criar o Stable Diffusion (até então, o principal modelo de geração de imagens de código aberto).
A empresa já recebeu cerca de 31 milhões de dólares em uma rodada liderada pela grande firma de capital de risco, Andreessen Horowitz (a16z). E sua principal missão é desenvolver e avançar modelos de geração de imagens e vídeos e torná-los acessíveis para o máximo de pessoas.
O FLUX.1, um modelo de geração de imagens a partir de comandos de texto, é o primeiro lançamento da empresa.
Ele vem para competir com AIs consolidadas no mercado, como Midjourney e DALL-E 3 e não é exagero dizer que, em tão pouco tempo, ele já está dando trabalho para os seus concorrentes.
Mas antes de falar de suas capacidades, vamos entrar em alguns detalhes técnicos importantes.
A Black Forest Labs criou o FLUX.1 em três versões:
FLUX.1 [pro]: o modelo principal da empresa, que oferece o melhor desempenho em geração de imagens. Essa versão não tem código aberto.
FLUX.1 [dev]: uma versão “reduzida” e de código aberto do FLUX.1 [pro] - pode ser utilizada para aplicações não comerciais e tem uma qualidade similar a da versão principal com maior eficiência.
FLUX.1 [schnell]: uma versão menor ainda do que a Dev, projetada para ser muito rápida e eficiente - para uso pessoal e para rodar em localmente em computadores. Ele também tem código aberto e pode ser utilizada comercialmente.
Basicamente, uma versão principal (provavelmente a que você usará) e duas versões menores para desenvolvedores que querem criar algo a partir dela ou utilizar localmente de forma barata e veloz.
Feita essa explicação, vamos finalmente falar das capacidades do modelo.
Como você pode ver pelas imagens que coloquei aqui e nesses outros exemplos, a qualidade é realmente muito impressionante.
De realismo à animação, o modelo é capaz de gerar imagens de altíssimo nível.
Visualmente, aparenta ser melhor ou estar no mesmo nível dos principais do mercado. E quando testado em vários benchmarks, isso se prova verdadeiro.
O FLUX.1 [pro] e o FLUX.1 [dev] superam modelos de fronteira como Midjourney v6.0, DALL·E 3 (HD) e Stable Diffusion 3 Ultra em cada um dos seguintes aspectos:
Qualidade Visual;
Fidelidade ao Prompt;
Variabilidade de Tamanho/Aspecto;
Tipografia;
Diversidade de resultados.
Em resumo, gera imagens melhores, mais criativas, mais variadas e mais fieis ao que foi pedido pelo usuário.
E vale mencionar que as imagens podem ser geradas em diversos formatos (vertical, horizontal, quadrada, etc) e em resoluções que podem ir de 0.1 até 2 megapixels.
Esse modelo criado pela Black Forest Labs é realmente incrível e a melhor parte é que você pode testar sua principal versão gratuitamente pela Fal.ai ou a um baixo custo via API da Black Forest ou Replicate.
Para acessar e baixar as versões Dev e Schnell, você pode entrar, respectivamente, aqui e aqui.
Vale muito a pena experimentar esse novo modelo.
O próximo passo da Black Forest Labs é desenvolver um modelo estado da arte de geração de vídeo e, assim como fizerem com o FLUX.1, torná-lo amplamente acessível.
Imagino que eles já estejam trabalhando nisso, então vou acompanhar de perto e trazer atualizações em breve.
Primeiro cientista de AI autônomo
Há um ano, nós falamos sobre uma nova startup de AI que estava sendo criada por dois ex-funcionários do Google. Ela tinha sede no Japão e seu nome era Sakana AI.
Os seus fundadores acreditavam que parte das limitações dos atuais modelos de AI vêm do fato de que eles estão sendo projetados como estruturas frágeis e imutáveis, como pontes ou edifícios. Em busca de um sistema mais flexível, adaptativo e “orgânico”, no seu novo laboratório de AI, eles se inspirariam nos sistemas naturais e utilizariam princípios de computação evolutiva para construir seus modelos.
Um bom tempo se passou e a empresa vem avançando em suas pesquisas.
Na newsletter de hoje, volto a falar dela para tratar de um novo experimento que a empresa acaba de publicar.
Em poucas palavras, a Sakana AI desenvolveu, em parceria com o Foerster Lab for AI Research da University of Oxford e Jeff Clune e Cong Lu da University of British Columbia, o “AI Scientist”, o primeiro sistema abrangente para descoberta científica totalmente automática.
O experimento foi relatado no novo artigo “The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery” e eu vou trazer tudo sobre ele a seguir.
O “AI Scientist” criado pela Sakana AI utiliza de vários grandes modelos de linguagem (LLMs) - como GPT-4o, Claude 3.5 Sonnet e Llama 3 - para realizar todas as etapas de uma pesquisa científica de forma autônoma, desde a concepção de ideias até a redação e revisão de artigos científicos.
No caso, nesse experimento, o “AI Scientist” focou em pesquisar no próprio campo de Inteligência Artificial, uma vez que seus experimentos envolvem a escrita de código e podem ser realizados por modelos de AI, sem necessitar a ajuda de humanos.
Para tornar isso possível, foi desenvolvido um sistema que segue um processo estruturado que pode ser resumido em quatro grandes passos:
Geração de ideias: o ponto de partida para qualquer pesquisa é a concepção de uma ideia com certo grau de inovação.
O “AI Scientist” inicia o processo de “brainstroming” gerando uma série de direções de pesquisa a partir de um código base inicial.
Utilizando o Semantic Scholar, o sistema explora a literatura existente, comparando suas ideias com o que já foi produzido, garantindo que as ideias selecionadas sejam verdadeiramente novas e relevantes.
Iteração Experimental: após a geração de uma ideia promissora, o “AI Scientist” passa para a fase de execução de experimentos. Nesta etapa, o sistema implementa o algoritmo proposto e conduz experimentos para validar as ideias geradas.
Durante esse processo, ele coleta dados numéricos e cria visualizações gráficas dos resultados obtidos. O objetivo é garantir que os experimentos forneçam uma base sólida para a conclusão científica.
Escrita do artigo científico: Com os dados coletados e analisados, ele avança para a redação do artigo científico. Utilizando o formato padrão de conferências acadêmicas, o sistema escreve o manuscrito completo em LaTeX, incluindo a introdução, metodologia, resultados, discussão e referências.
Durante esse processo o “AI Scientist” também realiza uma revisão de literatura para encontrar e citar artigos relevantes que contextualizem o novo trabalho dentro do corpo existente de conhecimento científico.
Revisão por pares automatizada: na última etapa, o sistema usa um modelo de AI para avaliar os artigos gerados com uma precisão que se aproxima da avaliação humana. Esse feedback serve para refinar o artigo atual e orientar futuras pesquisas - que podem ser feitas pelo próprio Cientista de AI.
Essas quatro etapas, quando combinadas, permitem que o “AI Scientist” realize todo o ciclo de descoberta científica de maneira autônoma.
Para testar o sistema do cientista autônomo que eles criaram, os cientistas do projeto o colocaram para atuar na prática e gerar quatro experimentos/artigos acadêmicos:
DualScale Diffusion: Adaptive Feature Balancing for Low-Dimensional Generative Models;
StyleFusion: Adaptive Multi-style Generation in Character-Level Language Models;
Unlocking Grokking: A Comparative Study of Weight Initialization Strategies in Transformer Models.
Você pode clicar em cada um deles para ler.
No geral, os artigos não chegaram a nenhuma grande descoberta, mas gerarem contribuições novas e relevantes para as suas áreas. Isso é totalmente normal para artigos gerados por humanos e é impressionante que um sistema de AI tenha chegado a tal ponto.
Sobre os custos, os pesquisadores afirmam que cada ciclo de produção de um artigo, do início ao fim, tenha custado cerca de 15 dólares - um valor extremamente baixo.
Ainda, é importante ressaltar que o sistema possui limitações. Uma delas é não possuir capacidades visuais, o que pode resultar em gráficos e tabelas mal formatados. Outra limitação é a possibilidade dele cometer erros críticos na implementação de algoritmos ou na análise dos resultados, como falhas na comparação de magnitudes numéricas.
Essas limitações devem ser mitigadas com o aprimoramento na arquitetura do sistema e com o avanço dos modelos de AI utilizados.
Com isso, a produção científica dá mais um passo rumo a sua automação - tanto no campo das AIs quanto em outras áreas da ciência. Mas não só isso, sistemas como o “AI Scientist” serão fortes aliados dos pesquisadores em suas tarefas.
Caso o ritmo se mantenha, podemos esperar uma efervescências de descobertas e avanços acadêmicos e produtivos nos próximos anos.
Vamos aguardar e trazer futuros desdobramentos sobre pesquisas autônomas com AI.
Atualizações sobre a OpenAI
Não é de hoje que a OpenAI tem decepcionado muitos de seus usuários. A empresa tem feito muitos promessas nos últimos meses, se envolvido em algumas polêmicas e entregado pouco para aqueles que consomem seus produtos.
O Sora até hoje não foi lançado, as funções multimodais do GPT-4o e o novo modo de voz até não foram disponibilizados de maneira ampla, o SearchGPT ainda está em um beta muito restrito e, o mais importante, ainda é aguardado o anúncio de um modelo realmente superior ao GPT-4.
É bem provável que algo grande esteja sendo desenvolvido pela empresa, mas há uma dissonância muito grande no que ela promete com o que ela vem entregando.
Bom, enquanto essa lentidão de entrega por parte da OpenAI não é resolvida, ainda temos algumas atualizações menores para fazer sobre a empresa e seus produtos. Então vamos a elas:
Fundadores deixando a empresa
Recentemente, a OpenAI viu a saída de dois de seus co-fundadores.
John Schulman, co-fundador e líder da equipe de treinamento por reforço da OpenAI, anunciou, no dia 6 desse mês, sua decisão de deixar a empresa.
Em sua nota, ele anuncia que também está se juntando à Anthropic - empresa de AI criada justamente por ex-membros da OpenAI. Ele diz que é uma decisão pessoal e que reflete o desejo de direcionar sua pesquisa para a área de alinhamento de AI.
Ao mesmo tempo, Greg Brockman, presidente e co-fundador da OpenAI, também postou que está deixando a empresa. Mas no seu caso, essa ausência será momentânea.
Ele está tirando uma licença sabática até o final do ano, visando se afastar um pouco do ritmo intenso de trabalho. Trabalho esse que ele já desempenha há 9 anos na empresa.
Com essas saídas, a OpenAI perde mais dois de suas grandes mentes, o que até nos leva a questionar se isso não prejudicará o ritmo e a qualidade do desenvolvimento de produtos por parte da empresa. Afinal, de seus 11 fundadores, apenas Sam Altman e Wojciech Zaremba permanecem com ela.
É algo a se pensar.
Longas respostas no GPT-4o
Há alguns dias, a OpenAI lançou uma versão experimental do GPT-4o chamada GPT-4o Long Output.
Essa nova versão permite que o modelo gere até 64 mil tokens em cada resposta - ou seja, gere até 50 mil palavras em uma só resposta. Essa novidade é ótima, já que a maior parte dos modelos anteriores estavam limitados a gerarem respostas de apenas 4 mil tokens e, mais recentemente, 16 mil tokens com o GPT-4o mini.
Com respostas maiores, novas aplicações surgem para os modelos de AI, como a geração de artigos/capítulos de livros inteiros, tradução completa de documentos extensos, geração de longas bases de código, etc.
Esse novo modelo está disponível via API e apenas para um número limitado de usuários sob o nome “gpt-4o-64k-output-alpha” (mas é possível que em breve ele esteja disponível amplamente). Devido ao maior custo de processamento para gerar essas saídas extensas, o preço por token foi ajustado: $6,00 por 1 milhão de tokens de entrada e $18,00 por 1 milhão de tokens de saída.
Respostas estruturadas e redução de custos no GPT-4o
Na última semana, a empresa introduziu uma nova versão do GPT-4o junto com o anuncio de uma nova funcionalidade - os “Structured Outputs”, permitindo que as respostas dos modelos em sua API sigam rigorosamente os JSON Schemas fornecidos pelos desenvolvedores.
Apesar dessa funcionalidade ser mais técnica, o que interessará a maioria é a redução de 50% no custo dos tokens de entrada e 33% nos de saída do GPT-4o em comparação com modelos anteriores.
Esses preços são relativos ao acesso via API e para usar essa versão econômica do modelo, basta selecionar o GPT-4o que leva o nome de gpt-4o-2024-08-06.
Essas são algumas das atualizações recentes envolvendo a OpenAI. Um pouco de drama interno e um pouco de novidades mais pontuais… É o que temos para o momento.
Notícia Bônus: novo engenheiro de software de AI lançado e superando todos do mercado
Lembra do Devin? O primeiro sistema de AI autônomo engenheiro de software que falamos aqui na newsletter?
Bom, ele era muito impressionante. Mas acaba de ser superado - e por muito - por um novo engenheiro de software de AI chamado Genie, criado pela empresa Cosine.
O sistema foi desenvolvido para funcionar e “pensar” como um programador humano. E os resultados dessa abordagem são realmente positivos e promissores.
Para ler mais sobre o Genie e entrar na lista de espera para experimentá-lo, basta clicar aqui.
Indicações
Page Pilot
Se você faz dropshipping, precisa conhecer essa ferramenta de AI. Ela cria páginas de venda e criativos automaticamente - tudo o que você precisa fazer é enviar o link do produto no Aliexpress ou Shopify.
Soverin
Marketplace para produtos e soluções com Inteligência Artificial.
Dica de Uso
Se você deseja que ferramentas de Inteligência Artificial sejam aplicadas de maneira mais ampla em sua empresa, você precisa criar um ambiente fértil para tal.
Isso significa incentivar e dar liberdade para os funcionários utilizarem as ferramentas, educá-los sobre como fazer isso com qualidade, financiar possíveis custos com as plataformas e premiar/promover aqueles que se destacarem.
O objetivo é criar um contexto no qual cada funcionário esteja sempre buscando automatizar o seu trabalho e torná-lo cada vez mais eficiente e estratégico.
Isso gera uma cultura positiva e amigável à inovação na empresa.
Pensamento do Dia
“In a world where ChatGPT and other AI apps can do many things humans once needed to do themselves or needed to hire other humans to do, the question of ‘how will I add value?’ becomes more relevant than ever.”
- Hendrith Vanlon Smith Jr
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!