#82 Novo Modelo de Geração de Imagens Superando Todos os Concorrentes, ChatGPT Search Disponível e Mistral AI Alcançando GPT-4o e Claude 3.5
Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!
Peço desculpas por termos estado um pouco ausentes e não entregando conteúdos com a mesma frequência. Estamos passando por algumas mudanças (positivas) internas e organizando tudo para que ano que vem possamos entregar ainda mais valor a vocês!
De qualquer maneria, demos sorte em nos ausentarmos justamente em um período menos intenso de novidades no campo das AIs, então está fácil de recapitular tudo de mais importante.
Sem mais enrolação, a edição de hoje está cheia de assuntos interessantes e relevantes! Os temas de hoje são:
Novo modelo de geração de imagens superando todos os concorrentes; ChatGPT Search disponível; Novo modelo de AI alcançando GPT-4o e Claude 3.5; Gere artigos “estilo Wikipedia”com AI; Aprenda qualquer coisa com essa AI do Google.
News
Novo modelo de geração de imagens superando todos os concorrentes
Um novo modelo de geração de imagens com Inteligência Artificial acaba de ser lançado e superar todos os modelos do mercado.
O seu nome é Recraft V3 e ele foi desenvolvido pela Recraft, startup de AI inglesa fundada em 2022.
O modelo é capaz de gerar imagens a partir de comandos de texto ou outras imagens e faz isso melhor que qualquer outra AI.
A qualidade das imagens geradas pelo Recraft V3 é realmente impressionante e isso fica evidente quando ele é testado no principal benchmark do mercado. Ele obteve uma pontuação ELO de 1172 no Hugging Face Text to Image.
Com essa pontuação, ele assumiu a primeira posição no ranking mais importante do campo, ficando na frente de modelos como Midjourney v6, Ideogram 2.0, Flux 1.1 e DALL-E 3.
E o modelo se destaca frente aos demais em quatro áreas específicas:
Geração de Texto: o modelo é capaz de gerar longos, legíveis e precisos textos em suas imagens, não só algumas palavras - o que é incrível.
Precisão Anatômica: o Recraft V3 gera imagens altamente precisas anatomicamente, ou seja, com um número adequado de dedos, mãos e pernas, proporções corporais realistas, coerência espacial dentro da cena e posicionamento natural dos objetos do fundo em relação ao objeto principal.
Alinhamento ao Prompt: ele também segue os comandos do usuário melhor que qualquer outro modelo, alinhando as imagens geradas com o que foi pedido.
Valor Estético: por fim, o modelo também supera os outros na “beleza” das imagens que gera - uma área até então liderada pelo Midjourney.
Além de gerar imagens com alta qualidade, o Recraft V3 também vem conectado a uma série de ferramentas criativas.
Isso, pois o objetivo da Recraft é garantir que criadores tenham total controle sobre a AI.
Assim, na plataforma da Recraft, os usuários podem utilizar o novo modelo e as seguintes ferramentas de design:
Controle de Posicionamento e Geração de Designs Gráficos: com essa ferramenta é possível escolher a posição exata de textos e imagens no design que será gerado por AI:
Controle de Estilo: é possível gerar imagens que seguem um estilo específico, basta enviar algumas amostras nesse estilo para o modelo se inspirar. Isso é ótimo para manter o branding em materiais de marketing.
AI Eraser: serve para remover elementos indesejados das imagens de forma automática.
Modify Area: permite editar regiões específicas da imagem sem afetar o restante.
Inpainting e Outpainting: podem ser usados para preencher ou expandir imagens mantendo a continuidade e coerência visual.
AI Mockuper: para a criação de mockups realistas, como imagens em camisetas, canecas, etc.
Creative and Clarity Upscalers: esse recurso melhora a resolução e os detalhes de qualquer imagem com AI.
AI Fine-Tuning: para uma personalização mais avançada que o “Controle de Estilo”, é possível treinar um modelo com imagens especificas.
Background Remover: por último, com essa ferramenta, o usuário pode remover o fundo de imagens com AI.
Bem legal ne? Se você costuma utilizar outras ferramentas de AI para gerar imagens, eu recomendo que você teste o Recraft V3. Ele não é perfeita e ainda falha para alguns comandos, mas é uma excelente alternativa aos outros modelos e ferramentas do mercado.
É bem impressionante ver modelos como este e o FLUX, da Black Forest Labs, que surgem “do nada” e assumem a liderança. Isso mostra que a cena dos modelos de AI está longe de estar consolidada e muitos concorrentes de impacto ainda estão por surgir.
E para utilizar o Recraft V3 você pode acessar a plataforma web da empresa, baixar o aplicativo para Android e para iOS ou acessar por meio da API.
ChatGPT Search disponível
No fim de Julho deste ano a OpenAI lançou o primeiro protótipo de sua ferramenta de busca.
Na época chamado de SearchGPT, ele foi disponibilizado para que um pequeno e seleto grupo de usuários o testassem.
Desde o início, a ideia da ferramenta de busca foi competir diretamente com o Google e com empresas, como Perplexity e Microsoft (Bing), que já incorporaram AI em suas pesquisas há vários meses. Um plano bem ambicioso, mas tangível considerando que se trata da OpenAI.
E o sucesso dessa empreitada sempre dependeu muito da qualidade das repostas que ela fornece ao usuário e como isso se compara com a experiência tradicional de busca.
Há três meses não tínhamos como avaliar esses dois fatores, mas, finalmente, o ChatGPT Search (não mais SearchGPT) está lançado para mais usuários.
Dito isto, vamos ver como ele funciona em detalhes.
Como mencionei na newsletter de Julho, a nova ferramenta de busca da OpenAI funciona como qualquer outra que use Inteligência Artificial: você faz a pergunta, o modelo pesquisa na internet por você e te responde com base nas informações mais relevantes que encontrou, basicamente fazendo um “resumo” de tudo.
Ela fica dentro do ChatGPT e para ativá-la basta clicar no botão “Search” antes de enviar sua mensagem.
Uma vez que você envia seu prompt com o “Search” ativo, a ferramenta irá buscar na internet e, após alguns segundos, gerar uma resposta com base no que encontrou.
A resposta gerada pode exibir imagens e vídeos relacionadas à busca do usuário, gerar recursos visuais, como gráficos de preços de ações, quadros com a previsão do tempo da semana, resultados de jogos esportivos ou mapas, e, claro, indicar links de artigos e sites que usou para gerar suas respostas.
Clicando em fontes, o usuário pode ver todos os links que foram citados e outros links relacionados a busca.
Nada muito diferente das outras ferramentas de busca que usam AI, mas eu gostei da experiência de utilizá-la.
As suas gerações são muito melhores do que os “AI Overviews” do Google, mas bem comparáveis as da Perplexity AI - por enquanto é uma questão de preferência.
Eu diria que o maior obstáculo para substituir as buscas que fazemos no Google pelo ChatGPT é o hábito. Então, para avaliar melhor a experiência nessa nova ferramenta da OpenAI, vou exercitar fazer no ChatGPT as buscas que eu normalmente faria no Google e ver os resultados.
Se você é assinante do ChatGPT Plus ou Teams, pode fazer o mesmo, pois o ChatGPT Search já está disponível para você. Mas se você não assina a plataforma, terá que aguardar um pouco para ter acesso a ela.
De qualquer maneira, a OpenAI também lançou uma extensão do Chrome que, uma vez instalada, permite que toda busca que o usuário faz na barra de pesquisa seja redirecionada diretamente para o ChatGPT.
Uma ideia muito inteligente por parte da empresa para “roubar” as pesquisas do Google. Mas não sei se muitos usuários estão prontos para fazer essa troca completa. Se quiser experimentar é só clicar aqui.
O ChatGPT Search tem potencial, mas ainda é um pouco falho e incompleto.
As vezes, ele gera respostas incorretas - apesar da sua taxa de acerto ser alta - e a OpenAI planeja implementar melhorias na busca em áreas que envolvem viagens e compras e usar modelos com maior raciocínio, como o o1, para fazer pesquisar mais aprofundadas.
Estou ansioso para ver como essa ferramenta vai se desenvolver. Vamos acompanhar e trazer novidades.
Novo modelo de AI alcançando GPT-4o e Claude 3.5
A Mistral acaba de lançar um modelo de AI multimodal no mesmo nível dos principais modelos do mercado.
Para quem não se lembra, a Mistral AI é uma start-up francesa fundada por ex-funcionários do DeepMind e da Meta no ano passado.
No meio deste ano, a empresa lançou o Mistral Large 2, um modelo de código aberto com capacidades compatíveis às de modelos como GPT-4o, Claude 3.5 Sonnet, Gemini 1.5 Pro e Llama 3.1 405b.
Apesar do modelo ser muito bom, ele não era multimodal. Isso significa que ele só era capaz de interpretar textos para gerar suas respostas - o que é uma limitação significativa.
No entanto, esse problema acaba de ser resolvido.
A empresa anunciou nesta semana o seu novo modelo de Inteligência Artificial, o Pixtral Large.
O modelo mantém todas as capacidades do Mistral Large 2, mas agora é capaz de interpretar imagens.
Ele tem 123 bilhões de parâmetros e uma janela de contexto de 128 mil tokens, sendo capaz de entender, pelo menos, 30 imagens de alta resolução de uma só vez.
E o Pixtral Large faz isso com uma qualidade muito alta - conseguindo analisar gráficos, tabelas, equações e documentos complexos.
Quando comparado com os outros modelos de AI nos principais testes de “visão” do mercado, o Pixtral alcançou uma performance muito alta. Ele superou todos os concorrentes, incluindo GPT-4o e Claude 3.5 Sonnet, no MathVista, MM-MT-Bench, DocVQA e VQAv2, enquanto se manteve competitivo nos demais testes.
Um desempenho realmente muito bom.
O modelo, assim como o Mistral Large 2 é open source, podendo ser baixado por aqui ou acessado via API por aqui.
Você também pode acessar o modelo pelo Le Chat, que é como o ChatGPT da Mistral.
O Le Chat existe há algum tempo, mas ele era bem simples e só permitia que o usuário conversasse com os modelos da Mistral.
Contudo, recentemente, a mistral começou a investir na interface de chat, assim como investiu em seus modelos, e lançou junto com o Pixtral uma série de atualizações na plataforma.
Essas atualizações tornam o Le Chat uma ferramenta muito competitiva frente ao ChatGPT, Claude e Gemini. Vou te explicar porque.
O Le Chat, além de permitir que o usuário interaja com o Pixtral Large, um dos melhores modelos de AI do mundo, possui as seguintes funcionalidades:
Pesquisa na Web: assim como o ChatGPT Search, que falamos acima, ele consegue realizar pesquisas na internet e trazer fontes. Apesar de ser uma boa funcionalidade, a qualidade ainda é bem inferior à do ChatGPT ou Perplexity.
Canvas: essa funcionalidade é muito legal. Ela é uma junção dos Artifacts, do Claude, com o Canvas do ChatGPT - permite que o usuário gere ou edite textos e códigos em uma tela lateral, enquanto vê em tempo real o resultado de suas modificações.
Compreensão de documentos e imagens: usando das capacidades do Pixtral, o usuário pode enviar imagens e documentos para a AI analisar e responder perguntas sobre.
Geração de imagens: é possível gerar imagens usando um dos melhores modelos do mercado, o FLUX Pro, da Black Forest Labs.
O melhor é que tudo isso é gratuito e aberto a todos. Então eu recomendo que você teste a ferramenta e explore os seus limites.
Para acessar é só clicar aqui.
A Mistral AI vem crescendo rápido e podemos esperar por mais novidades interessantes em breve.
Indicações
Storm
Gere artigos “estilo Wikipedia” sobre o assunto que quiser (com referências).
Learn About
Aprenda qualquer coisa com essa nova ferramenta de AI do Google. Ainda não disponível no Brasil, mas pode ser acessada usando VPN
Dica de Uso
Refine suas ideias e melhore seus argumentos usando o ChatGPT.
Para isso, basta usar o prompt que eu irei passar e o chatbot da OpenAI agirá como um parceiro de debate intelectual, te conduzindo em um diálogo socrático:
Estou [escrevendo um artigo de faculdade] sobre [o assunto que você estiver interessado]. Por favor, entreviste-me sobre minhas ideias, guiando-me por uma série de perguntas direcionadas (uma de cada vez) para me ajudar a:
Desenvolver uma tese clara e discutível que aborde a tarefa;
Incorporar visões opostas e considerar perspectivas diversas;
Sintetizar meus pensamentos iniciais com novos insights para tornar meu argumento mais completo.
Substitua o que está entre colchetes pelo o que faz sentido na sua situação e pronto. Teste e adapte o prompt para que fique ainda melhor para o seu caso!
Pensamento do Dia
Por mais que estejamos em um momento de avanços mais incrementais no campo das AIs, devemos lembrar sempre que os desenvolvimentos tecnológicos, em sua maioria, acontecem em saltos. Sendo assim, com as evidências que temos, é razoável prever que estamos na iminência do próximo grande e impressionante avanço.
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!