#74 Ideogram 2.0 Lançado, o Projeto Secreto da OpenAI e 3 Novidades de AI do Google
Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!
A edição de hoje está cheia de assuntos interessantes e relevantes! Os temas de hoje são:
Ideogram 2.0 lançado; O projeto secreto da OpenAI; 3 Novidades de AI do Google; Transforme textos em elementos visuais com AI; Crie histórias completas em vídeo com AI.
News
Ideogram 2.0 lançado
Talvez você conheça e já tenha até utilizado a AI de uma empresa chamada Ideogram.
Sediada em Toronto, Canadá, a empresa lançou o seu primeiro modelo de geração de imagens com Inteligência Artificial em agosto do ano passado.
O modelo levava o mesmo nome da startup, Ideogram, e foi um sucesso na época.
Esse sucesso se deu por alguns fatores: qualidade das imagens que o modelo gerava, gratuidade de acesso, poucos modelos concorrentes na época (DALL-E 3 nem tinha sido lançado ainda) e sua capacidade de gerar textos legíveis dentro das imagens.
No entanto, novos, melhores e acessíveis modelos foram lançados nos meses subsequentes e a Ideogram foi, aos poucos, perdendo relevância.
Pelo menos até agora…
Tudo indica que os tempos áureos podem estar prestes a retornar - ela acaba de lançar um novo modelo de geração de imagens, o Ideogram 2.0.
O modelo é capaz de gerar imagens a partir de prompts de texto e a partir de outras imagens. Ele é uma grande evolução em relação a versão anterior e se coloca novamente, em vários aspectos, no mesmo nível dos principais modelos atuais, como Midjourney e FLUX.1.
O Ideogram 2.0 consegue criar imagens de alta qualidade, em vários estilos - de realismo a animação -, como você pode ver nos exemplos que coloquei aqui e nos que estão no site da empresa.
Em comparação com os outros modelos do mercado, apesar dessa avaliação envolver alguma subjetividade, o modelo superou seus concorrentes em alinhamento de prompt (ou seja, o quão fiel a imagem gerada é em relação ao comando do usuário) e em geração de textos dentro das imagens, além de ser preferida no geral pelos avaliadores.
E olha a diferença entre o modelo 1.0 e o 2.0:
Sobre a geração de textos nas imagens, essa capacidade do Ideogram 2.0 é realmente muito impressionante. O modelo consegue gerar grandes quantidades de texto, mantendo a legibilidade e a fidelidade ao texto solicitado. Se já era incrível antes, agora é ainda mais.
E isso é excelente para quem quer utilizar AI para gerar banners, capas de livros e filmes, thumbnails do YouTube, postagens para redes sociais, diagramas visuais, logotipos, estampas para vestuário e muito mais.
Junto com o lançamento do novo modelo, a Ideogram anunciou algumas funcionalidades na ferramenta de geração de imagens dentro de sua plataforma:
Customização de estilo: com essa nova função é possível escolher entre vários pre-sets de estilos distintos, como Realista, Design, 3D e Anime. Esses estilos têm uma influência significativa na geração da imagem e podem melhorar bastante o resultado final se utilizados corretamente.
Escolha de paleta de cores: agora o usuário também pode escolher entre uma gama de paletas de cores que deseja que sua imagem siga. O que é ótimo para criar materiais de marca ou evocar uma atmosfera específica.
Proporção das imagens: além disso, agora as imagens podem ser geradas em qualquer proporção entre 3:1 e 1:3 - basta o usuário selecionar dentre as várias disponíveis.
Melhoria no Magic Prompt e Describe: finalmente, estes dois recursos foram bastante aprimorados. Para quem não conhece, o Describe é uma funcionalidade que descreve detalhadamente qualquer imagem que você envia e o Magic Prompt é um gerador/melhorador de prompts. É possível utilizá-los de forma combinada para criar prompts completos e de qualidade.
No geral, novidades bastante úteis, que tornam o processo de geração de imagens mais simples e customizado.
Além dessas atualizações, agora também é possível pesquisar imagens dentro da plataforma do Ideogram - o que é útil para quando você não quer gerar uma imagem do zero ou deseja buscar inspirações.
Para acessar o novo modelo no site do Ideogram, é só clicar aqui - você terá 10 créditos por dia para gerar imagens. Caso queria gerar mais imagens, é necessário assinar algum dos planos pagos, que variam de 8 a 60 dólares por mês e dão acesso a recursos extras, como alguns dos que eu citei acima.
Também é possível acessar o Ideogram 2.0 pelo novo aplicativo para iOS da empresa e via API.
Com dois lançamentos de modelos de geração de imagens de ponta no mesmo mês, é bom ver que a cena está novamente aquecendo e que o Midjourney enfim está ganhando concorrentes de verdade.
O projeto secreto da OpenAI
Desde a demissão de Sam Altman da OpenAI, vários rumores sobre um “projeto secreto” da empresa começaram a circular.
Nós comentamos sobre isso na época. O tal projeto era referido como Q*.
Acreditava-se que o Q* (se pronuncia Q-star) era uma técnica desenvolvida dentro da OpenAI que iria ampliar significativamente as capacidades cognitivas dos modelos de AI.
Muitos, inclusive, acreditam que os resultados impressionantes desta nova técnica ativaram o “alerta vermelho” em muitos funcionários, como Ilya Sutskever, que acabaram por deixar a empresa - mas não há nenhuma confirmação sobre isto.
Fato é que alguns meses se passaram e os rumores de Q* esfriaram.
Mas, recentemente as conversas sobre este projeto voltaram tona. Nesta semana, o jornal The Information trouxe informações exclusivas sobre ele, que agora é chamado de Strawberry.
Deixando essa confusão de nomes um pouco de lado, finalmente temos um pouco mais de detalhes sobre esse projeto Q*/Strawberry e sobre o que esperar da OpenAI para o restante do ano.
Bom, então do que se trata esse projeto da OpenAI e por que ele é importante?
O Q*/Strawberry, é reportado como uma abordagem inovadora que busca combinar técnicas avançadas de aprendizado de máquina para melhorar significativamente a capacidade de raciocínio e análise dos modelos de AI.
O nome “Q*” é especulado como uma referência a uma combinação de técnicas tradicionais de AI: o Q-learning, que é uma forma de aprendizado por reforço, e a busca A* (A-star), um algoritmo usado para encontrar o caminho mais curto em um grafo.
Mas não é apenas isso, tudo indica que o Strawberry aumenta o tempo de inferência dos modelos, o que significa que ele fica mais tempo “pensando” antes de gerar uma resposta ou tomar uma decisão.
Mas por que aumentar o tempo de resposta? Isso não tornaria a experiência do usuário pior?
Eu gosto de pensar nisso como o “Sistema 1” e “Sistema 2” do livro Rápido e Devagar, de Daniel Kahneman. O Sistema 1 corresponde a um pensamento rápido e intuitivo, enquanto o Sistema 2 envolve um processamento mais lento, deliberado e analítico. Nós costumamos sempre usar o Sistema 1 como padrão, o que nos poupa energia para resolver tarefas simples, mas nos faz tomar muitas decisões ruins em tarefas mais complexas. Os modelos de AI funcionam de forma parecida.
Assim, integrando essas abordagens aos modelos e aumentando o seu tempo de inferência, é possível que as AIs “ativem seu Sistema 2” ampliem seu raciocínio.
Um modelo que utiliza do Q*/Strawberry se torna capaz de realizar raciocínios mais avançados e melhorar a resolução de problemas matemáticos difíceis, planejamento estratégico e execução de tarefas complexas.
Segundo o The Information, em demonstrações internas, o Strawberry conseguiu resolver o quebra-cabeça “Connections” do New York Times, que requer habilidades de associação avançada e pensamento estratégico.
Além disso, o modelo teve um desempenho incrível no benchmark MATH, obtendo mais de 90% (o melhor resultado neste teste é de 76,6%, atingido pelo GPT-4o).
Mas ele não se limita a resolver quebra-cabeças e questões matemáticas, a ideia é que sua habilidade de planejamento e raciocínio complexo seja utilizada para a realização de pesquisas autônomas na internet, permitindo que a AI conduza tarefas elaboradas de forma independente.
De forma geral, essa técnica seria útil para resolver qualquer questão que demande muita reflexão e análise.
Certo, mas a grande questão é sobre quando teremos acesso a esses avanços.
O Strawberry já foi apresentado a autoridades do governo dos EUA e a previsão é que um modelo que utilize da nova técnica seja lançado e disponibilizado no ChatGPT até novembro deste ano.
No entanto, é esperado que uma versão um pouco mais simplificada do Q*/Strawberry seja lançada primeiramente. Isso, pois essa abordagem requer muito poder computacional - um recursos muito caro e escasso.
Pode até ser que este seja um dos motivos desse projeto estar demorando a ser disponibilizado.
Enquanto isso, o Strawberry está sendo usado para gerar dados de alta qualidade para o treinamento de um novo modelo em desenvolvimento que é referido internamente como “Orion” - um novo modelo de linguagem que deve ser chamado futuramente de GPT-5 ou 6.
Em suma, temos muitos nomes e rumores que ainda carecem de futuras comprovações.
Apesar de não podermos levar nenhuma destas informações como fatos absolutos, tudo indica que a OpenAI está aprimorando o raciocínio de seus modelos, o que será fundamental para levá-los ao próximo nível (AGI).
Espero que possamos testar esses avanços o mais rápido possível e trarei novas informações sobre o assunto assim que as tivermos.
3 Novidades de AI do Google
O Google anunciou e prometeu uma série de novidades que tratou brevemente no Google I/O deste ano.
Diferentemente da OpenAI, gradualmente ele vem disponibilizando essas novidades de maneira ampla para o público - talvez por estar correndo atrás do prejuízo.
Uma dessas novidades já disponibilizadas foi o Gemini Live, que foi lançado na semana passada e nós falamos sobre.
Nesta semana, mais outras duas novidades previamente anunciadas estão sendo lançadas e podemos falar delas com mais precisão e detalhamento. Essas novidades são o Imagem 3 e os Gems.
Então hoje vamos falar delas e também de uma nova versão do Gemini 1.5 que foi lançada recentemente.
Gems
O Google está lançando a sua versão dos GPTs, da OpenAI.
O Gems é uma função que estará disponível apenas para assinantes dos planos pagos do Gemini (chatbot de AI do Google) - Advanced, Business e Enterprise - e permitirá que esses usuários criem assistentes personalizados para fins específicos.
Assim como os GPTs, basta fazer upload dos documentos que você deseja que sejam a “base de conhecimentos” do assistente e definir como ele dele se comportar por meio de instruções customizadas.
O Google já até oferece alguns pré-prontos para os usuários utilizarem, são eles: Coach de Aprendizado, Brainstormer, Guia de Carreira, Editor de Escrita e Parceiro de Programação.
Esses assistentes são bastante simples, consistem apenas em uma instrução customizada, mas podem ser úteis e servir como um contato inicial para quem nunca experimentou um GPT.
Mas como os Gems se comparam com os GPTs?
Apesar do Gems serem muito novos e nos não termos dados de uso suficientes para avaliar, eu posso citar algumas vantagens e desvantagens evidentes.
Um das vantagens do Gem é que ele permite fazer o upload não só de documentos de texto para serem usados como contexto pelo assistente - também é possível enviar documentos de áudio e até fotos. Isso é muito interessante.
Além disso, dois pontos positivos do Gem decorrente das características do próprio Gemini é o fato dele se conectar aos apps do Google Workspace, obtendo informações específicas ou contextuais sobre você e seus dados, e de ter uma janela de contexto de 1 milhão de tokens, quase 10 vezes maior que a do ChatGPT.
No entanto, eu prefiro a usabilidade e a qualidade do ChatGPT em relação a do Gemini, o que é um ponto negativo do Gem para mim e pode ser que você concorde comigo.
Por último, outra desvantagem do Gem é que ele só pode ser usado por usuários pagantes, enquanto no ChatGPT todos podem utilizar os GPT (só a criação é um recurso exclusivo dos assinantes).
No geral, se você assina o Gemini Advanced, te recomendo experimentar. Se não, eu não vejo tanto sentido assim.
Imagen 3
O Imagen 3 é capaz de gerar imagens de alta qualidade e extremamente realistas. Além disso, o modelo melhorou muito sua capacidade lidar com textos nas imagens em relação ao Imagen 2.
Eu já experimentei esse modelo quando ele ainda estava em período de teste e realmente gostei da qualidade.
De acordo com o relatório técnico do modelo, o Google observou que, em um teste cego, a maior parte das pessoas que preferiu as imagens geradas pelo novo modelo às geradas pelos outros modelos de imagem do mercado, como DALL-E 3 e Midjourney v6 (FLUX.1 e Ideogram 2.0 não existiam na época do teste).
É uma performance bem significativa e agora as pessoas poderão testá-lo na prática.
Gemini 1.5
A última novidade é que o Google acaba de lançar uma atualização para os seus modelos de AI Gemini 1.5 Pro e Flash.
Essa atualização não traz nenhum salto grande de qualidade, mas sim melhorias gerais no desempenho deles.
Assim, o Gemini 1.5 Pro teve o seu desempenho melhorado em respostas a prompts complexos e em tarefas que envolvem programação. Enquanto o Gemini 1.5 Flash, versão mais leve e eficiente do Gemini 1.5, melhorou como um todo, em quase todos os beckmarks.
Essa melhoria na versão Pro, o colocou novamente em segundo lugar no LMSYS Chatbot Arena - uma plataforma feita para testar e comparar e ranquear o desempenho dos chatbots de AI em diversas tarefas -, estando atrás apenas do GPT-4o.
Estes modelos podem ser acessados por meio da API Gemini e do Google AI Studio (se você nunca acessou essa plataforma, recomendo que experimente, pois é muito boa para trabalhar com longos documentos) pelos nomes “gemini-1.5-pro-exp-0827” e “gemini-1.5-flash-exp-0827” respectivamente.
Com isso, fechamos as novidades do Google, que tem mantido uma consistência legal de lançamentos e aos poucos alcançando seus concorrentes (será?).
Indicações
Napkin AI
Gere representações visuais a partir de qualquer texto utilizando essa AI.
LTX Studio
Crie vídeos que contam histórias completas com Inteligência Artificial. Agora sem lista de espera.
Dica de Uso
As AIs estão transformando a área da programação.
Seja auxiliando os programadores ou programando de forma autônoma - como Devin e Genie fazem -, elas estão acelerando muito a criação de software.
Mas não se limita a isso.
As AIs estão possibilitando que pessoas que não programam, sejam capazes de criar aplicações elaboradas em uma velocidade impressionante. Não acredita em mim, veja esse vídeo de uma menina de 8 anos utilizando uma ferramenta chamada Cursor para programar seu próprio chatbot.
É incrível o que está sendo possível fazer conectando AIs como o Claude 3.5 Sonnet com editores de código.
Então se você não programa e tem vontade de criar algo, eu te incentivo a experimentar, porque essa é a melhor época para isso.
Para começar, experimente pedir para o Claude gerar algo pra você usando os Artifacts. Itere até chegar a algum resultado satisfatório.
Depois tente colocar o código que ele gerar em um editor e publique. Não sabe como fazer? Vá perguntando pra AI, com certeza ela te ajudará muito se você tiver paciência e fizer boas perguntas!
Pensamento do Dia
“Generative AI is a step towards reducing the cost of intelligence, and it will further reduce it to zero.”
- Ian Beacraft
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!