#73 Grok-2 Lançado e Alcançando Concorrentes, Gemini Live - o Novo Modo de Voz do Google - e Avanço em AI que Realiza Ações

ago 22, 2024

Mais uma semana de avanços no universo das Inteligências Artificiais Generativas!

E, como aqui você não perde nada do que acontece, esta edição está recheada de assuntos interessantes e relevantes. Os temas de hoje são:

Grok-2 lançado e alcançando concorrentes; Gemini Live - novo chat multimodal do Google; MultiOn avança em sua AI que realiza ações; Tenha a AI lendo livros e artigos para você; Utilize um novo modelo de geração de videos com AI.

News

Grok-2 lançado e alcançando concorrentes

A xAI, startup de Inteligência Artificial de Elon Musk, acaba de lançar um novo modelo de AI para competir com os principais do mercado.

Como já falamos aqui, a empresa foi fundada a pouco mais de um ano e já arrecadou alguns bilhões de dólares em investimento. Desde sua fundação, a xAI já lançou o Grok-1, modelo de AI de código aberto que superou ligeiramente o GPT-3.5 Turbo, e o Grok-1.5, que se aproximou do GPT-4 em termos de capacidades, apesar de ainda ficar um pouco atrás.

Há algumas semanas, mencionamos que a startup estava trabalhando no desenvolvimento do seu próximo grande modelo de linguagem (LLM), o Grok-2.

E, finalmente, na última terça-feira, o lançamento do modelo foi anunciado pela empresa.

O Grok-2 é um modelo multimodal, capaz de interpretar, além de textos, imagens, mas apenas gerar textos como resposta. Sua janela de contexto (quantidade de informações que ele é capaz de processar de uma só vez) é de 128 mil tokens, assim como a do Grok-1.5.

Além disso, ele foi lançado em duas versões: o Grok-2 e o Grok-2 mini. A versão normal é a maior e mais poderosa, enquanto a versão mini é um pouco menor e menos capaz, porém mais barata, rápida e eficiente.

Já estamos acostumados com esse padrão, afinal, todos os principais modelos do mercado possuem suas versões “pesadas” e “leves” - como o GPT-4o/GPT-4o mini e o Gemini 1.5 Pro/Gemini 1.5 Flash.

Em termos de capacidades, ambas as versões do Grok-2 são evoluções significativas do Grok-1.5 em todos os âmbitos.

Quando comparado com os principais modelos do mercado nos principais benchmarks, o modelo se sai muito bem - apesar de não ficar em primeiro em quase nenhum dos testes, ele ficou entre os quatro primeiros em todos eles.

Grok-2 and Grok-2 mini benchmark scores : r/LocalLLaMA

O Grok-2 só ficou atrás do Claude 3.5 Sonnet nos testes de conhecimento científico de nível de pós-graduação (GPQA), com 56% de acerto, e de conhecimento geral (MMLU-Pro), com 75,5%. Além disso, o modelo se destacou em tarefas que envolvem capacidades de visão, atingindo a melhor pontuação, entre todos os modelos, no MathVista e no de respostas a perguntas baseadas em documentos (DocVQA).

De forma geral, ele se estabelece como um modelo no nível de GPT-4o, Claude 3.5 Sonnet e Gemini 1.5 Pro.

Vale lembrar que uma das grandes vantagens do Grok é o fato de estar conectado ao X (antigo Twitter), podendo buscar por informações em tempo real na rede. Isso é extremamente interessante, uma vez que abre a possibilidade, aos usuários, de gerar insights sobre temas atuais, observar tendências e responder de maneira extremamente atualizada.

Assim, um dos aspectos importantes que o Grok-2 melhorou em relação ao 1.5 foi a sua capacidade de seguir instruções e fornecer informações precisas e factuais - conseguindo identificar informações ausentes e descartar postagens irrelevantes (em sua pesquisa no X) com mais facilidade.

Sobre sua disponibilidade, o Grok-2 está disponível exclusivamente para os assinantes do X Premium e X Premium+, integrado diretamente à plataforma X. Então, infelizmente, não é possível usá-lo de forma gratuita.

Contudo, pela primeira, vez acredito que possa valer a pena assinar a rede do Elon Musk.

Isso, pois custa apenas 60 reais por mês - quase metade do ChatGPT Plus - e dá acesso ao Grok-2 (e suas capacidades de busca no X), ao FLUX (um dos melhores modelos de geração de imagens, que agora está conectado ao Grok) e a outros benefícios da própria rede social.

Mas acho que essa avaliação é bem pessoal, os outros chatbots também possuem vantagens específicas.

Por último, até o final do mês o Grok-2 estará disponível via API, permitindo que empresas integrem este novo modelo em suas próprias soluções.

De maneira geral, esse lançamento é bastante impressionante e mostra que o time da xAI tem desenvolvido rápido e com qualidade, entregando resultados e fazendo com que a empresa seja levada a sério nessa corrida das AIs Generativas.

Vamos ficar de olho nos próximos lançamentos e trazer aqui.

Gemini Live - novo chat multimodal do Google

O Google anunciou recentemente o lançamento do Gemini Live - a sua nova experiência de conversas por voz com o seu chatbot de AI.

O anuncio foi feito durante o evento “Made by Google 2024”, realizado na última terça (13). O foco do evento foi o lançamento de seu novo smartphone, o Pixel 9, mas como tudo hoje em dia gira em torno de AI, eles aproveitaram para falar da integração do aparelho com o Gemini - e lançar algumas novidades.

What Is Gemini Live and How Do You Use It? | WIRED

Assim, o Gemini Live foi novamente apresentado.

Novamente? Sim, se você acompanha nossa newsletter, já teve conhecimento sobre essa novidade em Maio deste ano, quando foi primeiramente anunciada no Google I/O.

Na primeira vez que ela foi anunciada, ainda não havia previsão de seu lançamento e o Google não tinha feito sequer uma demonstração ao vivo dela. Agora, a funcionalidade está lançada e já temos uma série de demos para avaliar.

Bom, mas afinal, o que é o Gemini Live?

O Gemini Live é a versão do Google do modo avançado de voz (Advanced Voice Mode) da OpenAI.

Assim como o da sua concorrente, ele propõe uma experiência de conversa extremamente fluida e natural, onde o usuário se comunica com a Inteligência Artificial da mesma maneira que faz com outro ser humano - podendo até interrompê-la.

O Gemini Live é uma função que se encontra no chatbot de AI Gemini, que é como o ChatGPT do Google (para aqueles que ainda não conhecem) e usa dos modelos da família Gemini.

Essa função foi demonstrada ao vivo no evento da semana passada, e você pode ver o vídeo clicando aqui.

Na demo, a apresentadora abre o Gemini Live, escolhe a voz de sua AI (dentre 10 opções disponíveis) e faz algumas perguntas, em uma espécie de brainstorming com a AI.

Gemini Live is finally available. Here's how you can access it (and why you'll want to) | ZDNET

À primeira vista, a nova função parece funcionar bem. O tempo de resposta é curto (o que é muito importante), a voz soa bastante humana e a conversa segue de maneira natural, sem atritos.

Mas a apresentadora não parecia disposta a levar a AI aos seus limites e testar de fato as suas capacidades. Sem interromper muito a AI, ela tem uma conversa bem básica.

Assim, não fica claro se a AI consegue perceber nuances da fala do usuário, como variações de tom e emoções - nem se ela consegue modular o seu comportamento a essa variação. Isso não significa que o Gemini Live não seja capaz de fazer tudo isso, nós só não temos informações para afirmar se ele faz e qual a qualidade disso - eu não consegui achar nenhuma demonstração que explorasse esses aspectos.

O da OpenAI, em contrapartida, percebe as variações da voz do usuário, modula o tom, volume e velocidade de sua voz de forma incrível e é capaz até de cantar.

Porém, uma vantagem do Gemini Live em relação ao Advanced Voice Mode é o fato dele conseguir acessar a internet durante a conversa e trazer informações atuais e relevantes - o que o torna bem mais útil para algumas tarefas.

E uma função legal que ambos possuem é a capacidade de funcionar no background ou com a tela bloqueada. Isso possibilita que o usuário continue conversando com a AI enquanto acessa outros aplicativos no celular ou caminha na rua com ele no bolso, por exemplo.

Sobre o acesso, o Gemini Live já está disponível para assinantes no Gemini Advanced e usuários de Android.

Por enquanto, ele só conversa em inglês, mas, muito em breve, mais linguagens serão adicionadas e ele também será disponibilizado em iOS.

Dessa vez, ponto para o Google, já que a OpenAI até hoje não disponibilizou o modo avançado de voz para boa parte de seus assinantes - o que é extremamente decepcionante.

Em resumo, apesar de não ser tão impressionante quanto o da OpenAI, o modo de voz do Gemini é bem interessante e permite o acesso a novas formas de se comunicar com a AI.

Como o Google oferece um mês grátis para experimentar o Gemini Advanced, vale a pena experimentar o Live e tirar suas próprias conclusões.

O Gemini Live é fruto do “Project Astra” - um projeto amplo do Google Deepmind que visa desenvolver agentes de AI capazes de compreender e adaptar-se ao mundo exterior de maneira completa. E um dos desenvolvimentos desse projeto, além das conversas por voz avançadas, são as conversas que envolvem visão.

Assim, logo, o Gemini Live deverá incluir a possibilidade de você mostrar o ambiente ao seu redor/a tela do seu celular em tempo real e conversar sobre isso.

Então é legal o que está sendo lançado, mas é apenas o começo.

MultiOn avança em sua AI que realiza ações

Já falei algumas vezes que acredito que a próxima fronteira dos modelos de AI será a capacidade de realizar as tarefas por nós de maneira independente.

E uma das empresas que mais tem se aproximado dessa fronteira é a MultiOn - tratamos dela na nossa newsletter em Março deste ano.

Para quem não conhece, a MultiOn é uma startup cuja a missão é livrar os seres humanos de tarefas entediantes e repetitivas, liberando-os para se concentrarem no que realmente importa.

A AI da MultiOn basicamente realiza tarefas online de forma autônoma.

Reservar viagens, fazer pedidos online, agendar compromissos, escrever emails e muito mais. Por exemplo, o MultiOn pode reservar um voo com apenas algumas instruções de voz, pesquisando as melhores opções, completando o processo de reserva online e enviando o itinerário para o seu calendário.

O seu modelo consegue se conectar e interagir com praticamente qualquer site ou aplicativo. Ele pode navegar por interfaces, preencher formulários e concluir fluxos de trabalho complexos, tudo com simples comandos de texto.

Announcing MultiOn: Building a Brighter Future for Humanity with AI Agents — MultiOn AI

Resumidamente, você diz a ele qual o seu objetivo ou o que quer que ele faça. Então ele vai planejar as ações que deve realizar para cumprir o que você pediu. Finalmente, ele acessará os sites e aplicativos necessários e interagir com eles da mesma forma que você faria.

Isso é a MultiOn.

Mas por que estou falando dela de novo?

Apesar de parecer incrível no papel, na prática, o sistema da MultiOn falhava muito em cumprir as tarefas, do início ao fim, de maneira bem sucedida.

Para você ter uma noção, para uma tarefa de reserva de mesa em restaurante, realizada um site de reservas, o MultiOn concluía a reserva com sucesso em apenas 18,6% das vezes em que tentava. Um número bem baixo.

Mas, na última semana, a MultiOn publicou sobre um avanço em suas pesquisas que aumentou a taxa de sucesso do sistema drasticamente. E é sobre esse importante desenvolvimento no campo dos agentes de AI autônomos que eu vou falar hoje.

Para entender esse desenvolvimento é necessário compreender porque a taxa de sucesso era tão baixa:

De maneira simplificada, modelos de linguagem atuais (GPT-4o, Gemini 1.5, etc), treinados com dados estáticos, muitas vezes falham em ambientes interativos e dinâmicos, especialmente em tarefas complexas que exigem várias etapas de raciocínio.
Assim, sistemas como o da MultiOn tentam superar essas limitações dos modelos de linguagem utilizando de algumas técnicas, como o treinamento adicional em demonstrações de especialistas. Mas essas técnicas também costumam falhar com frequência, principalmente quando surgem erros compostos e há pouco dados sobre o problema na base que o treinou.

Desta maneira, para solucionar a questão, o sistema deveria pensar de maneira mais sofisticada, sendo capaz de planejar e adaptar suas ações diante das tarefas que recebe.

Para tal, os pesquisadores da MultiOn desenvolveram o Agent Q, um novo sistema de AI que combina busca, autocrítica e aprendizagem por reforço.

Agent Q: Breakthrough AI Research in Self-Healing Web Agents | MultiOn — MultiOn AI

O Agent Q consiste em três técnicas avançadas:

Busca Guiada com Monte Carlo Tree Search (MCTS): o MCTS é um algoritmo utilizado para tomar decisões em espaços de busca complexos, como jogos de tabuleiro ou navegação web. No caso do Agent Q, ele cria simulações aleatórias de ações na web para explorar diferentes possibilidades e encontrar as mais promissoras para cumprir as tarefas.
Auto-Crítica de AI: em cada etapa, o Agent Q realiza uma auto-crítica, fornecendo feedback para refinar o processo de tomada de decisão do agente. Isso é crucial para tarefas de longo prazo.
Otimização Direta de Preferências (DPO): usando a DPO, as possibilidades de ações geradas com o MCTS são comparadas e as preferências em relação aos “caminhos” tilhados pelo sistema são atualizadas e aprimoradas.

Em suma, este método permite que sistema da MultiOn aprenda com trajetórias bem-sucedidas e malsucedidas, aprimorando suas capacidades de generalização em tarefas de raciocínio em várias etapas.

Na prática, esse novo método trouxe ótimos resultados.

Quando testado no experimento de reservas que mencionei no início, a taxa de sucesso passou de 18,6% para 81,7%, um salto de 340% - um número muito significativo.

Assim, o Agent Q torna o sistema de AI da MultiOn muito mais útil - recomendo até que você teste-a para ver como ela funciona.

Mas esse avanço não se limitará ao MultiOn. É certo que essa combinação de técnicas será adotada e implementada em outras AIs que realizam ações de forma autônoma na internet. Afinal, esse é um campo que tem muito a crescer e precisa de pesquisas como estas para isso.

Indicações

ElevenLabs Reader

Tenha a AI da ElevenLabs narrando qualquer artigo, livro ou documento para você, de forma praticamente perfeita e gratuita.

Dream Machine 1.5

Experimente a nova versão do modelo de geração de vídeos com AI da Luma Labs.

Dica de Uso

Uma das formas mais sub exploradas de interação com AI é a por voz.

No entanto, conversar por voz desbloqueia possibilidades de aplicação muito interessantes, que não funcionam tão bem quando limitadas a escrita.

Assim, separei algumas coisas que você pode experimentar fazer com AI, interagindo por meio de voz:

Treinar sua conversação em outro idioma;
Discutir algum tópico ou ideia que teve, enquanto dirige a caminho do trabalho ou passeia com seu cachorro;
Conversar e fazer perguntas sobre um livro, enquanto você o lê, sem precisar deixá-lo de lado;
Treinar para uma apresentação que irá fazer e receber feedback;
Discutir sobre as tarefas que está executando em seu trabalho e obter possíveis conselhos e/ou insights relevantes;
E muito mais;

São realmente muitas opções, basta ser criativo e experimentar o máximo possível. No início pode parecer antinatural, mas com o tempo você irá se acostumar.

Pensamento do Dia

“The future of AI is not about replacing humans but augmenting our capabilities and helping us solve complex problems.”

- Geoffrey Hinton

Por hoje é só!

Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!

Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!

Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!

Refer a friend

Tenha uma ótima semana e até semana que vem!

Revolução AI

Discussão sobre este post