#60 3 Novidades de AI do Google, o Primeiro Wearable de AI Realmente Útil, Lançamento do Udio e OpenAI no Japão
Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!
Tivemos tantos assuntos relevantes nessa semana que a edição de hoje conta com uma notícia bônus! Os temas de hoje são:
3 Novidades de AI do Google; Limitless - O primeiro wearable de AI realmente útil; Lançamento do melhor modelo de geração de músicas com Inteligência Artificial; Notícia bônus: OpenAI estabelece nova unidade no Japão; Transcreva áudios gratuitamente com AI; Pesquise e estude sobre ações de empresas usando AI.
News
3 Novidades de AI do Google
Nos dias 9 a 11 de Abril, ocorreu o Google Cloud Next 2024. Esse é um evento que acontece anualmente e, tradicionalmente, nele são feitos uma série de anúncios envolvendo novos desenvolvimentos do Google.
O foco, obviamente é no Google Cloud - plataforma de serviços de nuvem do Google -, mas como a empresa está totalmente envolvida com Inteligência Artificial, várias novidades mencionadas no evento nos interessam.
Separei as novidades mais importantes e as dividi em dois grupos: relacionadas ao Google Workspace e relacionadas ao Vertex AI (se você não sabe o que é isso, fique tranquilo que vou explicar adiante). Vamos a elas:
Google Workspace
Não é novidade que o Google está integrando AI nos aplicativos do Google Workspace, isto é, Gmail, Docs, Sheets, Slides e Meets. Já falamos sobre isso desde o início do ano passado.
A integração tem sido lenta, mas é bem provável que você já tenha experimentado AI Generativa em algum produto do Google. No meu caso, já faz alguns meses que o Gmail e o Docs tem a função “Help Me Write” - se você clica nessa opção, pode pedir para a AI escrever um e-mail ou texto para você.
Se o seu ainda não tem isso, muito em breve terá.
De qualquer forma, foi mencionado no Google Cloud Next que os usuários que experimentaram essas sugestões de textos ou imagens gerados por AI tendem a aceitá-las e em cerca de 70% das vezes. É um número bem alto.
Então o Google entende que deve continuar investindo nessas integrações.
A ideia é que todos os apps tenham alguma integração com o Gemini ou com o modelo de geração de imagens, Imagen 2.0, para aumentar a produtividade daqueles que o utilizam.
Mas se já sabíamos que essas integrações estão sendo feitas, o que de novo foi anunciado?
O Google anunciou novas funções de AI para o Meet. O aplicativo de reuniões da empresa agora contará com as seguintes funcionalidades:
Anotações de AI sobre as reuniões;
Legendas automáticas e traduzidas para outros idiomas - com suporte para 69 linguagens;
Tradução de mensagens no chat da reunião;
Resumo de conversas com AI.
Para ter acesso a tudo isso será necessária uma assinatura de 10 dólares por mês.
Na minha opinião, a função que é realmente interessante e “única” é a geração de legendas traduzidas em tempo real - mas não sei se vale o preço. Sobre a função de notas e resumos, fizemos um vídeo de como automatizar isso de forma bem barata.
A outra novidade anunciada é que agora o Google Workspace conta com um novo app, o Vids.
O Vids é basicamente um app de criação de vídeos com ajuda de Inteligência Artificial.
Não são vídeos como os que o Sora cria, mas sim vídeos de trabalho, que apresentam algum tema, explicam algum tópico ou produto, etc.
Basicamente, você escreve um comando e ele gera, com AI, um vídeo de rascunho, que reúne uma série de textos, imagens, vídeos e música de fundo. E você pode editar como quiser.
Também é possível incluir uma narração no vídeo, com as vozes pré-definidas ou com sua própria voz.
O mais interessante é que você pode integrar o Vids aos outros apps do Workspace e pedir, por exemplo para ele criar um vídeo a partir da sua apresentação de slides ou de um simples documento de texto.
Vertex AI
Falando agora da parte 2 das novidades, o Google anunciou algumas coisas interessantes sobre o Vertex AI.
Para quem não sabe, o Vertex AI é a plataforma que o Google oferece para quem quer criar aplicações com AI. É um ambiente para criar, implantar e integrar soluções de AI acessando alguns dos principais modelos de AI do mundo.
E agora o Vertex AI conta com um construtor de chatbots muito semelhante à Assistant API, da OpenAI - que permite a construção dos GPTs.
Esse novo construtor chama-se Agent Builder e a ideia é que o usuário consiga construir agentes de AI sem precisar programar (ou com pouca programação).
Para construir esses agentes, basta instruir como o modelo de AI (pode ser uma versão do Gemini, Claude 3, LLaMA 2, etc.) deve agir, conectá-lo a bases de dados e escrever as funções que ele deve executar. E pronto.
O agente pode ser especializado em diversas funções. No Cloud Next, eles deram o exemplo de um agente integrado a uma loja de roupas, capaz de fazer recomendações inteligentes, guiar o cliente no processo de compra e até efetuar o pagamento pelo cliente.
Mas é possível pensar em diversos exemplos, como um assistente “guia turístico” para empresas do setor de viagens e hotelaria ou um assistente “secretária” que atende clientes e marca reuniões.
As possibilidades são vastas, principalmente considerando a opção de integrar com os apps do Google, no entanto a plataforma do Vertex AI é muito confusa e muito mais difícil de mexer e criar do que a da OpenAI.
E como o Google não oferece muitas vantagens frente o que a OpenAI oferece, realmente não faz sentido criar pelo Vertex AI - a não ser que você já utilize o Google Cloud e tenha familiaridade.
Mas é legal o caminho que o Google tem se direcionado. Se mais funções novas forem adicionadas ao Vertex Agent Builder e ele se tornar um pouco mais simples de manusear, pode ser uma opção viável.
Vamos aguardar.
Limitless - O primeiro wearable de AI realmente útil
Em nossas newsletters, já falamos algumas vezes sobre os wearables de AI: dispositivos eletrônicos “vestíveis” integrados às Inteligências Artificiais.
Dentre esses wearables, um que escrevemos sobre é o Rewind Pendant.
Criado pela empresa Rewind AI, o dispositivo consiste em um colar com um pingente tecnológico, que captura tudo o que você diz e ouve no mundo real e depois transcreve, criptografa e armazena tudo localmente em seu telefone. Todas essas informações são conectadas a AI, que as usa como contexto para responder as suas perguntas.
Diferentemente de outros dispositivos de AI como o AI Pin e o Rabbit R1 - que são gerais em suas funções e vendidos como verdadeiros agentes de AI, que realizam tarefas para os usuários - o Rewind Pendant apenas grava a sua vida e permite que você se lembre de tudo que viveu.
A ideia é um pouco distópica, mas muito boa.
Estou falando tudo isso, pois ontem, na segunda-feira, a empresa por trás desse wearable - a Rewind AI - anunciou que está mudando o seu nome para Limitless e lançando uma nova versão do Pendant e uma série de melhorias nas soluções que seu produto oferece.
Vamos falar um pouco sobre essas novidades.
O novo Limitless Pendant, assim como sua versão anterior, é um dispositivo vestível, porém agora tem um formato circular e pode ser preso na roupa através de seu imã, não precisando estar pendurado em um cordão.
Ele é bem pequeno, tem pouco mais de 3 centímetros e também parece ser bem leve, o que é muito bom, já que os usuários o carregarão consigo durante o dia todo.
O dispositivo é feito de alumínio, é à prova d’água e tem um gravador de voz, uma bateria que dura 100 horas sem precisar de carregamento, um microfone de alta qualidade e dois imãs.
Com o Limitless Pendant, a empresa está aproveitando para dar um foco ainda maior nas soluções que oferece. Sem abandonar a funcionalidade de gravação da vida do usuário, ela agora oferece soluções específicas para reuniões e anotações.
Como dissemos, o dispositivo grava tudo que o usuário fala, e agora usa das informações que foram gravadas para ajudar o usuário a preparar para reuniões agendadas no Google Calendar. Além disso, ele grava a conversa de todas as reuniões (online ou presencial), faz anotações e as resume.
É um assistente de reuniões perfeito. E isso é genial e muito útil, afinal, boa parte dos profissionais passa grande parte do seu tempo - as vezes a maior parte deles - justamente em reuniões.
Mas você deve estar se perguntando sobre questões como privacidade e consentimento. E é ai que entra uma nova funcionalidade muito inteligente.
Ela se chama Consent Mode e garante que só sejam gravadas e transcritas as vozes das pessoas que consentiram explicitamente com isso. Com isso, o usuário do Pendant deve pedir por consentimento das pessoas que conversa e quer gravar - uma vez que a pessoa consente e a AI escuta isso, sua voz começa a ser gravada e transcrita.
Além disso, o que é gravado pelo Limitless Pendant fica armazenado pela Limitless AI, de forma segura, na nuvem e pode ser acessado em qualquer dispositivo.
E como eu disse, o Limitless Pendant também pode ser utilizado para criar anotações - agindo como um bloco de notas por voz.
Em resumo, o wearable de AI da Limitless agora está muito mais ergonômico, útil, seguro e ético.
Mas esse é só o começo para a Limitless.
A ideia da empresa é fazer algo bom e útil por agora e aumentar as capacidades na medida em que os sistemas e modelos de AI evoluem.
Desta forma, em um futuro próximo a tecnologia da Limitless AI se tornará mais do que um simples assistente de reuniões e de anotações.
A empresa planeja:
Integrar o Pendant a mais aplicativos, para que ele saiba mais sobre o usuário e gere informações mais personalizadas;
Criar um app para IOS e Android para acessar as gravações e todas as funcionalidades do dispositivo;
Possibilitar que o usuário pergunte qualquer coisa à AIs através do Pendant.
Fazer com que a Limitless AI aja como uma verdadeira agente/assistente dos usuários, respondendo e-mails e realizando tarefas na internet por eles;
Criar novos dispositivos e muito mais.
É um roadmap muito interessante e eu estou curioso para ver o desenvolvimento da empresa.
Ah, antes que eu me esqueça, vamos falar de preço.
O Limitless Pendant custa 99 dólares e possui a opção de um plano de assinatura mensal de 19 dólares. Esse plano dá acesso a todos os recursos que utilizam AI de forma ilimitada, mas não é obrigatório que o usuário o assine para que o dispositivo grave e armazene tudo da vida do usuário.
Acredito que a precificação é justa, principalmente considerando todos as funcionalidades que estão por vir.
No geral, esse é o wearable de AI que mais faz sentido ao meu ver, mas eu esperaria alguns usuários testarem o produto na prática antes de comprar um.
Vamos acompanhar esse e outros dispositivos de AI e trazer novidades!
Lançamento do melhor modelo de geração de músicas com Inteligência Artificial
Na semana passada falamos de uma misteriosa Inteligência Artificial de geração de músicas.
Ela estava sendo testada por alguns usuários, em beta, e havia muita expectativa acerca de seu lançamento.
Cerca de meio dia após eu lançar a newsletter, a nova AI foi lançada. E como prometido, na edição de hoje vamos trazer tudo sobre ela.
Ela se chama Udio (como especulamos) e permite que qualquer pessoa gere músicas a partir de simples comandos de texto.
A Udio foi fundada por ex-funcionários do Google Deepmind (laboratório de pesquisa em AI do Google). Enquanto ainda estavam no Google Deepmind, eles trabalharam no desenvolvimento de outro modelo de AI de geração de música, o Lyria.
O Lyria foi lançado em novembro de 2023, em parceira com o YouTube, e é um modelo bem poderoso - falamos dele aqui -, mas o Google nunca o lançou de maneira ampla.
Acreditando no potencial da tecnologia, alguns de seus criadores preferiram deixar a empresa e fundar a Udio.
Com a Udio, eles têm a missão de expandir os horizontes da músicas, amplificar a criação de artistas e permitir que qualquer um crie músicas extraordinárias. E, para desenvolver o seu primeiro produto, contou com o apoio de nomes e empresas, como: Andreessen Horowitz (a16z), will.i.am, Common, Mike Krieger (cofundador e CTO do Instagram) e Oriol Vinyals (co-líder do Gemini).
Beleza, a Udio tem muito talento, conhecimento e capital por trás, mas vamos falar do que interessa: como funciona e qual a qualidade das músicas que ela gera?
O modelo de geração de músicas está disponível para qualquer pessoa acessar e experimentar em udio.com.
Na plataforma, é possível, tanto ouvir as criações de outros usuários (além de remixá-las e criar playlists com elas), quanto de criar suas próprias músicas com AI.
Cada usuário tem o direito de gerar, gratuitamente, até 1200 músicas por mês.
Para criar uma música é muito simples. É só escrever um prompt descrevendo sobre o que é a música, mencionar o estilo e qualquer outro detalhe que deseja incluir.
Caso queira, também é possível definir se quer que a música seja instrumental ou não e inserir sua própria letra para a música.
Inserindo a letra, o usuário tem mais controle sobre a criação, podendo até adicionar tags, como [Verse], [Bridge] e [Chorus].
Uma vez que clica em criar, em cerca de 1 minuto o usuário recebe duas músicas de 33 segundos cada. Ele tem a opção de expandir as criações (para frente ou para trás), com o intuito de criar uma música completa, remixá-las, para criar algo novo a partir delas, publicá-las ou baixá-las.
Confesso que essa curta duração é um ponto negativo da ferramenta, mas a possibilidade de estendê-la resolve boa parte do problema.
Agora falando de qualidade:
Definitivamente, o Udio é o melhor modelo de geração de música do mercado. As músicas são criativas e não são previsíveis, a qualidade do som é muito boa, os instrumentos são coesos e as vozes dos cantores são extremamente realistas.
Arrisco dizer que, caso não estejamos prestando atenção, é praticamente impossível perceber a diferença das músicas que ele gera e das músicas geradas por humanos. E isso é um grande avanço.
O Udio é capaz de criar fantásticas músicas clássicas e instrumentais, covers de músicas existentes, trilhas sonoras, etc.
Mas não pense que ele se limita a criar músicas. Alguns usuários descobriram que ele consegue gerar qualquer tipo de som, sendo capaz de criar áudios de stand-up comedy, discursos, comerciais, transmissões de rádio, narrações de esportes, diálogos de NPCs, sons de natureza, ASMRs e sabe lá o que mais. Dá só uma olhada nessa playlist que reúne exemplos de tudo isso.
É realmente muito interessante e curioso. Uma ferramente de áudio, não só de músicas!
E sobre questões de copyright, o modelo se recusa a gerar músicas caso você mencione o nome de artistas conhecidos.
De maneira geral, a Udio atendeu as expectativas, mas a geração de músicas com AI ainda pode e vai melhorar muito - tanto em relação aos modelos, quanto às ferramentas de apoiam a geração e aos conhecimentos dos usuários sobre como comandar as AIs da melhor forma.
Eu recomendo que você teste e brinque bastante com a ferramenta. Quanto mais usar, melhor ficará em gerar músicas de alta qualidade.
Em um ano, provavelmente não será possível diferenciar músicas reais de artificiais. As implicações disso são muito ambíguas e é bom nos prepararmos para isso.
Notícia bônus: OpenAI estabelece nova unidade no Japão
A OpenAI acaba de anunciar a abertura de uma nova unidade no Japão.
Provavelmente, um movimento estratégico, considerando que o governo Japonês tem criado um cenário muito favorável para start-ups de AI - tendo reconhecido que as leis de copyright não se aplicam ao treinamento de grandes modelos de linguagem.
Junto a esse anúncio, a empresa está lançando uma versão do GPT-4 otimizado em japonês.
Indicações
Assembly AI
Transcreva áudios gratuitamente e com muita qualidade, automaticamente, usando AI.
FinChat
Pesquise e estude sobre ações de empresas utilizando Inteligência Artificial.
Dica de Uso
O Google está disponibilizando o Gemini 1.5 Pro gratuitamente por aqui.
Isso significa que você pode acessar um modelo do nível do GPT-4, multimodal e com uma janela de contexto de 1 milhão de tokens - ou seja, que consegue processar 1 hora de vídeo, 11 horas de áudio, bases de código com mais de 30.000 linhas de código ou mais de 700.000 palavras de uma só vez.
Tudo isso sem gastar um único centavo.
E quase ninguém está se aproveitando disso. Se você é uma das pessoas, separei algumas ideia do que é possível fazer com uma janela de contexto tão grande:
Analisar e interagir com livros e documentos longos;
Conversar com vários livros ao mesmo tempo;
Comparar textos (exemplo: contratos);
Resumir e fazer peguntas sobre vídeos do YouTube;
Resumir e fazer anotações sobre áudios de reuniões gravadas;
Extrair o estilo de escrita, fala ou comportamento de alguém, através de textos, áudios e feitos por essa pessoa;
E muito mais!
Basta ser criativo e testar as possibilidades!
Pensamento do Dia
“Fundamentalmente, existem duas estratégias para construir aplicações com AI no momento:
Existe uma estratégia que é assumir que o modelo [GPT-4] não vai melhorar. E então você meio que constrói todas essas pequenas coisas [que faltam] em cima dele.
E há outra estratégia, que é construir assumindo que a OpenAI permanecerá na mesma trajetória e os modelos continuarão melhorando no mesmo ritmo.
Parece-me que 95% do mundo deveria estar apostando na segunda categoria.”
- Sam Altman
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!
Olá Lucas, ainda bem que anda por aqui, por onde ando vc está, que bom! 🤓