#58 AI que Identifica Emoções Através do Tom de Voz, Modelo de Clonagem de Voz da OpenAI, Grok-1.5 Lançado e Supercomputador de U$ 100B

abr 02, 2024

Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!

Tivemos tantos assuntos relevantes nessa semana que a edição de hoje conta com uma notícia bônus! Os temas de hoje são:

Modelo de AI capaz de identificar emoções humanas a partir do tom de voz; OpenAI lança modelo de clonagem de voz; Grok-1.5 lançado pela xAI; Stargate AI - supercomputador de U$ 100B da Microsoft e da OpenAI; Crie vídeos que contam histórias completas com AI; Gere planos de negócios com AI.

News

Modelo de AI capaz de identificar emoções humanas a partir do tom de voz

Imagine se as inteligências artificiais conseguissem saber como você está se sentindo apenas analisando o tom da sua voz?

Parece coisa de ficção científica, mas isso já é possível com uma nova tecnologia desenvolvida pela startup Hume AI.

A Hume AI tem como objetivo garantir que as AIs sejam construídas para servir e aumentar o bem-estar dos seres humanos.

Assim - seguindo a ideia do filósofo David Hume de que as emoções impulsionam o bem-estar - Inteligências Artificiais que estão ao serviço dos humanos devem perceber e adaptar às suas emoções.

Tendo essa meta em mente, a empresa vem focando em desenvolver sistemas que identificam emoções humanas por meio de análise de expressões faciais e, mais recentemente, por meio de tons vocais.

A ferramenta que permite essa análise de tons de voz foi lançada na semana passada e chama-se Empathic Voice Interface (EVI) ou Interface de Voz Empática, em português. É basicamente uma interface de chat por voz que exibe as emoções do usuário detectadas na sua conversa com a AI - como você pode ver abaixo:

Nela, você conversa por voz com um modelo de AI - como faz no ChatGPT - e, ao longo dessa conversa, você vê na barra lateral as emoções que ele identificou analisando sua voz. Dá até pra perceber que a AI muda a forma de falar de acordo com essas emoções que você demonstrou.

A EVI pode ser conectada a qualquer aplicação ou modelo de AI a partir de uma API.

A tecnologia por trás da EVI é um “grande modelo de linguagem empático (LLMe)”. É um modelo de AI como o GPT-4 ou Claude, mas com mais inteligência emocional -por ter sido especificamente treinado com milhões de interações humanas.

Esse modelo é capaz de interagir com os usuários e detectar as emoções que eles estão sentindo com base no tom de voz, ritmo de fala e ênfase dada nas palavras. Mas não só isso, ele também se adapta aos sentimentos detectados, modulando suas falas e tons.

É bem interessante.

É possível testar a ferramenta por aqui. Infelizmente, ela só entende inglês por enquanto. Mas vale a pena testar.

Outro aspecto único e muito legal desse modelo de AI empático é o fato dele começar a falar quando percebe que você finalizou sua fala e parar de falar quando você o interrompe. Isso faz com que a conversa se pareça muito mais humana.

Mas como essa AI da Hume pode ser aplicada na realidade?

As aplicações para essa tecnologia são muito extensas, e vão desde análise de emoções de clientes na interação com os produtos ou com representantes vendas até criação de personagens que se comportam de forma mais realista em estúdios de animação.

No entanto, a aplicação mais óbvia é conectar a EVI do Hume a ferramentas como ChatGPT e Gemini para torná-los assistentes mais completos e humanos.

Afinal, é fundamental que esses assistentes se tornem o menos robóticos e impessoais possível para que possam ser adotados de maneira ampla nos mais diversos campos. E essa AI empática pode ser o caminho para solucionar esse problema.

Por enquanto a EVI está disponível apenas para demonstração, mas até o fim deste mês ela poderá ser acessada e conectada a outras aplicações via API.

Estou curioso para ver o que será criado a partir dessa nova tecnologia.

OpenAI lança modelo de clonagem de voz

Na semana passada falamos sobre a OpenAI ter feito o registro de marca do nome Voice Engine e especulamos sobre o que esse novo software poderia ser.

Tudo o que sabíamos é que ele era um modelo de AI capaz de gerar áudios, mas ele poderia ser “desde um simples gerador de voz, como o da ElevenLabs a um assistente de voz completo como um JARVIS - da Marvel - ou uma Samantha - do filme Her”

Na sexta-feira passada o mistério foi solucionado. A OpenAI publicou em seu blog um texto revelando o que é o Voice Engine.

OpenAIの「Voice Engine」は15秒分の声データを元に本人そっくりに喋る（ITmedia NEWS） - Yahoo!ニュース

E, infelizmente, ele não é um assistente de AI completo como especulamos.

Porém, acertamos a parte dele ser como a ferramenta da ElevenLabs:

O Voice Engine é um modelo de clonagem e geração de voz. Ele é capaz de, a partir de uma amostra de áudio de 15 segundos, “clonar” a voz da pessoa do áudio de maneira praticamente perfeita. E, desta forma, utilizar essa voz clonada para gerar novos áudios por meio de simples comandos de texto.

Exploring OpenAI's Voice Engine: The Future of AI Voice Replication - Promptzone

A qualidades das gerações de voz é impressionante - extremamente semelhante ao original e natural. Você pode ver algumas demonstrações aqui.

Essa tecnologia não é uma inovação, como dissemos, a ElevenLabs já comercializa um produto que faz exatamente isso desde o início do ano passado.

Ela não é novidade nem pra OpenAI. Apesar de anunciá-la só agora, a empresa desenvolveu o Voice Engine no final de 2022. Ele é a tecnologia que foi utilizada para criar as vozes que estão por trás da funcionalidade de voz do ChatGPT e da API da ferramenta de texto-para-voz.

É uma surpresa esse modelo existir a tanto tempo e nunca ter sido sequer anunciado.

Mas o que vem impedindo o seu lançamento são as preocupações que a OpenAI tem com os seus riscos.

Isso, pois ferramentas de clonagem de voz podem ser utilizadas para a criação de deepfakes. E, se utilizado por pessoas má intencionadas, elas podem ser aplicadas para fazer com pessoas digam coisas que nunca disseram.

Esses deepfakes podem ter um impacto enorme em campanhas políticas, reputações de figuras públicas, julgamentos, etc.

E existe o risco de criamos um cenário onde a internet é tomada de conteúdos de imagens, vídeos e áudios gerados por AI. Conteúdos estes, tão bons que se tornam indistinguíveis dos reais e, com isso, não conseguimos tomar mais nada como verdadeiro.

Apesar de eu achar que isso é inevitável - nós teremos que aprender a lidar com esses problemas -, é compreensível essa cautela por parte da OpenAI. Até para dar tempo para as pessoas se adaptarem.

Contudo, no final do ano passado, a empresa disponibilizou o Voice Engine a um grupo seleto de parceiros de confiança para que eles pudessem utilizar o modelo e testá-lo na prática.

Esses parceiros podem utilizar o modelo, mas só tem a permissão para clonar a voz de pessoas que consentem com isso e devem deixar claro quando exibirem áudios gerados por AI.

Um desses paceiros que está tendo acesso e aplicando o Voice Engine em seus produtos é a HeyGen - empresa que oferece como solução a geração de vídeos completos com AI.

E é impressionante o que a HeyGen está criando com ajuda desse modelo.

Por enquanto a OpenAI não estabeleceu nenhuma previsão de quando a AI estará disponível de forma ampla e pública, mas já é possível pensar em vários campos que se beneficiariam dela. Alguns exemplos são tradução de vídeos/podcasts e recuperação da voz de pessoas que perderam a capacidade de fala.

Enquanto não temos essa ferramenta ao nosso alcance, você pode experimentar a de empresas como ElevenLabs, Character AI, Speechify, PlayHT e outras. Elas não são tão boas quanto a da OpenAI parece ser, mas são satisfatórias para muitos casos.

Quando o Voice Engine for lançado traremos mais atualizações.

O mais interessante disso tudo é notar que a OpenAI possui uma tecnologia como essa “guardada” desde 2022. Imagine o que mais ela não desenvolveu e está esperando a hora certa de lançar…

Grok-1.5 lançado pela xAI

Elon Musk foi um dos fundadores da OpenAI em 2015, saiu da empresa em 2018 por disputas de poder e discordar do caminho que ela seguia, e atualmente esta processando-a por quebra de contrato.

No ano passado, Musk também fundou sua própria empresa de Inteligência Artificial, a xAI.

Em novembro do mesmo ano, a xAI lançou o Grok - um chatbot de AI como o ChatGPT, que é conectado ao Twitter (X), extrai informações em tempo real da rede e só está disponível para assinantes do X Premium.

Elon Musk reveals "Grok Analysis" feature in upcoming Grok 1.5 is inspired by movie "Penguins of Madagacar" - MSPoweruser

O grande modelo de linguagem por trás do Grok era o Grok-1. Em termos de capacidades, ele apenas conseguia gerar textos e superava ligeiramente as capacidades do GPT-3.5 Turbo.

O Grok-1 até teve o seu código aberto para todos recentemente. Mas no geral, ele é um modelo bem mediano e sua única vantagem é estar conectado ao X.

No entanto, a xAI acaba de lançar o Grok-1.5, um novo modelo de AI que vem para substituir o Grok-1.

O modelo vem com melhoras significativas em raciocínio e resolução de problemas em relação a sua versão anterior.

Com isso, o desempenho do Grok-1.5 em tarefas que envolvem matemática e programação melhorou muito, como você pode ver no quadro comparativo abaixo:

Grok AI yang diperbarui dari Elon Musk mengklaim lebih baik dalam coding dan matematika - Dimensi Aktual

O modelo também conseguiu se aproximar bastante dos principais modelos do mundo - GPT-4, Gemini Pro 1.5 e Claude 3 Opus - quando testado nos principais benchmarks do mercado. Sendo que até superou alguns desses modelos no HumanEval, que mede habilidades de resolução de problemas e geração de códigos.

Confesso que são resultados bastante surpreendentes para 4-5 meses de desenvolvimento desde o lançamento do Grok-1.

Outro aspecto que melhorou muito no Grok-1.5 foi a sua janela de contexto - isto é, a quantidade máxima de informações que ele consegue “ler” ou processar de uma só vez. A versão anterior conseguia processar cerca de 8 mil tokens, enquanto a nova versão consegue processar 128 mil tokens - cerca de 100 mil palavras -, o mesmo número do GPT-4 Turbo.

E, segundo o reportado pela xAI, o Grok é capaz de absorver e buscar informações dentro de sua longa janela de contexto com uma precisão e assertividade de 100%.

Se for real, é uma das melhores - senão melhor - precisões do mercado.

Isso amplia as suas aplicações, uma vez que ele pode lidar com grandes volumes de texto e seguir instruções mais longas e complexas.

Sobre o seu acesso, o Grok-1.5 está sendo implementado gradualmente no chat do Grok e, ao longo desta semana, estará disponível para todos os assinantes do X Premium.

Infelizmente, não é possível acessá-lo de outra forma por enquanto, mas pode ser que ele tenha seu código aberto como o Grok-1 teve - seria coerente da parte de Elon Musk, uma vez que ele pede exatamente este tipo de transparência de empresas como Google e OpenAI.

De qualquer maneira, o Grok-1.5 já está com seus dias contados. Elon Musk postou na semana passada que o Grok-2 já está em treinamento e superará todos os modelos de AI atuais - em todas as métricas - quando for lançado.

Aguardaremos ansiosos.

Notícia Bônus: Stargate AI - supercomputador de U$ 100B da Microsoft e da OpenAI

No final da semana passada, o The Information reportou que a OpenAI e a Microsoft estão colaborando em um grande projeto chamado Stargate AI, com o objetivo de construir um “supercomputador” de US$ 100 bilhões.

Esse projeto é a última fase de um plano de cinco etapas. Se bem-sucedido, o supercomputador será lançado já em 2028. A ideia é que ele seja uma instalação massiva composta por milhões de chips de AI e supere - por muito - o poder computacional atualmente disponível.

O projeto é tão ambicioso que fontes alternativas de energia, como a energia nuclear, estão sendo exploradas para torná-lo possível.

Esse investimento em tanto poder computacional demonstra que a OpenAI e a Microsoft esperam avanços significativos nas capacidades dos modelos de AI em um período muito curto de tempo.

Eles sabem muito mais do que nós e estão apostando alto. Espere transformações sem precedentes nos próximos anos.

Indicações

LTX Studio

Crie vídeos que contam histórias completas com Inteligência Artificial. Ainda em fase de waitlist.

15minuteplan.ai

Gere planos de negócios em 15 minutos automaticamente utilizando AI.

Dica de Uso

Quando for enviar para AIs, como ChatGPT, Gemini e Claude, solicitações que envolvam longos textos e/ou documentos como contexto, faça da seguinte maneira:

Primeiro coloque os textos/documentos que você quer que a AI tenha acesso e só depois escreva o seu comando.

Faça isso:

Contexto: [Insira seu(s) texto(s)]
[insira seu prompt]

Ao invés disso:

[insira seu prompt]
Contexto: [Insira seu(s) texto(s)]

Um estudo demonstrou que isso pode melhorar drasticamente a qualidade da resposta das AIs quando elas lidam com longos textos e documentos.

Pensamento do Dia

“I believe AI is going to change the world more than anything in the history of humanity. More than electricity.”

– Kai-Fu Lee

Por hoje é só!

Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!

Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!

Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!

Refer a friend

Tenha uma ótima semana e até semana que vem!

Revolução AI