#57 Sapiens Chat - o Primeiro Modelo de AI Brasileiro, Novidades e Especulações Sobre a OpenAI e CEOs da Stability AI e da Inflection Deixam suas Empresas.
A newsletter dessa semana está repleta de temas interessantes e relevantes envolvendo alguns dos principais players do mercado.
E nessa edição falamos, pela primeira vez, de uma Inteligência Artificial brasileira!
Os temas de hoje são:
Sapiens Chat - o primeiro modelo de AI brasileiro; Novidades e especulações sobre a OpenAI; CEOs da Stability AI e da Inflection deixam as empresas; Acesse o Gemini 1.5 Pro com janela de contexto de 1M de tokens gratuitamente; Gere incríveis sites com essa AI.
News
Sapiens Chat - o primeiro modelo de AI brasileiro
Há algumas semanas um seguidor sugeriu que falássemos sobre uma Inteligência Artificial brasileira: “Sapiens Chat”.
Apesar de estar sempre por dentro de - quase - todas as novidades de AI, nunca tinha ouvido falar dela e fiquei curioso para conhecer.
Acessei o site e as redes sociais da empresa. Vi que a AI do Sapiens era multimodal e ela era colocada no nível dos principais modelos de AI do mundo, como GPT-4 e Gemini.
No entanto, nesses canais, faltavam informações claras e detalhadas sobre essa AI que a empresa havia criado e que sustentassem as afirmações a respeito de sua qualidade. Então entrei em contato com o time do Sapiens Chat, tirei minhas dúvidas e testei o modelo um pouco mais a fundo.
Eis tudo o que descobri sobre ele:
O Sapiens é um grande modelo de linguagem (LLM) multimodal, capaz de gerar e interpretar textos, áudios, vídeos, músicas, códigos e imagens - talvez seja o mais completo do mercado.
Além disso, ele possui uma série de características e funcionalidades interessantes que irei citar ao longo do texto.
Assim como o Claude 3 tem as versões Opus, Sonnet e Haiku e o Gemini tem as versões Ultra, Pro e Nano, o Sapiens também possui diferentes versões: SAPI-1, SAPI-2, SAPI-3 e SAPI-4. A versão 1 é a que requer menor poder computacional para funcionar e é a mais limitada delas, enquanto a 4 é a versão mais poderosa e “pesada”.
Sobre seus detalhes mais técnicos, o Sapiens foi construído utilizando uma técnica que o time chama de Schizophrenic AI.
Nessa abordagem, existe um modelo base (principal) chamado SAPI que gera respostas baseadas nos comandos do usuário.
Até aí, nada muito diferente dos outros modelos que conhecemos.
Mas a grande diferença está aqui:
Antes de cada resposta ser enviada ao usuário, o SAPI recebe respostas de outros modelos auxiliares. Esse modelos auxiliares podem ser outros modelos de texto especialistas ou outros tipos de modelo, como geradores de documentos, de imagens, de áudio e de vídeo.
Assim, uma vez que o SAPI tem a resposta que ele mesmo gerou e as respostas que os modelos auxiliares geraram, ele realiza uma avaliação interna para escolher a resposta que melhor se adéqua e responde ao comando do usuário.
Uma abordagem bem interessante e que faz com que as respostas geradas sejam mais refinadas e de maior qualidade.
Falando em qualidade, o quão bom é o Sapiens?
Para a nossa decepção, o Sapiens nunca foi comparado aos principais modelos do mercado utilizando benchmarks reconhecidos. Então não é possível falar de forma objetiva sobre suas capacidades.
No entanto, podemos explorar isso com base no que o time do Sapiens alega e nos meus testes subjetivos com a ferramenta.
Bom, no site do Sapiens há um comparativo não oficial entre os SAPI (1, 2, 3 e 4) e alguns modelos importantes, como GPT-3.5, GPT-4 e Claude 2.1.
Nesse teste não oficial, o SAPI-4 superou ou igualou o GPT-4 nas capacidades de geração de texto, interpretação de texto, raciocínio lógico e matemático, geração de código e conhecimentos gerais. Mas deixou a desejar em tempo de resposta e controle de alucinações.
Os resultados alegados deste teste são bastante significativos e será impressionante de eles forem verdadeiros.
Na minha experiência utilizando o modelo, eu não consegui chegar a uma conclusão definitiva.
Utilizei a versão Pro do Sapiens - que dá acesso às versões 2, 3 e 4 do SAPI - com os créditos que recebi da empresa para testá-lo.
De forma geral, gostei bastante da qualidade das respostas de texto que recebi, mas é difícil compará-las com a de outros modelos sem experimentar um uso diário. Talvez possa trazer esse comparativo no futuro.
As imagens, áudios e músicas que ele gerou foram de boa qualidade, apesar dos videos terem sido bem simples e curtos - mas tudo bem, eu não esperava nenhum Sora.
O que prejudicou um pouco a minha experiência foi a interface da plataforma (principalmente acessando pelo celular), o tempo de resposta elevado (principalmente utilizando os modelos mais capazes) e as frequentes mensagens de erro que recebia - após uma longa espera - quando tentava pedir alguma coisa ao SAPI-4.
Porém, algo que gostei no Sapiens Chat é a sua versatilidade. Com ele você consegue interpretar e gerar conteúdos em praticamente qualquer formato.
E existem algumas características do modelo e da ferramenta que são bem legais:
Possui janela de contexto infinita - em tese, você pode mandar qualquer volume de texto, vídeo, áudio ou imagem para ele interpretar e ele conseguirá retornar tudo sobre eles e de forma precisa - mas não sei muito bem como isso funcionaria na prática (nenhum modelo de AI possui ou alega possuir isso);
Acessa informações na internet em tempo real;
Permite que você customize o comportamento da AI, definindo seus níveis de criatividade, humor e formalidade e até o seu espectro político;
Gera textos e já os coloca em documentos, como Word e PowerPoint;
Acessa links de sites e do YouTube - e até resume os vídeos por você;
Possui os mesmos parâmetros de treinamento para o português, espanhol e inglês, o que significa que as três linguagens tem a mesma importância dentro do modelo.
Em relação aos custos do Sapiens, já adianto que eles não são baixos. Aparentemente, eles são variáveis de acordo a disponibilidade de servidores, mas, em média, os modelos da versão Pro custam 47 dólares por milhão de tokens.
Isso não é nem um pouco barato, é bem mais do que o GPT-4 Turbo.
Eu recebi 30 créditos, que equivalem a 180 reais e após poucas horas gerando textos, imagens, áudio e vídeo e enviando documentos, o número chegou a quase zero. Pode ser que eu tenha pegado um momento de alto custo nos servidores, mas esse é um ponto negativo.
De maneira geral, o Sapiens me surpreendeu em termos de capacidade e versatilidade.
Mas ainda existem uma série de questões em aberto que precisam serem respondidas e melhoras que devem ser feitas. O que é normal no estágio de desenvolvimento que estão.
É preciso que o Sapiens seja mais aberto sobre o seu desenvolvimento e que ele seja testado em testes reconhecidos - segundo eles, esse é o próximo passo que darão após o lançamento de sua API.
Também é importante que o tempo de resposta e o custo do modelo reduzam de maneira significativa e que a interface da ferramenta se torne um pouco mais amigável e polida ao usuário final - imagino que isso também esteja nos planos da empresa.
Contudo, há muito potencial no que está sendo feito e eu recomendo que você teste o Sapiens por conta própria - basta clicar aqui.
Vou acompanhar os próximos desenvolvimentos do primeiro LLM brasileiro e trazer atualizações no futuro!
Novidades e especulações sobre a OpenAI
A OpenAI tem estado muito quieta nesse início de ano.
Após mexer com o mundo ao longo de 2023, nos três meses de 2024 tudo o que tivemos de novidades relevantes foram a GPT Store (que era para ter sido lançada no ano passado) e o Sora, o incrível modelo de geração de vídeos.
O Sora realmente foi impressionante, mas não foi sequer um lançamento, apenas um anúncio.
Falando de novidades tangíveis e que poderemos acessar, tudo o que temos são especulações.
E nessa newsletter eu decidi trazer um pouco dessas especulações de novidades mais recentes sobre a OpenAI - para podermos nos preparar para o que estar por vir.
GPT-5 a caminho?
Recentemente, Sam Altman, CEO da empresa, deu uma entrevista para Lex Fridman e falou, dentre outras coisas, um pouco sobre os próximos lançamentos da empresa.
Segundo ele, o GPT-5 pode não ser lançado neste ano, mas esse novo modelo já está basicamente pronto e será melhor que o GPT-4 na mesma proporção que o GPT-4 é para o GPT-3.
Isso significa que podemos esperar um enorme avanço nas capacidades no novo modelo da OpenAI - segundo ele, principalmente na área de raciocínio.
Pode ser que o GPT-5 seja finalmente uma AGI.
Talvez por ele representar um avanço tão grande, a OpenAI queira lançá-lo aos poucos, garantindo que as pessoas estejam preparadas para ele e consigam se adaptar de acordo. Afinal, o impacto econômico e produtivo dessa tecnologia será muito significativo.
Altman também afirmou que a OpenAI tem muitas tecnologias importantes para lançar antes do GPT-5 e fará isso nos próximos meses.
É difícil imaginar que tecnologias são essas e se elas são partes do GPT-5, modelos novos e independentes ou apenas novas formas de estruturar modelos já existentes.
Mas a minha aposta é que teremos o lançamento de uma espécie de agente autônomo, especializado em executar ações para os usuários - semelhante aos da Adept e MultiOn, mas que funcione melhor -, um modelo intermediário (como um GPT-4.5) e uma ferramenta de geração de voz. Tudo isso pode estar relacionado ao assunto do próximo tópico.
Por enquanto nos resta aguardar.
Voice Engine
No último dia 19, a OpenAI preencheu uma solicitação de registro de marca para o nome “Voice Engine” - algo como “mecanismo de voz”/“motor de voz” em português.
Na aplicação, o nome Voice Engine se refere a um software que se aplica a uma série de funções, como você pode ver na imagem abaixo:
Sabe-se que é uma ferramenta capaz de gerar áudios a partir de prompts de texto, imagens, vídeos e áudios. Mas é difícil afirmar como ela será na prática.
O Voice Engine pode ser desde um simples gerador de voz, como o da Eleven Labs à um assistente de voz completo como um JARVIS - da Marvel - ou uma Samantha - do filme Her.
Um meio termo desses dois cenários é o Voice Engine ser como um ChatGPT nativo em comunicação por voz e que não precisasse gerar textos antes de gerar os áudios em suas respostas por voz e nem precisasse transcrever os áudios dos usuários antes de interpretá-los em forma de texto.
Caso fosse desta forma, teríamos uma ferramenta/assistente de voz capaz de responder em um tempo muito menor do que acontece hoje, permitindo que os usuários tivessem conversas muito naturais e iguais a que têm com outros humanos.
Esse cenário é bem interessante e desbloqueia uma série de possibilidades, como a criação de vendedores ou atendentes de AI via ligações telefônicas - que se passam por humanos e custam uma fração do preço.
O que você acha que é o Voice Engine?
Sora e Hollywood
Enquanto o Sora não é lançado, a OpenAI vem postando alguns vídeos gerados por ele em suas redes sociais. E eles continuam a impressionar a todos.
E, ontem, ela postou algo algo ainda mais impressionante. Em um artigo de seu blog, a OpenAI compartilhou alguns resultados de trabalhos que alguns artistas visuais, designers, diretores criativos e cineastas realizaram utilizando o modelo.
Os resultados são muito bons e eu recomento que você veja. O vídeo que mais gostei foi o criado pela produtora Shy Kids.
E a OpenAI pretende continuar levando o Sora para produtores de filmes.
O Bloomberg reportou que a OpenAI está programada para se reunir com vários estúdios, agências de talentos e executivos de mídia em Hollywood durante esta semana.
Parece que as AIs generativas estão mais próximas das telas de cinema do que muitos imaginam.
CEOs da Stability AI e da Inflection deixam as suas empresas
No início da semana passada, o CEO e co-fundador da Inflection, Mustafa Suleyman, deixou a empresa junto com Karén Simonyan, outra co-fundadora, e diversos funcionários para se unirem à Microsoft.
O grupo irá compor o time da nova unidade da Microsoft, a Microsoft AI - focada em desenvolver soluções avançadas em AI para o Bing, Copilot e Edge.
Com isso, a Inflection fica em uma situação bastante delicada. A empresa é a criadora do Pi, um dos melhores assistentes de AI do mercado, mas era financiada principalmente e justamente pela Microsoft - que havia investido cerca de 1 bilhão de dólares nela. Então agora dificilmente conseguirá se manter inovando e crescendo como o planejado.
Portanto, na prática, o valor investido pela Microsoft foi como uma aquisição dos talentos da Inflection, que não são poucos.
Além de deter metade da OpenAI, a Microsoft está, cada vez mais, atraindo e concentrando os melhores especialistas em AI do mundo e se colocando como a maior potência no que se trata de desenvolvimento de Inteligências Artificiais Generativas.
O que é impressionante, mas um pouco preocupante…
Outro CEO que deixou sua empresa de AI na semana passada, foi Emad Mostaque, da Stability AI.
A Stability é criadora do Stable Diffusion e lidera o mercado quando o assunto são modelos de código aberto, mas vem tendo dificuldades de monetizar suas tecnologias.
Seu modelo de negócios independente e aberto é difícil de se sustentar em uma área que requer tanto capital para desenvolvimento e, por isso, é possível que ela seja adquirida por uma empresa maior em breve.
Provavelmente por discordar desse caminho, Emad decidiu deixar a empresa e, segundo ele, trabalhar em uma Inteligência Artificial descentralizada.
Basicamente o oposto do que a Microsoft está fazendo.
Ou será que não?
Hoje de manhã Emad postou uma foto em seu Twitter (X) mostrando que estava em chamada de vídeo com Satya Nadela, CEO da Microsoft.
Pode ser que isso signifique uma união entre o ex-CEO da Stability e a Microsoft e talvez a criação de uma divisão open source na empresa.
Com certeza, por essa ninguém esperava.
E a Microsoft continua crescendo…
Indicações
Google Gemini 1.5 Pro
Use o modelo de AI mais avançado do Google e sua janela de contexto de 1 milhão de tokens gratuitamente.
Dora
Crie sites incríveis a partir de simples prompts de texto.
Dica de Uso
Aproveite das novas janelas de contexto longas de modelos como o GPT-4 Turbo, Claude 3 e Gemini 1.5 Pro para enviar grandes quantidades de textos seus ou de algum autor que você gosta e “clonar” o estilo de escrita deles.
Para isso basta utilizar o seguinte comando:
Você é um sistema de inteligência artificial treinado para analisar o tom, a voz e o estilo de escrita de textos. Você capta todas as nuances e detalhes dos textos que analisa.
Vou te fornecer alguns textos. Você vai me devolver uma análise aprofundada e profissional dele. Crie uma descrição do estilo e tom desse texto que possa ser usada para recriar mais textos nesse mesmo estilo. Você não deve extrair nenhum conteúdo do texto, apenas focar em sua forma.
Textos = [inserir textos aqui]
Com esse prompt, você pode extrair qualquer estilo de escrita e usar as AIs para reproduzi-lo em novos textos.
Pensamento do Dia
"Our intuition about the future is linear. But the reality of information technology is exponential, and that makes a profound difference. If I take 30 steps linearly, I get to 30. If I take 30 steps exponentially, I get to a billion."
- Ray Kurzweil
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!