#79 OpenAI Perdendo Líderes Importantes e Passando por Transição, Novidades de AI da Meta e o Sucesso do NotebookLM
Seja bem-vindo(a) a mais uma newsletter do Revolução AI. Aqui você não perde nada sobre o universo das Inteligências Artificiais Generativas!
A edição de hoje está cheia de assuntos interessantes e relevantes! Os temas de hoje são:
OpenAI perdendo líderes importantes e passando por transição; Novidades de AI da Meta; O sucesso do NotebookLM - nova ferramenta do Google; Converse com o Copilot via WhatsApp; Humanize seus textos gerados com AI.
News
OpenAI perdendo líderes importantes e passando por transição
A OpenAI acaba de perder a sua CTO, Mira Murati, e outros líderes de pesquisa importantes.
Esta não é a primeira vez que a empresa passa por isto esse ano. Na verdade, mais de 20 funcionários chave deixaram a OpenAI em 2024.
Para entender o que está acontecendo atualmente com uma das empresas mais importantes do século, é fundamental olhar para o seu passado e as transformações que ela vem passando.
Então vamos voltar um pouco no tempo.
O passado
A OpenAI foi fundada em 2015 como um laboratório de pesquisa sem fins lucrativos, com a missão de desenvolver uma Inteligência Artificial Geral (AGI) segura e benéfica para a humanidade.
Os co-fundadores, incluindo Sam Altman, Ilya Sutskever, Elon Musk e outros, estavam comprometidos com uma abordagem cautelosa e alinhados à missão principal.
Inicialmente, a empresa era composta por um reduzido time de pesquisadores altamente qualificados, funcionava com menos recursos e focava exclusivamente na pesquisa em AI.
Na medida em que as pesquisas avançavam, mais recursos eram necessários para continuar o desenvolvimento - afinal, essa área demanda muito poder computacional.
Assim, em 2019, a OpenAI deu um passo importante ao aceitar um investimento bilionário da Microsoft, o que levou à criação de uma nova estrutura híbrida: uma organização sem fins lucrativos que controlava uma subsidiária com fins lucrativos chamada OpenAI LP. A Microsoft, desta forma, passaria a deter uma parte da OpenAI LP - parte que hoje, após um investimento posterior de 10 bilhões de dólares, é correspondente a 50% da empresa.
Esse movimento marcou o início de uma transição gradual da OpenAI de um laboratório de pesquisa para uma empresa focada também em lançamentos comerciais.
E uma série de conflitos surgiriam por conta disso.
Quando o ChatGPT foi lançado no final de 2022 e atingiu uma popularidade muito maior do que os líderes da empresa esperavam, a empresa começou o seu crescimento astronômico.
A partir daquele momento, uma série de modelos (GPT-4, DALL-E 3, GPT-4o, Sora, o1) foram lançados e o ChaGPT se desenvolveu como algo muito mais comercial.
Ao mesmo tempo, a empresa passou de 375 funcionários em 2022 para 3531 em setembro de 2024. Um aumento absurdo.
Com este rápido crescimento, alguns membros da equipe, incluindo cientistas de AI e pesquisadores de segurança, começaram a questionar a velocidade com que a empresa estava lançando novos modelos. Um exemplo recente disso foi o lançamento do GPT-4o, que trazia riscos por conta de seu modo de voz, mas foi apressado para coincidir com eventos importantes do setor.
Esses conflito “pesquisa x lançamentos comerciais” começou a ficar aparente na demissão de Sam Altman em novembro de 2023 pelo conselho da OpenAI - que alegou “problemas de comunicação e confiança”.
Como contamos na época, menos de cinco dias depois, após uma onda de apoio de funcionários e investidores – incluindo a Microsoft – Altman foi reintegrado como CEO.
Contudo, nos meses seguintes mais conflitos internos surgiram.
Em maio de 2024, Ilya Sutskever e Jan Leike, dois dos principais cientistas responsáveis pelo time de superalinhamento da OpenAI, pediram demissão. O superalinhamento era um projeto importante que visava garantir que futuras AIs superinteligentes permanecessem alinhadas com os valores humanos. A saída de Sutskever e Leike foi motivada por divergências com a liderança da empresa sobre prioridades.
Somado a isso e à saída de outros lideres menos conhecidos, Greg Brockman, co-fundador da OpenAI e “aliado” de Sam, também decidiu se afastar da empresa temporariamente. Segundo Brockman, ele precisava de uma pausa com a sua família, depois de anos de ritmo intenso e pressão na OpenAI.
O presente
Atualmente, após um ano de crescimento, lançamentos relevantes e turbulência interna, a OpenAI passa por uma fase de transição.
De acordo com o reportado pela Reuters, ela está se preparando para se tornar uma corporação com fins lucrativos, removendo o controle direto do board sem fins lucrativos que governava suas decisões até então. Essa mudança, que ainda está em andamento, facilitará a captação de novos investimentos e aumentar a flexibilidade da empresa para operar como uma corporação normal, sem a interferência constante do conselho original.
Após essa transição, a OpenAI está até considerando conceder participação acionária a Sam Altman, que até então sempre recusou deter qualquer parte da empresa.
Ao mesmo tempo que a reestruturação ocorre, a empresa está recebendo uma nova rodada de investimentos que, quando finalizada em alguns dias, deverá elevar o seu valor de mercado para 150 bilhões de dólares - enquanto eu finalizava essa newsletter, a OpenAI anunciou que a rodada foi finalizada e que está recebendo 6.6 bilhões de dólares a um valuation de 157 bilhões.
Apesar do momento importante - e da necessidade de transmitir estabilidade aos investidores - Mira Murati, CTO da OpenAI, acaba de deixar a companhia.
E ela o faz alguns dias após o lançamento do novo modelo da empresa, o o1, assim como fez Ilya após o lançamento do GPT-4o.
Coincidência ou não, Mira, que esteve na empresa por mais de 6 anos e chegou até ser CEO interina na breve ausência de Altman, afirmou que está saindo para “explorar novos caminhos”.
Mas muitos, dentro e fora da OpenAI, enxergam sua saída como produto dos conflitos internos.
Junto de Mira Murati, o vice presidente de pesquisa, Barret Zoph, e o chefe de pesquisa (CRO), Bob McGrew, também estão deixando a empresa.
Mesmo Sam Altman tendo respondido isso afirmando que mudanças na liderança são naturais para uma empresa em crescimento rápido, a velocidade em que a OpenAI vem perdendo seus líderes é um pouco alarmante.
Encontrar um equilíbrio entre essa dicotomia entre a missão de pesquisa e as demandas do mercado é o maior desafio que a empresa tem enfrentado.
E fazer isso com exito será fundamental para que o desenvolvimento das AIs continue acelerado e sustentável.
Vamos acompanhar.
Novidades de AI da Meta
A Meta acaba de anunciar cinco novidades de AI bem interessantes.
Os anúncios aconteceram no Meta Connect, um evento anual onde a Meta atualiza seus usuários sobre tecnologias que estão sendo desenvolvidas e lançadas.
No deste ano, Mark Zuckerberg apresentou algumas novidades importantes envolvendo wearables, jogos e AI.
Vamos focar na parte de AI - então separei as cinco principais notícias que foram trazidas no evento.
Llama 3.2 multimodal
A Meta acaba de lançar o Llama 3.2.
Essa nova versão do modelo de AI da Meta vem em quatro tamanhos diferentes: 1B, 3B, 11B e 90B.
As duas versões maiores, com 11B e 90B parâmetros, se diferenciam das outras por serem multimodais, ou seja, elas são capazes de compreender tanto texto quanto imagens - até então, todos os modelos de linguagem da empresa só conseguiam interpretar texto, o que limitava suas aplicações.
Suas capacidades de visão estão a par com os modelos do mercado com tamanho semelhante - a de 90B está no mesmo nível do Clude 3 Haiku, por exemplo.
As versões com 1B e 3B parâmetros, apesar de não serem multimodais, são otimizadas para rodar em dispositivos móveis, como smartphones e tablets. Esses modelos são leves o suficiente para rodar localmente nos dispositivos, sem a necessidade de uma conexão com à internet para que a AI responda o usuário - garantindo maior privacidade e velocidade nas respostas.
Isso é bem interessante e, em breve, qualquer celular deverá vir com um modelo de AI pequeno e seguro como este já instalado.
Por enquanto esses modelos bem pequenos não são muito capazes, mas eles estão melhorando rápido.
Edição de imagens com AI
Agora é possível editar imagens diretamente do Meta AI.
Para quem não sabe, o Meta AI é como o “ChatGPT” da Meta, podendo ser acessado via Instagram, Whatsapp e em seus próprio site. Ele é gratuito, mais ainda não está disponível no Brasil - algo que deve mudar em breve.
O app já permitia a geração de imagens com AI e a edição das imagens geradas. Mas agora os usuários podem modificar as próprias imagens no Meta AI, basta enviá-las e escrever um comando com o que deseja alterar (ex: “mude a cor da minha camiseta para azul”).
Uma nova funcionalidade simples, mas útil.
Modo de voz no Meta AI
A Meta também adicionou um novo modo de voz ao Meta AI, possibilitando que os usuários se comuniquem com a AI por meio de fala - assim como o Modo de Voz Avançado da OpenAI ou o Gemini Live do Google.
Aparentemente, a qualidade da nova função é bem boa, soa bastante natural, responde rápido e permite interrupções.
Além disso, algumas das vozes do assistente são de celebridades, como John Cena e Kristen Bell.
AI Studio
O AI Studio é uma das novidades mais legais do Meta Connect 2024.
Ele permite que criadores de conteúdo desenvolvam seus próprios “clones de AI” para interagir com seus seguidores.
Imagine que você é um influenciador ou figura pública. Criando um clone no AI Studio, o seus seguidores poderão enviar mensagens para ele e até conversar por vídeo ou por voz.
A AI seria treinada com sua imagem, voz e personalidade e responderia com base em informações que você já compartilhou nas plataformas da Meta, como Facebook, Instagram e Threads.
Isso pode ser uma ferramenta muito poderosa para engajamento de audiência e com certeza será adotada em um futuro próximo.
Dublagem automática com AI
A Meta também apresentou uma funcionalidade muito útil para criadores de conteúdo: a dublagem automática com AI para os Reels (vídeos curtos do Instagram).
Habilitando a nova função, os seus vídeos serão traduzidos e dublados, automaticamente, em diferentes idiomas, expandindo o alcance do conteúdo para públicos internacionais. O que é algo incrível.
Inicialmente, o recurso estará disponível em inglês e espanhol, mas a Meta planeja adicionar mais idiomas futuramente.
O mais legal é que a funcionalidade inclui não apenas a tradução do áudio, mas também a sincronização labial para que o vídeo pareça natural, mesmo quando dublado em outro idioma - e isso faz toda diferença.
Tradução instantânea nos Meta AI Glasses
Os Meta AI Glasses - que são óculos inteligentes da Meta, em parceria com a Ray-Ban, que possuem Inteligência Artificial integrada - receberam duas atualizações.
A primeira delas é a tradução instantânea, que permite que os óculos traduzam conversas em tempo real. Essa funcionalidade capta um idioma estrangeiro e traduz para o idioma do usuário via áudio. É algo que já era previsto em seu lançamento e agora está implementado.
A segunda atualização é que os óculos agora podem lembrar informações para o usuário. Por exemplo, se você estacionar o carro em um shopping, pode pedir ao Meta AI para guardar onde você estacionou (usando sua função de visão) e, mais tarde, quando precisar, perguntar aos óculos onde seu carro está localizado.
Duas atualizações bem úteis.
Com isso, nós encerramos as novidades do Meta Connect 2024.
Apesar de algumas delas ainda não estarem disponível de maneira imediata, principalmente para nós, brasileiros, elas demonstram um avanço importante da integração das AIs no ecossistema da Meta.
O sucesso do NotebookLM - nova ferramenta do Google
Uma ferramenta experimental do Google vem atraindo mais atenção do que o próprio Gemini.
Seu nome é NotebookLM e ela consiste em, basicamente, um app de anotações com AI.
A ferramenta existe há mais de um ano e eu acredito que tenha sido um dos primeiros a testar. Falei dela nas nossas indicações da newsletter número 27, de agosto de 2023.
O NotebookLM foi projetado para transformar a forma como lidamos com anotações e documentos. Inicialmente voltada para educadores e estudantes, o NotebookLM passou a ser adotado por um publico mais amplo devido à sua capacidade de processar e sintetizar grandes volumes de informações de maneira rápida e eficiente.
Mas como ela funciona exatamente?
O processo do NotebookLM é muito simples. O usuário entra na plataforma e cria um novo “bloco de notas”.
Em seguida, ele seleciona quais serão as fontes que alimentarão esse bloco. Podem ser links de vídeos do youtube, PDFs, apresentações de slides, textos, links de sites e até arquivos de áudio.
O usuário pode adicionar até 50 fontes por bloco de notas.
Uma vez feito o upload do documento, a AI entra em ação - mais especificamente, o modelo Gemini 1.5 Pro.
Automaticamente, é gerado um resumo das fontes carregadas, assim como uma série de perguntas sugeridas.
A partir daí o usuário pode fazer perguntas sobre o conteúdo, pedir resumos, solicitar que a AI destaque pontos importantes, gerar guias de estudo completos com base no material carregado e muito mais. As respostas que o sistema dá vêm com citações diretas extraídas do texto - e o usuário pode clicar nos links e lê-las nos próprios documentos.
O usuário pode guardar todas as respostas da AI como “notas”, que juntas formarão o seu bloco de notas para aqueles conteúdos - o que ajuda bastante para estudar e recuperar informações rapidamente.
É realmente muito útil e permite que os usuários interajam com uma grande quantidade de informações de maneira simples, integrada e organizada. E funciona bem.
Porém, não é por conta disso que estou falando da ferramenta nesta newsletter.
O que realmente colocou o NotebookLM em evidência recentemente foi o lançamento de sua função “Audio Overview”.
Essa funcionalidade viralizou na internet nos últimos dias e permite que os documentos carregados nos blocos de notas sejam transformados em discussões de áudio entre dois anfitriões de AI.
É como um podcast interativo, em que os anfitriões discutem e debatem os principais pontos do conteúdo. Eles fazem conexões entre temas, resumem as ideias e apresenta os tópicos de forma mais leve, agradável e até divertida.
Dá só uma olhada nesse exemplo.
De fato é como se você tivesse ido ao Spotify e encontrado um podcast exatamente sobre o assunto que você está estudando.
E o processo para criar um Audio Overview sobre os seus documentos é muito simples, é só fazer o upload em um bloco (como expliquei acima) e clicar no botão de gerar esse “podcast”.
A qualidade do que é gerado é realmente incrível. As AIs conversam de forma extremamente natural, são curiosas, tratam o assunto de uma maneira muito interessante e prendem a atenção do usuário enquanto ele aprende.
Fiz um teste com meu TCC e gostei muito do resultado. O único detalhe foi que uma ou outra informação citada pela AI não era exatamente o que estava escrito no documento - houveram pequenas alucinações.
Mas no geral é bem legal.
O Audio Overview tem diversas aplicações. Estudantes e professores podem revisar e compartilhar materiais de estudo em formato de áudio, profissionais corporativos e consultores podem transformam relatórios e apresentações em discussões engajantes e fáceis de compreender, pesquisadores, podem tornar seus artigos e descobertas palatáveis para o público geral e por aí vai. As possibilidades são inúmeras.
E pode até ser que esse seja o futuro dos podcasts - no qual qualquer pessoa vai poder gerar, de maneira instantânea, podcasts personalizados para seus interesses e preferências.
Infelizmente, a nova função por enquanto só gera áudios em inglês. Mas, muito em breve, novos idiomas serão contemplados.
Também são esperadas novas funcionalidades e melhorias gerais para o NotebookLM nas próximas semanas.
De qualquer maneira, temos que dar os créditos ao Google por acertar nessa ferramenta de AI. Esse é um das centenas de experimentos que a empresa desenvolve - a maioria não dá certo, mas alguns encaixam perfeitamente com as necessidades de seus usuários.
Recomendo que você teste o NotebookLM e, se tiver facilidade com o inglês, teste a função de áudio. Vale a pena e é bem provável que você encontre alguma aplicação para ela no seu dia a dia e até se divirta.
Basta clicar aqui para acessar.
Indicações
Copilot no WhatsApp
Converse com o Copilot, assistente de AI da Microsoft que utiliza o GPT-4o, diretamente de seu WhatsApp.
Humanizador IA
Use esse GPT para “humanizar” os textos gerados por AI de forma automática.
Dica de Uso
O Google mapeou que as empresas estão usando AI generativas em seis principais categorias.
Resolvi trazê-las para te dar um pouco de clareza sobre onde e como utilizar AIs na sua vida profissional ou no seu negócio:
Agentes de Atendimento ao Cliente: automatizam interações, oferecem recomendações personalizadas e otimizam a experiência do usuário em diversos canais.
Agentes para Colaboradores: aumentam a produtividade dos funcionários, gerenciam tarefas repetitivas e ajudam na colaboração interna.
Agentes de Código: aceleram o desenvolvimento de software, melhoram a qualidade do código e permitem automações personalizadas para programadores.
Agentes de Dados: facilitam análises complexas, sintetizam pesquisas e respondem perguntas com base em fontes internas e externas.
Agentes de Segurança: automatizam a detecção de ameaças, aceleram investigações e melhoram a resposta a incidentes de cibersegurança.
Agentes Criativos: auxiliam na criação de conteúdo, como textos, vídeos e imagens, otimizando campanhas de marketing e produção audiovisual.
Independentemente de qual delas você deseja explorar, nós podemos te ajudar nisso, então não exite em entrar em contato!
Pensamento do Dia
“Acho que neste ponto as definições realmente importam. Estamos chegando perto”
- Sam Altman, sobre o quão perto estamos de uma AGI.
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!