#62 OpenAI Criando Ferramenta de Busca e Lançando um Modelo Misterioso, AI do Google Especializada na Área Médica e Modelos de AI Chineses Alcançando GPT-4 e Sora
Mais uma semana importante e movimentada no universo das Inteligências Artificiais Generativas!
Infelizmente não conseguimos postar a newsletter na semana passada, mas a desta semana está repleta de assuntos interessantes e relevantes e tem até uma notícia bônus para compensar a ausência! Os temas de hoje são:
OpenAI criando ferramenta de busca e lançando um modelo misterioso; Med-Gemini - a AI do Google especializada na área médica; Modelos de AI chineses superando o GPT-4 e alcançando o Sora; Notícia Bônus: Phi-3 o melhor pequeno modelo de linguagem; Gere vídeos a partir de documentos de texto com AI; Obtenha todos os modelos de AI com uma assinatura única.
News
OpenAI criando ferramenta de busca e lançando um modelo misterioso
O ChatGPT agora está no domínio “chatgpt.com” ao invés do antigo “chat.openai.com”.
Na prática, isso não muda nada. É só o endereço do site e você ainda continua conseguindo acessá-lo pelo antigo URL (é redirecionado automaticamente).
Mas essa mudança faz parte de uma transformação muito maior que a OpenAI vem passando desde meados do ano passado.
A empresa foi fundada como um laboratório de pesquisas em Inteligência Artificial, mas, com o lançamento do ChatGPT - que teve uma repercussão muito maior do que o esperado - e investimentos da Microsoft, a OpenAI começou a focar em desenvolver soluções para desenvolvedores e consumidores finais.
E esse foco em consumidores finais vem ficando cada vez mais claro.
O próprio site da OpenAI, que antes exibia em primeiro plano um artigo sobre o modelo mais recente que havia sido desenvolvido (como GPT-4 ou Sora) ou um link para a página que falava da missão da empresa, agora conta com o seguinte design:
Uma barra de pesquisa e o escrito “Pergunte qualquer coisa ao ChatGPT”.
Qualquer semelhança com a página inicial do Google é mera coincidência… Ou será que não?
O The Information reportou há algumas semana que a OpenAI está prestes a lançar o seu próprio mecanismo de busca para competir diretamente com o Google.
E um fato recente que confirma essa informação foi que OpenAI acabou de registrar o domínio “search.chatgpt.com”.
Apesar do rumor parecer ser real, ainda não se sabe como essa ferramenta de busca funcionará. A combinação AI e pesquisas na internet não é nenhuma novidade e já está sendo experimentada há meses por Bing, Google, Perplexity AI e até mesmo pelo ChatGPT Plus. Porém, Sam Altman, CEO da OpenAI, comentou em sua entrevista com Lex Friedman que ninguém “decifrou o código” de como fazer isso funcionar bem ainda.
E, realmente, todos os que uniram pesquisas com AIs chegaram a um produto semelhante: você faz a pergunta, o modelo pesquisa na internet por você e te responde com base nas informações que encontrou, basicamente fazendo um “resumo” de tudo.
Ainda há muito espaço para melhorias nos produtos que temos hoje.
E, mesmo com o novo design do site da OpenAI se parecendo com o Google, Sam Altman não quer recriar uma versão melhorada dele, mas sim criar uma forma nova e mais eficiente para que as pessoas acessem informação.
Então estou curioso para ver como essa nova ferramenta de busca será e, talvez, logo descobriremos, já que pode ser que ela seja lançada ainda nesta semana - mas não há confirmação sobre isso.
De qualquer maneira, ela faz parte de uma série de lançamentos que Altman disse que a OpenAI faria antes de disponibilizar o GPT-5.
E falando em GPT-5, no final da semana passada, muitas pessoas acreditaram que o modelo estava sendo lançado pela empresa.
Isso, pois um novo e misterioso modelo chamado “gpt2-chatbot" foi postado no LMSYS Chatbot Arena - uma plataforma feita para testar e comparar e ranquear o desempenho dos chatbots de AI em diversas tarefas. Os usuários começaram a testar e notaram que sua performance era comparável e até melhor do que os principais modelos de AI, como GPT-4 e Claude 3 Opus.
Apesar da animação inicial, o modelo não era tão superior GPT-4, sendo apenas ligeiramente melhor em algumas tarefas, como raciocínio lógico e planejamento. Assim, as suposições de GPT-5 caíram por terra rapidamente e o modelo foi retirado da plataforma após poucas horas.
Mais tarde no mesmo dia, Sam Altman fez um tweet enigmático sobre o “gpt2”, o que reforçou a teoria de que ele era um modelo da OpenAI.
E nesta terça-feira, o modelo voltou ao LMSYS Chatbot Arena em duas versões, uma chamada “im-a-good-gpt2-chatbot” e outra “im-also-a-good-gpt2-chatbot”. Ambas continuam a manter um nível de desempenho semelhante ao “gpt2-chatbot”, mas com algumas diferenças entre si, como velocidade e precisão. Aqui você pode ver mais detalhes sobre as duas versões.
A explicação mais plausível para tudo isso é que esses gpt2 são versões melhoradas do GPT-4 que a OpenAI está testando e avaliando as capacidades. Talvez, inicialmente a ideia era testar discretamente, sem chamar a atenção, mas depois que todos notaram, a empresa resolveu continuar testando mesmo assim e aproveitou para brincar com os usuários colocando esses nomes.
E essa experimentação vai de encontro com o que Altman disse recentemente sobre acreditar no lançamento de melhorias graduais em seus modelos ao invés de grandes melhorias de uma só vez. Isso, para evitar surpreender demais as pessoas, garantindo que elas se adaptem a nova tecnologia.
Desta forma, teremos vários “gpt2” e “ChatGPT Search” antes de acessarmos o GPT-5…
Paciência é a chave nesse momento, acredito que valerá a pena esperar.
Med-Gemini - a AI do Google especializada na área médica
O Google acaba de lançar o melhor modelo de AI especializado na área médica do mundo. Ele se chama Med-Gemini e supera o GPT-4, que detinha o melhor desempenho na área até então.
Um feito bem impressionante.
Mas se você acompanha nossas newsletters há mais tempo, já sabe que o Med-Gemini não é o primeiro modelo de AI do Google focado na área médica.
Antes dele, o Med-PaLM e Med-PaLM 2 foram modelos lançados pela empresa com o mesmo intuito e eram capazes de entender sintomas, examinar os resultados (em formato de texto) de exames de pacientes, realizar raciocínios complexos sobre diagnósticos, identificar tratamentos mais apropriados, etc.
Tudo isso era feito com o que havia de melhor, em termos de AI, na época - afinal, o modelo PaLM 2 foi o melhor modelo do Google antes do Gemini.
Contudo, com o lançamento do Gemini, ele se tornou obsoleto.
Assim, o novo modelo médico do Google foi desenvolvido a partir dos novos Geminis 1.0 e 1.5 e demonstrou avanços significativos em raciocínio clínico, compreensão multimodal e processamento de longos textos, superando até mesmo médicos em diversos testes.
Para criar esse modelo especialista, o Gemini passou por três processos:
Fine-Tuning com dados médicos: o modelo foi refinado utilizando conjuntos de dados médicos específicos, como perguntas de exames médicos, sumários clínicos, imagens médicas, dados genômicos e vídeos de procedimentos. Este processo permitiu ao modelo adquirir conhecimento especializado e aprimorar suas capacidades para tarefas médicas.
Integração com busca na web: o modelo foi aprimorado para utilizar a busca na web de forma eficiente, permitindo acesso a informações médicas atualizada e aumento da precisão das respostas.
Encoders personalizados: o modelo ganhou a capacidade de se adaptar a novas modalidades de dados médicos, como sinais de eletrocardiogramas, através da utilização de encoders específicos para cada modalidade.
Isso fez com que o Med-Gemini, além de ter as capacidades nativas do Gemini 1.0 e 1.5, como ser multimodal e lidar com longos contextos, também tivesse conhecimento específico da área médica, fosse capaz de pesquisar na internet e conseguisse interpretar outros tipos de dados médicos.
Tudo isso fez com que o Med-Gemini desempenhasse em alto nível quando testado nos principais benchmarks do mercado, obtendo o melhor resultado até hoje em praticamente todos os testes:
Falando de alguns testes, no MedQA (United States Medical Licensing Examination, USMLE) - ele obteve um resultado de 91,1% , ultrapassando o GPT-4 superando o Med-PaLM 2 em 4,6%.
Além disso, ele se saiu melhor que o GPT-4V em testes multimodais (que trabalham com a análise de imagens), como o NEJM Image Challenge e o MMMU (saúde e medicina) - com uma margem média de 44,5% - e superou médicos especialistas em tarefas como sumarização de notas médicas e geração de cartas de encaminhamento.
Por fim, ele demonstrou habilidade de analisar dados complexos como registros eletrônicos de saúde e vídeos, superando métodos anteriores em tarefas como recuperação de informações e resposta a perguntas em vídeos médicos.
Cabe ressaltar que eu estou falando do Med-Gemini como um só modelo para facilitar o entendimento, mas ele é uma família de modelos com quatro versões distintas, cada uma com propósitos específicos:
Med-Gemini-L 1.0: focado em raciocínio avançado e busca na web. Utiliza o Gemini 1.0 Ultra como base e é ideal para tarefas que exigem conhecimento profundo e integração de informações externas.
Med-Gemini-M 1.0: focado em geração de textos longos e utiliza o Gemini 1.0 Pro como base. É indicado para tarefas como resumos médicos e cartas de encaminhamento.
Med-Gemini-M 1.5: focado em compreensão multimodal e utiliza o Gemini 1.5 Pro como base. É ideal para tarefas que envolvem imagens, vídeos e outros dados além do texto, como diagnóstico por imagem e compreensão de vídeos de procedimentos.
Med-Gemini-S 1.0: possibilita a adaptação do Gemini a novas modalidades de dados médicos, como eletrocardiogramas, através da utilização de encoders especializados.
Em resumo, o Med-Gemini é um modelo de AI médico extremamente capaz e que pode auxiliar médicos tirando dúvidas específicas, discutindo diagnósticos, analisando exames, redigindo e resumindo textos médicos, trazendo conhecimento relevante e atual, assistindo em cirurgias e procedimentos, dentre muitas tarefas.
É como um assistente muito inteligente, sempre disponível e extremamente barato.
Por enquanto o Med-Gemini não está disponível para ser acessado, mas você pode ser tudo sobre ele nesse artigo publicado pelo Google e é esperado que em breve ele poderá ser acessado via Google Cloud API.
Todavia, é indiscutível que modelos como esse farão parte do cotidiano de médicos em um futuro muito próximo e é possível que, com o avanço de suas capacidades, eles venham a substituir muitos destes profissionais.
Apesar de haver um receio de utilizar Inteligência Artificial em uma área tão delicada e que não permite erros e dos modelos ainda falharem, o potencial da tecnologia é tão grande que sua adoção é inevitável.
Modelos de AI chineses superando o GPT-4 e alcançando o Sora
Falando em superar o GPT-4, uma empresa chinesa chamada SenseTime alega ter criado um novo modelo de AI que supera o modelo da OpenAI em quase todos os testes.
A SenseTime é uma empresa de Inteligência Artificial parcialmente estatal e com sede em Hong Kong. Recentemente, ela anunciou em um evento o seu novo grande modelo de linguagem, o SenseNova 5.0.
De acordo com o mencionado no evento, o SenseNova 5.0 é um modelo multimodal, capaz de trabalhar e gerar tanto imagens quanto textos.
Construído usando a arquitetura Mixture of Experts (MoE) - a mesma usada por modelos como Gemini, Mistral e talvez o próprio GPT-4 Tubo - e treinado com cerca de 10B de tokens, o modelo atinge uma performance no mesmo nível dos melhores modelos do mundo e tem uma janela de contexto de 200 mil tokens.
Configurações bem a par com o que temos visto aqui no ocidente.
Falando de número de desempenho, o modelo chinês foi testado nos principais benckmarks do mercado e comparado com o GPT-3.5 Turbo, GPT-4 Turbo, LLaMA 3 70B e LLaMA 2 70B, como você pode ver abaixo:
De acordo com a tabela, ele supera o GPT-4 em 12 dos 14 testes. No entanto, os números relativos ao desempenho do modelo da OpenAI não estão corretos - eles são inferiores aos obtidos pelas últimas versões do modelo em vários do benchmarks.
Levando isso em consideração, é seguro afirmar que o SenseNova 5.0 se aproxima do “estado da arte” mas ainda não supera os principais modelos.
Outro modelo chinês que está se aproximando do modelo da OpenAI é o Vidu.
Vidu é um modelo de geração de vídeos com AI criado pela Shengshu Technology - startup de AI fundada em 2023 em Pequim - em parceria com a Tsinghua University. Ele é capaz de gerar vídeos de até 16 segundos, com resolução de 1080p, a partir de simples prompts de textos.
Apesar de não gerar vídeos de longa duração (até 1 minuto) como o Sora, a qualidade dos vídeos que ele gera é bem impressionante - mas não melhor do que o Sora.
Você pode ver alguns exemplos de vídeos gerados por ele clicando aqui. Desconsiderando o Sora, esse é o melhor modelo de geração de vídeos que já vi.
Os seus vídeos têm consistência, realismo e criatividade.
Aparentemente, o Vidu ainda não pode ser acessado diretamente (é difícil ter certeza quando o site todo da empresa está em mandarim), mas o link de acesso ao site é esse aqui.
E por enquanto é difícil desfrutar dessas tecnologias por conta da barreira linguística.
De qualquer maneira, quis trazer essas notícias para mostrar que a China também está bem avançada no desenvolvimento de suas AIs.
E isso reforça a ideia que não existe a ideia de “frear o desenvolvimento das Inteligências Artificiais” - mesmo se um governo conseguir fazer isso no seu país, outros países continuarão desenvolvendo a todo vapor.
Notícia Bônus: Phi-3 o melhor pequeno modelo de linguagem
A Microsoft acaba de lançar o Phi-3. O modelo de linguagem vem em três versões (de 3.8, 7 e 14B de parâmetros), que apesar de pequenas, tem um desempenho muito bom e comprável a modelos muito maiores.
A menor de suas versões, o phi-3-mini rivaliza com modelos como Mixtral 8x7B e GPT-3.5 e consegue rodar em um telefone!
Esse é um grande avanço no campo dos modelos menores e um passo adiante para ter modelos de AI de ponta funcionando localmente em todos nossos dispositivos.
Para ler mais sobre o Phi-3, basta clicar aqui.
Indicações
Brainy Docs
Transforme documentos de texto em vídeos explicativos automaticamente com essa AI.
Magai
Acesse todos os principais modelos de AI do mundo pagando uma só assinatura - que custa o mesmo tanto do ChatGPT Plus.
Dica de Uso
Sempre falo sobre as AIs serem ótimas ferramentas para expandir a criatividade humana.
Mas, muitas vezes, nós as usamos apenas para fazer as mesmas coisas que fazíamos antes, só que mais rapidamente e com menos esforço.
E não tem problema isso, só é um pouco de desperdício.
Se começamos a vê-las não só como uma ferramenta de produtividade, mas uma ferramenta criativa, é possível fazer com que tarefas cotidianas se tornem mais legais e interessantes.
Quer alguns exemplos:
Se você tem filhos, por que não cria histórias personalizadas para ler para eles antes de dormir? Ou não usa o DALL-E 3 para tornar real aquele monstro que ele desenhou?
Se você é professor, por que não cria jogos interativos no ChatGPT para seus alunos jogaram enquanto aprendem?
Se seu amigo está fazendo aniversário, por que não gera uma música única para ele usando o Suno ou Udio?
Se você gosta de filosofia, por que não debate com os principais pensadores de cada época?
E por ai vai!
Existem muitas formas criativas de usar essas AIs, basta dedicar um pouco de tempo e experimentar. É muito legal!
Pensamento do Dia
“Você está prestes a entrar na maior era de ouro das possibilidades humanas... Para prosperar nesse mundo, as habilidades que importam são: profunda familiaridade com as ferramentas, acompanhar as mudanças, desenvolver uma grande intuição para ferramentas de AI - onde as coisas estão indo e como fazer uso disso -, resiliência e capacidade de aprender coisas rapidamente e evoluir com a tecnologia"
- Sam Altman
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!