#67 Tudo Sobre a Entrada da Apple na Corrida das AIs, Lançamento de 3 Novos Modelos de Geração de Vídeo e Ex-funcionário da OpenAI Prevê AGI em 2027
Seja bem-vindo(a) a mais uma newsletter do Revolução AI! Peço desculpas por não ter tido a edição da semana passada, mas acredito que os assuntos dessa semana irão compensar a ausência.
Eles estão extremamente interessantes e são muito relevantes. Os temas de hoje são:
Tudo sobre a entrada da Apple na corrida das AIs; Lançamento de três novos modelos de geração de vídeo para competir com o Sora; Ex-funcionário da OpenAI prevê AGI em 2027; Analise seu site com AI; Gere prompts para geração de imagens automaticamente.
News
Tudo sobre a entrada da Apple na corrida das AIs
Na segunda-feira da semana passada ocorreu a Worldwide Developers Conference (WWDC) 2024.
A Apple realiza esse evento anualmente para anunciar novidades acerca de seus produtos e serviços. Por ser voltado principalmente para desenvolvedores de software, é um evento mais técnico. Mas o deste ano nos interessa muito!
Afinal, a empresa o utilizou para declarar oficialmente sua entrada na corrida das Inteligências Artificiais Generativas e anunciar tudo o que tem feito com essas tecnologias.
Finalmente, temos novidades sobre os modelos de AI da Apple, a Siri 2.0 e uma série de integrações de AI no iPhone, Mac e iPad.
A Apple chamou todas as novidades de “Apple Intelligence” e eu reuni as principais para discutir com vocês:
Siri 2.0
Falando primeiramente da nova Siri, a primeira diferença para anterior é visual. Agora, quando você “chama” a Siri uma luz colorida e brilhante se acende contornando a tela - mostrando que ela está ouvindo.
Fora essa atualização de design, agora é possível interagir com Siri por meio de digitação, não só por fala. Particularmente, eu acho isso muito útil, pois nem sempre o ambiente permite o uso de fala e, às vezes, a solicitação pode ser melhor explicada se for por texto.
Mas o que realmente importa é que a Siri 2.0 será integrada à modelos de AI Generativa e passará a ser muito mais útil do que antes.
A nova Siri saberá sobre o usuário e usará essas informações como contexto para dar suas respostas. Isso permitirá uma personalização muito maior nas respostas, que serão mais adequadas a realidade e situação de cada um.
Além disso, ela responderá perguntas de forma muito mais profunda, completa e precisa do que antes.
E o melhor- a Siri será capaz de realizar ações dentro dos aplicativos pelo usuário.
Olhá só um exemplo: pense que você está lendo um longo documento que seu chefe pediu para você analisar. Sem tempo, você chama a Siri e solicita que ela resuma e analise o texto, envie a análise por e-mail para o seu chefe e marque uma reunião amanhã às 12:00 para você discutir o assunto com ele.
Uma tarefa que levaria vários minutos, ou até horas, pode ser realizada em poucos segundos com a nova Siri.
Isso é incrível. Muito em breve, como já falamos aqui tantas vezes, a Siri será um verdadeiro agente autônomo, como o JARVIS, fazendo tudo por nós em nossos celulares.
Geração de imagens e emojis
Agora será possível gerar imagens com AI diretamente do iPhone, Mac ou iPad a partir de comandos de texto.
Isso, graças ao novo modelo de geração de imagens da Apple.
O gerador de imagens pode ser acessado em um app chamado “Image Playground” ou no próprio teclado do sistema - essa segunda opção permite que o usuário crie imagens estando em qualquer aplicativo.
Para gerar as imagens o usuário envia um prompt e escolhe o estilo da imagem (animação, ilustração ou desenho).
Um número bem limitado de estilos possíveis e nada de imagens realistas. Isso parece ser uma forma de limitar eventuais problemas futuros e de esconder a real qualidade do modelo - que, pelas demonstrações, parece ser bastante mediana comparada aos melhores do mercado.
Além disso, os usuários poderão gerar emojis com AI. A partir do teclado, basta descrever o emoji que deseja criar ou enviar uma foto de alguém (caso queira criar um emoji baseado em uma pessoal real) e em segundos o seu emoji personalizado está criado e pronto para ser utilizado em suas conversas.
Essa função é simples, mas interessante.
Geração e edição de textos
Sobre escrita de textos, agora será possível, dentro de qualquer aplicativo, usar AI para escrever e modificar textos de forma automática.
Selecionando qualquer texto, o usuário verá um menu, no qual ele poderá descrever o que deseja modificar no texto ou escolher opções pré-definidas - que o permitem revisar ou reescrever o texto, alterar o seu tom (profissional, conciso ou amigável) ou gerar, a partir dele, resumos, listas, tabelas, etc.
Priorização de notificações
As notificações que chegam nos aparelhos dos usuários durante o dia todo agora poderão ser priorizadas. Uma nova função bastante útil.
Como falei na parte da Siri, a “Apple Intelligence” terá conhecimento sobre o usuário e o seu contexto. Assim, tendo essa noção, a AI será capaz de analisar as notificações que chegam e julgar, com base no contexto, se elas são ou não importantes.
Assim, o usuário poderá ver primeiro e em destaque aquilo que o interessa ou é urgente, sem se perder no mar das notificações inúteis.
Transcrição de áudios
Finalmente, a Apple agora permite transcrever e resumir ligações e anotações por voz.
Basta clicar em gravar nos aplicativos Notas ou Telefone para capturar gravações e transcrições de áudio, que serão transcritas e resumidas automaticamente por AI.
Modelos de AI
Essas são as principais novidades anunciadas.
Mas imagino que você deve estar lendo todas essas novidades e se perguntando qual é a AI por trás da tal “Apple Intelligence”? É o GPT-3.5? É o GPT-4o? É um modelo próprio da Apple?
A resposta para essa pergunta é sim.
É o GPT-3.5, é o GPT-4o e são também os modelos de AI desenvolvidos pela própria Apple.
Os recursos de AI que estarão nos dispositivos da empresa são uma junção de vários modelos, que serão acionados de acordo com o tipo e a complexidade de cada solicitação.
Para tarefas simples, um pequeno modelo de AI - de apenas 3B de parâmetros - será acionado. Ele roda diretamente do dispositivo e, por isso, oferece velocidade, custo zero e muita segurança (já que os dados não saem do sistema).
Em termos de capacidade, esse modelo é comparável ao Phi-3-mini, da Microsoft, e o Gamma-2B, do Google.
Já para tarefas mais complexas, um modelo de AI maior (o número de parâmetros não foi informado) e que roda em um servidos da própria Apple é acionado.
Apesar de não haver comparativos claros desse modelo da Apple com os principais modelos do mundo, pelos poucos testes revelados e por tudo que foi falado a respeito, é relativamente seguro afirmar que ele deve performar entre o GPT-3.5 e o GPT-4.
O que não é muito impressionante. E por conta disso, a Apple oferece a opção dos usuários utilizarem os modelos da OpenAI para tarefas que os seus modelos não dão conta.
Mas um aspecto interessante dos modelos que a Apple desenvolveu é que eles foram refinados para serem mais seguros e seguirem melhor os comandos dos usuários.
De qualquer maneira, isso é tudo sobre a “Apple Intelligence”. Por enquanto nada incrível, mas com muito potencial.
Tudo isso será integrados ao iOS 18, iPadOS 18, and macOS Sequoia e estará disponível, apenas para iPhone 15 Pro, iPhone 15 Pro Max e iPad e Mac com M1 ou posterior, até o final do ano.
Seja bem-vinda à corrida das AIs, Apple, queremos ver tudo o que foi anunciado funcionando na prática.
Lançamento de três novos modelos de geração de vídeo para competir com o Sora
No início do ano a OpenAI anunciou o Sora e chocou o mundo com a qualidade dos videos que o modelo de AI era capaz de gerar.
Naquela época, aquilo representou um salto enorme em relação a tudo que existia até então e, pela primeira vez, a geração de vídeos com Inteligência Artificial foi levada a sério.
Já em Maio, o Sora ganhou seu primeiro competidor. Desenvolvido em Pequim, o modelo chinês se chamava Vidu e se aproximava bastante do Sora em termos de qualidade, mas a duração de seus vídeos ainda era bem menor. Falamos dele aqui.
Mais adiante no mesmo mês, o Google anunciou o lançamento do Veo - o seu desafiante ao Sora. O Veo se aproximava do Sora tanto em qualidade, quanto na consistência e duração dos vídeos. Falamos dele aqui.
Apesar de serem impressionantes, assim como o Sora, nenhum desses modelos estão disponíveis para serem acessados até hoje.
Enquanto eles esperam para abrir o acesso, novos modelos de geração de vídeos estão sendo lançados. Nesse mês de Junho tivemos o lançamento de três novos e incríveis modelos.
Vamos conhecer cada um deles:
Kling
Criado pela Kuaishou Technology - empresa chinesa por trás do Kwai -, o Kling é um modelo de Inteligência Artificial de geração de vídeo a partir de comandos de texto.
O modelo gera vídeos de 30 frames por segundo com duração de até dois minutos (!) e resolução de 1080p. Além disso, assim como o Sora, ele permite que os vídeos tenham diferentes formatos (horizontal, vertical).
Você pode ver exemplos de vídeos que ele gerou aqui.
A qualidade realmente é muito alta e o seu forte parece ser realismo. Os vídeos gerados pelo modelo são consistentes e seguem, relativamente bem, as leias da física.
Pra acessar o modelo é necessário baixar um app, seguir algumas instruções e fazer cadastro com um número de telefone chinês - o que o torna basicamente impossível de acessar no momento. Mas se você quiser tentar é só clicar aqui.
Dream Machine
A recém fundada Luma AI lançou na semana passada o Dream Machine - seu modelo de geração de vídeos.
Diferentemente das outras empresa, ela abriu o acesso para todos e, em menos de uma semana já possui 1 milhão de usuários. Uma marca absurda.
O seu modelo de AI tem uma qualidade muito alta, gerando vídeos consistentes a a partir de comandos de texto ou imagens (“dando vida” a elas). O modelo se sai bem em vários estilos, de animação até realismo. Olha só.
No entanto, o grande ponto negativo dele é que ele só gera vídeos de até 5 segundos - não da para saber ainda se é uma limitação do modelo ou uma escolha da empresa. Mas, pelo menos, é possível estender os vídeos criados.
Qualquer pessoa pode experimentar gerar vídeos no Dream Machine (eles oferecem uma quantidade de gerações limitadas gratuitamente), sem listas de espera. Basta entrar aqui.
Por enquanto o modelo está longe de ser perfeito, mas tem muito potencial, principalmente considerando as ferramentas de edição que serão integradas a ele em breve.
Gen-3
Quem aí lembra da Runway, uma das pioneiras na geração de vídeos com AI?
A empresa foi ofuscada completamente desde que o Sora foi lançado, contudo, após alguns meses, ela voltou para responder à altura.
Nesta segunda, foi anunciado o Gen-3, a terceira geração de modelos de AI da Runway.
O modelo é um grande avanço em relação a sua geração anterior e é capaz de gerar vídeos extremamente impressionantes - alguns praticamente indistinguíveis dos gerados por humanos. Veja alguns exemplos.
Em termos de qualidade e consistência, não vejo muita diferença em relação ao Sora.
O modelo gera vídeos de até 10 segundos (não se sabe se por limitação do modelo ou escolha da Runway), a partir de prompts de texto ou imagens.
O melhor de tudo é que logo ele será integrado a uma série de ferramentas criativas que a Runway já tem - como edição localizada, controle de câmeras e o modo diretor.
Por enquanto ele não está disponível para o público, mas isso não deve demorar.
Muito em breve veremos filmes completos e sendo criados utilizando AI e cada vez mais pessoas poderão expressar sua criatividade com a tecnologia. Se você não acredita isso, espere mais um ano…
Dito isso, ainda estamos aguardando ansiosamente o Sora.
Ex-funcionário da OpenAI prevê AGI em três anos
Um ex-funcionário da OpenAI, Leopold Aschenbrenner, publicou recentemente um documento de 165 páginas prevendo o futuro das Inteligências Artificiais - argumentando sobre a possibilidade de atingirmos uma Superinteligência ainda nesta década.
O documento tem o título de “Situational Awereness: The Decade Ahead” e eu o li na integra para trazer os pontos principais aqui. Afinal, é muito importante ter uma boa perspectiva do futuro.
Neste documento, Leopold diz que poucos tem noção do que está por vir e do desenvolvimento enorme das AIs que muito provavelmente ocorrerá nos próximos anos. Mas ele, como um insider, como alguém que trabalhou na principal empresa do mundo no campo, tem uma consciência muito melhor da situação.
Tendo essa consciência e analisando tendências ele acredita que chegaremos a uma AGI (Artificial General Intelligence) - um sistema autônomo que supera os humanos em todas (ou quase todas) as atividades economicamente valiosas - já em 2027.
E isso poderia mudar completamente o rumo da humanidade.
Mas essa data não é um mero achismo da parte dele. Para chegar a essa previsão, basicamente, ele analisou a evolução dos grandes modelos de linguagem (LMMs) - do GPT-2 ao atual GPT-4 e extrapolou o progresso para modelos futuros.
Leopold demostra que o progresso do campo tem sido extraordinário: em apenas uma década, o Deep Learning passou de mal conseguir identificar imagens simples para superar testes destinados a alunos do ensino médio e da faculdade.
Ele mostra isso falando sobre as capacidade de cada um dos modelos de linguagem lançados pela OpenAI:
O GPT-2, lançado em 2019, mal conseguia contar até 5 sem se perder e era análogo a uma criança em idade pré-escolar.
O GPT-3, lançado em 2020, já criava textos minimamente coerentes, conseguia lidar com programação básica, e se assemelhava a um aluno do ensino fundamental.
E o GPT-4, lançado em 2023, já demonstra raciocínio sofisticado, capacidade de resolução de problemas e supera a maioria dos alunos do ensino médio em testes padronizados.
Em quatro anos, saltou-se de uma criança na idade de jardim da infância para um aluno do ensino médio muito inteligente!
Leopold analisa que três fatores principais foram os impulsionadores do progresso:
Poder computacional: é provado que quanto maior é o poder computacional utilizado para treinar os modelos de linguagem, mais capazes e “inteligentes” eles ficam.
E esse poder computacional de treinamento para LLMs tem crescido a ~0,5 ordens de magnitude (OOMs) por ano - ou seja, 5x maior a cada ano -, impulsionado por investimentos massivos.
Para se ter uma noção, o GPT-4 usou 3.000x-10.000x mais poder computacional do que GPT-2. Espera-se que essa tendência continue, potencialmente atingindo “supercomputadores” de trilhões de dólares até 2030.
Eficiências Algorítmicas: o progresso algorítmico atua como um “multiplicador de computação”, tornando os modelos mais eficientes - entregando desempenhos superiores com menos poder computacional.
E uma tendência de ~0,5 OOMs/ano em ganhos de eficiência é observada.
O GPT-2 para GPT-4 viu 1-2 OOMs de ganhos de eficiência. Espera-se que essa tendência também continue, embora com possíveis desacelerações à medida que as soluções mais óbvias são encontradas.
“Liberação de Amarras”: isso se refere aos desbloqueios das capacidades cruas dos modelos através de técnicas de prompt (como Chain of Thought), maiores janelas de contexto, conexão a ferramentas, dentre outras que vimos nos últimos anos.
Essas técnicas produziram ganhos significativos, muitas vezes equivalentes a múltiplas OOMs de aumento de escala de computação.
Leopold acredita que essa "liberação de amarras" continuará nos próximos anos e levará a sistemas de AI, que hoje funcionam mais como assistentes, à verdadeiros agentes ou colegas de trabalho - como já falamos aqui antes.
Ele imagina que, muito em breve, os modelos de AI terão janelas de contexto muito maiores (sendo capazes de saber tudo sobre nós ou nossas empresas), terão mais tempo para “pensar” e entregar respostas mais elaboradas e poderão “agir” em nossos computadores.
Assim, tudo isso - extrapolação das tendências em poder computacional, eficiência algorítmica e liberação de amarras - sugere outro salto do tamanho de GPT-2 para GPT-4 até 2027, potencialmente levando à AGI.
Nos próximos três anos, os modelos passariam de um aluno do ensino médio muito inteligente para um PhD em todas as áreas.
Apesar de impressionante, não para por aí.
Caso a AGI seja atingida, Leopold acredita na automação da própria pesquisa em AI. Onde milhões de modelos de AI - tão inteligentes e capazes como qualquer ser humano - trabalhariam em velocidade sobre-humana, potencialmente comprimindo uma década de progresso algorítmico em um ano.
Este progresso acelerado levaria rapidamente à superinteligência, sistemas de AI qualitativamente mais inteligentes do que os humanos, capazes de comportamentos criativos e complexos além da nossa compreensão.
E com isso, trabalhos seriam automatizados, pesquisas em todas as áreas teriam avanços incríveis e o mundo se tornaria muito diferente do que conhecemos hoje.
Mas existem algumas limitações e riscos disso tudo.
Uma superinteligência necessitaria de muito poder computacional e muita energia para ser desenvolvida e mantida. O que demandaria uma quantidade de investimentos nunca antes vistos na história da humanidade.
Além disso, um sistema superinteligente precisaria estar alinhado aos nossos interesses e objetivos - o que não é simples - e não cair nas mãos erradas - como a de algum ditador.
Então esses são alguns desafios que talvez tenham que ser resolvidos antes de 2030.
De qualquer forma, apesar do texto não ser nenhuma certeza do que está por vir, ele mostra com certa clareza o que podemos esperar para os próximos três anos.
Pode ser que nem todas as previsões de Leopold não se concretizem, mas é importante que nos acostumemos com suas ideias, pois elas não são mais coisa de ficção científica.
Para ler o texto na íntegra, é só clicar aqui.
Indicações
WEVO Pulse
Envie o link do seu site e receba uma análise de AI completa sobre ele - dos textos até o design e usabilidade.
Gerador de Prompts
Gere, automaticamente, prompts de alta qualidade para usar em AIs de imagem com esse GPT.
Dica de Uso
Crie GPTs para te ajudar com tarefas em seu trabalho.
Essa dica é extremamente útil se você souber utilizá-la. E ela é válida tanto se você é funcionário, quanto dono de algum empreendimento.
No caso de você ser um funcionário, mapeie as principais tarefas que executa no seu dia a dia e os principais documentos que lida. Crie um GPT, instrua ele a agir como o seu colega de trabalho, descreva suas tarefas para ele e forneça os documentos necessários para que ele saiba sobre a empresa e a função.
No caso de você ser dono do negócio, crie vários destes GPTs, um para cada área da empresa (marketing, RH, vendas, etc.). Instrua-os com as tarefas de cada função e forneça o contexto necessário.
Você ficará surpreso com o que é possível fazer com esses GPTs.
Se quiser, nós do Revolução AI podemos acelerar esse processo e criar para você estes assistentes, trazendo mais produtividade e tempo para você e seu negócio. Basta entrar em contato por aqui.
Pensamento do Dia
Com a evolução das AIs, muitas ideias ambiciosas de negócio que entes eram caras ou impraticáveis, estão se tornando baratas e realizáveis. Então, comece a sonhar mais alto e se permita pensar um pouco mais fora da caixa.
Por hoje é só!
Se está gostando do nosso conteúdo ou tem algum feedback para dar, sinta-se livre para responder o e-mail ou nos mandar mensagem nas redes sociais. Vamos adorar ler!
Aproveita para nos seguir no Instagram e no Tiktok (@revolucao.ai)!
Não se esqueça de compartilhar a newsletter com um amigo para ganhar prêmios!
Tenha uma ótima semana e até semana que vem!\