Participe dos nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder na indústria. Saiba mais
A OpenAI anunciou o lançamento do GPT-4.5, que o CEO Sam Altman disse anteriormente que seria o último modelo que não utiliza pensamento em cadeia (CoT).
A empresa afirmou que o novo modelo “não é um modelo de fronteira”, mas ainda é seu maior modelo de linguagem de larga escala (LLM), com maior eficiência computacional. Altman disse que, embora o GPT-4.5 não raciocine da mesma maneira que as outras novas ofertas da OpenAI, o o1 ou o o3-mini, este novo modelo ainda oferece mais pensamento semelhante ao humano.
Observadores da indústria, muitos dos quais tiveram acesso antecipado ao novo modelo, consideraram o GPT-4.5 um movimento interessante da OpenAI, moderando suas expectativas sobre o que o modelo deveria ser capaz de alcançar.
O professor da Wharton e comentarista de IA, Ethan Mollick, postou nas redes sociais que o GPT-4.5 é um “modelo muito estranho e interessante”, observando que ele pode ficar “estranhamente preguiçoso em projetos complexos”, apesar de ser um bom escritor.
O cofundador da OpenAI e ex-chefe de IA da Tesla, Andrej Karpathy, observou que o GPT-4.5 o fez lembrar quando o GPT-4 foi lançado e viu o potencial do modelo. Em uma publicação no X, Karpathy disse que, ao usar o GPT-4.5, “tudo é um pouco melhor, e é incrível, mas também não exatamente de maneiras triviais de apontar.”
Karpathy, no entanto, advertiu que as pessoas não deveriam esperar um impacto revolucionário do modelo, pois ele “não avança a capacidade do modelo em casos onde o raciocínio é crítico (matemática, código, etc.).”
Pensamentos da indústria em detalhes
Eis o que Karpathy teve a dizer sobre a mais recente iteração do GPT em uma longa publicação no X:
“Hoje marca o lançamento do GPT-4.5 pela OpenAI. Eu estava ansioso por isso há cerca de 2 anos, desde que o GPT-4 foi lançado, porque este lançamento oferece uma medida qualitativa da inclinação da melhoria que você obtém ao aumentar o compute de pré-treinamento (ou seja, simplesmente treinar um modelo maior). Cada 0.5 na versão é aproximadamente 10X de compute de pré-treinamento. Agora, lembre-se de que o GPT-1 mal gera texto coerente. O GPT-2 foi um brinquedo confuso. O GPT-2.5 foi “pulada” direto para o GPT-3, que foi ainda mais interessante. O GPT-3.5 ultrapassou o limiar onde era suficiente para realmente ser lançado como um produto e provocou o “momento ChatGPT” da OpenAI. E o GPT-4, por sua vez, também pareceu melhor, mas eu diria que definitivamente pareceu sutil.
Eu me lembro de fazer parte de um hackathon tentando encontrar prompts concretos onde o GPT-4 superou o 3.5. Eles definitivamente existiam, mas exemplos claros e concretos de “exemplos certos” eram difíceis de encontrar. É isso… tudo estava um pouco melhor, mas de uma maneira difusa. A escolha das palavras era um pouco mais criativa. A compreensão da nuance no prompt foi melhorada. As analogias faziam um pouco mais de sentido. O modelo era um pouco mais engraçado. O conhecimento e a compreensão do mundo foram melhorados nas bordas de domínios raros. As alucinações eram um pouco menos frequentes. As vibrações estavam um pouco melhores. Sentia que era como a água que eleva todos os barcos, onde tudo melhora ligeiramente em 20%. Portanto, é com essa expectativa que fui testar o GPT-4.5, ao qual tive acesso por alguns dias, e que viu 10X mais compute de pré-treinamento do que o GPT-4. E sinto que, mais uma vez, estou no mesmo hackathon de dois anos atrás. Tudo está um pouco melhor e é incrível, mas também não exatamente de maneiras que sejam triviais de apontar. Ainda assim, é incrivelmente interessante e emocionante como mais uma medida qualitativa de uma certa inclinação de capacidade que vem “de graça” apenas com o pré-treinamento de um modelo maior.
Lembre-se de que o GPT-4.5 foi treinado apenas com pré-treinamento, ajuste fino supervisionado e RLHF, portanto, este ainda não é um modelo de raciocínio. Portanto, este lançamento de modelo não avança a capacidade do modelo em casos onde o raciocínio é crítico (matemática, código, etc.). Nesses casos, o treinamento com RL e a aquisição de pensamento é extremamente importante e funciona melhor, mesmo que esteja em cima de um modelo base mais antigo (por exemplo, capacidade semelhante ao GPT-4 ou algo assim). O estado da arte aqui continua a ser o completo o1. Presumivelmente, a OpenAI agora estará buscando treinar ainda mais com aprendizado por reforço sobre o GPT-4.5 para permitir que ele pense e avance a capacidade do modelo nesses domínios.
NO ENTANTO. Esperamos realmente ver uma melhoria em tarefas que não são pesadas em raciocínio, e eu diria que essas são tarefas que estão mais relacionadas a EQ (em oposição a IQ) e são limitadas por, por exemplo, conhecimento de mundo, criatividade, capacidade de analogia, compreensão geral, humor, etc. Portanto, essas são as tarefas que eu estava mais interessado durante minhas verificações de vibrações.
Assim, abaixo, pensei que seria divertido destacar 5 prompts engraçados/divertidos que testam essas capacidades e organizá-los em uma “Arena de LM Lite” interativa bem aqui no X, usando uma combinação de imagens e enquetes em um thread. Infelizmente, o X não permite que você inclua tanto uma imagem quanto uma enquete em um único post, então tenho que alternar postagens que dão a imagem (mostrando o prompt e duas respostas, uma do 4 e outra do 4.5), e a enquete, onde as pessoas podem votar em qual é melhor. Após 8 horas, revelarei as identidades de qual modelo é qual. Vamos ver o que acontece 🙂“
Pensamentos do CEO da Box sobre o GPT-4.5
Outros usuários iniciais também viram potencial no GPT-4.5. O CEO da Box, Aaron Levie, disse no X que sua empresa usou o GPT-4.5 para ajudar a extrair dados estruturados e metadados de conteúdos empresariais complexos.
As inovações em IA continuam a surgir. A OpenAI acaba de anunciar o GPT-4.5, e o teremos disponível para os clientes da Box ainda hoje no Box AI Studio.
Temos testado o GPT-4.5 em modo de acesso antecipado com a Box AI para casos de uso de dados não estruturados avançados em empresas, e vimos resultados sólidos. Com a avaliação empresarial da Box AI, testamos modelos em uma variedade de cenários diferentes, como precisão de perguntas e respostas, capacidades de raciocínio e mais. Em particular, para explorar as capacidades do GPT-4.5, focamos em uma área chave com potencial significativo para o impacto empresarial: a extração de dados estruturados, ou extração de metadados, de conteúdos empresariais complexos.
Na Box, avaliamos rigorosamente modelos de extração de dados usando múltiplos conjuntos de dados de qualidade empresarial. Um conjunto de dados chave que aproveitamos é o CUAD, que consiste em mais de 510 contratos legais comerciais. Dentro desse conjunto de dados, a Box identificou 17.000 campos que podem ser extraídos de conteúdo não estruturado e avaliou o modelo com base na extração em uma única tentativa para esses campos (este é nosso teste mais difícil, onde o modelo só tem uma chance de extrair todos os metadados em uma única vez, ao invés de fazer múltiplas tentativas). Em nossos testes, o GPT-4.5 extraiu corretamente 19 pontos percentuais mais campos de forma precisa em comparação com o GPT-4o, destacando sua melhor capacidade de lidar com dados contratuais complexos.
Em seguida, para garantir que o GPT-4.5 pudesse lidar com as demandas de conteúdo empresarial real, avaliamos seu desempenho contra um conjunto de documentos mais rigoroso, o conjunto desafiador da Box. Selecionamos um subconjunto de contratos legais complexos – aqueles com conteúdo multimodal, informações de alta densidade e com mais de 200 páginas de comprimento – para representar alguns dos cenários mais difíceis que nossos clientes enfrentam. Nesse conjunto desafiador, o GPT-4.5 também superou consistentemente o GPT-4o na extração de campos-chave com maior precisão, demonstrando sua capacidade superior de lidar com documentos legais intrincados e nuances.
No geral, estamos vendo resultados sólidos com o GPT-4.5 para dados empresariais complexos, que desbloquearão ainda mais casos de uso no setor.“
Questões sobre preço e sua importância
Mesmo que os primeiros usuários considerassem o GPT-4.5 utilizável — embora um pouco preguiçoso — eles questionaram seu lançamento.
Por exemplo, o proeminente crítico da OpenAI, Gary Marcus, chamou o GPT-4.5 de “nada demais” no Bluesky.
Hot take: GPT 4.5 é nada demais; GPT-5 continua uma fantasia. • Escalar dados não é uma lei física; praticamente tudo o que te falei era verdade. • Todo o BS sobre o GPT-5 que ouvimos nos últimos anos: não é tão verdadeiro. • Os fanboys como Cowen irão culpar os usuários, mas os resultados simplesmente não são o que esperavam.
— Gary Marcus (@garymarcus.bsky.social) 2025-02-27T20:44:55.115Z
O CEO da Hugging Face Clement Delangue comentou que a origem fechada do GPT-4.5 o tornava “meh.”
No entanto, muitos notaram que o GPT-4.5 nada tinha a ver com seu desempenho. Em vez disso, as pessoas questionaram por que a OpenAI iria lançar um modelo tão caro que é quase proibitivo de usar mas não é tão poderoso quanto seus outros modelos.
Um usuário comentou no X: “Então você está me dizendo que o GPT-4.5 vale mais que o o1, mas não se sai tão bem em benchmarks…. Faça sentido disso.”
Outros usuários do X levantaram teorias de que o alto custo por token poderia ser para desencorajar concorrentes como a DeepSeek “de destilar o modelo 4.5.”
A DeepSeek se tornou uma grande concorrente da OpenAI em janeiro, com líderes da indústria achando que o raciocínio do DeepSeek-R1 era tão capaz quanto o da OpenAI — mas mais acessível.
Insights diários sobre casos de uso empresarial com VB Daily
Se você quiser impressionar seu chefe, o VB Daily tem tudo o que você precisa. Damos a você a informação privilegiada sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para um ROI máximo.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters da VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Unique, uma plataforma suíça de IA para finanças, arrecada US$ 30 milhões
[the_ad id="145565"] Uma startup suíça de quatro anos conseguiu levantar uma quantia considerável de dinheiro para capitalizar o crescente movimento de "IA agente". Unique…
TechCrunch Disrupt 2025: Faltam apenas 2 dias para economizar até R$ 1.130
[the_ad id="145565"] O tempo está passando! Você tem apenas 48 horas para garantir seu lugar no TechCrunch Disrupt 2025 e economizar até $1.130 em ingressos individuais ou 30%…
Calendário de Eventos 2025 | TechCrunch
[the_ad id="145565"] Por duas décadas, o TechCrunch ofereceu uma visão privilegiada do futuro da tecnologia, moldando conversas relevantes e destacando as próxima grandes…