GPT-4.5 para empresas: A precisão e o conhecimento justificam o custo?

Inscreva-se em nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre a cobertura de IA líder da indústria. Saiba Mais

O lançamento do OpenAI GPT-4.5 tem sido um tanto decepcionante, com muitos apontando seu preço exorbitante (cerca de 10 a 20 vezes mais caro que o Claude 3.7 Sonnet e 15 a 30 vezes mais caro que o GPT-4o).

No entanto, considerando que este é o modelo não relacionado a raciocínios mais avançado e poderoso da OpenAI, vale a pena analisar suas forças e as áreas onde se destaca.

Melhor conhecimento e alinhamento

Há poucos detalhes sobre a arquitetura do modelo ou o corpus de treinamento, mas temos uma estimativa de que ele foi treinado com 10 vezes mais computação. E, o modelo era tão grande que a OpenAI precisou dividir o treinamento entre vários data centers para concluir em um tempo razoável.

Modelos maiores têm uma capacidade maior de aprender sobre o conhecimento do mundo e as nuances da linguagem humana (desde que tenham acesso a dados de treinamento de alta qualidade). Isso é evidenciado por algumas das métricas apresentadas pela equipe da OpenAI. Por exemplo, o GPT-4.5 tem uma classificação recorde no PersonQA, um benchmark que avalia alucinações em modelos de IA.

Experimentos práticos também mostram que o GPT-4.5 é melhor do que outros modelos de uso geral em manter a fidelidade aos fatos e seguir as instruções dos usuários.

Os usuários apontaram que as respostas do GPT-4.5 parecem mais naturais e conscientes do contexto do que os modelos anteriores. Sua capacidade de seguir diretrizes de tom e estilo também melhorou.

Após o lançamento do GPT-4.5, o cientista de IA e cofundador da OpenAI, Andrej Karpathy, que teve acesso antecipado ao modelo, disse que “esperava ver uma melhoria em tarefas que não são muito pesadas em raciocínio, e eu diria que essas são tarefas mais relacionadas ao QE (em oposição ao QI) e limitadas por, por exemplo, conhecimento do mundo, criatividade, formação de analogias, compreensão geral, humor, etc.”

No entanto, avaliar a qualidade da escrita também é muito subjetivo. Em uma pesquisa que Karpathy fez sobre diferentes prompts, a maioria das pessoas preferiu as respostas do GPT-4o em relação ao GPT-4.5. Ele escreveu no X: “Ou os testadores de bom gosto estão percebendo a nova e única estrutura, mas os de mau gosto estão dominando a pesquisa. Ou estamos apenas alucinando coisas. Ou esses exemplos não são tão bons. Ou está realmente muito próximo e esse é um tamanho de amostra muito pequeno. Ou tudo isso.”

Melhor processamento de documentos

Em seus experimentos, a Box, que integrou o GPT-4.5 em seu produto Box AI Studio, afirmou que o GPT-4.5 é “particularmente potente para casos de uso empresarial, onde a precisão e a integridade são críticas… nossos testes mostram que o GPT-4.5 é um dos melhores modelos disponíveis tanto em termos de nossas pontuações de avaliação quanto em sua capacidade de lidar com muitas das perguntas mais difíceis de IA que encontramos.”

Em suas avaliações internas, a Box descobriu que o GPT-4.5 era mais preciso em tarefas de questionamento de documentos empresariais – superando o GPT-4 original em cerca de 4 pontos percentuais em seu conjunto de testes.

Os testes da Box também indicaram que o GPT-4.5 se destacou em questões matemáticas incorporadas em documentos empresariais, nas quais modelos mais antigos frequentemente enfrentavam dificuldades. Por exemplo, foi melhor em responder a perguntas sobre documentos financeiros que exigiam raciocínio sobre dados e execução de cálculos.

O GPT-4.5 também mostrou desempenho melhorado ao extrair informações de dados não estruturados. Em um teste que envolveu a extração de campos de centenas de documentos legais, o GPT-4.5 foi 19% mais preciso do que o GPT-4o.

Planejamento, codificação e avaliação de resultados

Dada sua melhoria no conhecimento geral, o GPT-4.5 também pode ser um modelo adequado para criar planos de alto nível para tarefas complexas. Passos detalhados podem ser entregues a modelos menores, mas mais eficientes, para elaboração e execução.

Segundo Constellation Research, “Nos testes iniciais, o GPT-4.5 parece exibir fortes capacidades em planejamento e execução agentiva, incluindo fluxos de trabalho de codificação em várias etapas e automação de tarefas complexas.”

O GPT-4.5 também pode ser útil em tarefas de codificação que requerem conhecimento interno e contextual. O GitHub agora oferece acesso limitado ao modelo em seu assistente de codificação Copilot e observa que o GPT-4.5 “desempenha-se efetivamente com prompts criativos e fornece respostas confiáveis a perguntas de conhecimento obscuro.”

Dado seu conhecimento mais profundo sobre o mundo, o GPT-4.5 também é adequado para tarefas de “LLM como Julgador”, onde um modelo forte avalia a saída de modelos menores. Por exemplo, um modelo como o GPT-4o ou o o3 pode gerar uma ou várias respostas, raciocinar sobre a solução e passar a resposta final para o GPT-4.5 para revisão e refinamento.

Vale a pena o preço?

Dadas as enormes despesas do GPT-4.5, é muito difícil justificar muitos dos casos de uso. Mas isso não significa que permanecerá assim. Uma das tendências constantes que temos visto nos últimos anos é a queda acentuada dos custos de inferência, e se essa tendência se aplicar ao GPT-4.5, vale a pena experimentar e encontrar maneiras de colocar seu poder em uso nas aplicações empresariais.

Vale também ressaltar que este novo modelo pode se tornar a base para futuros modelos de raciocínio. Segundo Karpathy: “Tenha em mente que o GPT-4.5 foi treinado apenas com pré-treinamento, ajuste fino supervisionado e RLHF [aprendizado de reforço a partir de feedback humano], então este ainda não é um modelo de raciocínio. Portanto, este lançamento de modelo não avança a capacidade do modelo em casos onde o raciocínio é crítico (matemática, código, etc.)… Presumivelmente, a OpenAI agora estará buscando treinar ainda mais com aprendizado de reforço sobre o modelo GPT-4.5 para permitir que ele pense e amplie a capacidade do modelo nessas áreas.”

Insights diários sobre casos de uso de negócios com o VB Daily

Se você deseja impressionar seu chefe, o VB Daily tem tudo o que você precisa. Nós fornecemos informações internas sobre o que as empresas estão fazendo com a IA generativa, desde mudanças regulatórias até implantações práticas, para que você possa compartilhar insights para retorno máximo sobre investimento.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais boletins do VB aqui.

Ocorreu um erro.