Bolt42

Inscreva-se em nossos boletins diários e semanais para as últimas novidades e conteúdo exclusivo sobre a cobertura de IA de ponta. Saiba mais


Qodo, uma plataforma de qualidade de código impulsionada por IA anteriormente conhecida como Codium, anunciou o lançamento do Qodo-Embed-1-1.5B, um novo modelo de embedding de código open source que oferece desempenho de ponta, sendo significativamente menor e mais eficiente em comparação com soluções concorrentes.

Projetado para aprimorar a busca, recuperação e compreensão de código, o modelo de 1,5 bilhão de parâmetros alcança resultados de alto nível em benchmarks da indústria, superando modelos maiores da OpenAI e da Salesforce.

Para equipes de desenvolvimento empresarial que gerenciam bases de código vastas e complexas, a inovação da Qodo representa um avanço nas fluxos de trabalho de engenharia de software impulsionados por IA. Ao permitir uma recuperação de código mais precisa e eficiente, o Qodo-Embed-1-1.5B enfrenta um desafio crítico no desenvolvimento assistido por IA: a consciência de contexto em sistemas de software em larga escala.

Por que os modelos de embedding de código são importantes para a IA empresarial

Soluções de codificação baseadas em IA tradicionalmente focaram na geração de código, com grandes modelos de linguagem (LLMs) ganhando atenção por sua capacidade de escrever novos códigos.

No entanto, como explicou Itamar Friedman, CEO e cofundador da Qodo, em uma entrevista por videochamada na semana passada: “O software empresarial pode ter dezenas de milhões, se não centenas de milhões, de linhas de código. Apenas gerar código não é suficiente — você precisa garantir que o código seja de alta qualidade, funcione corretamente e integre-se ao restante do sistema.”

Modelos de embedding de código desempenham um papel crucial no desenvolvimento assistido por IA, permitindo que os sistemas busquem e recuperem trechos relevantes de código de maneira eficiente. Isso é particularmente importante para grandes organizações onde projetos de software abrangem milhões de linhas de código em várias equipes, repositórios e linguagens de programação.

“O contexto é essencial para qualquer coisa relacionada à construção de software com modelos”, disse Friedman. “Especificamente, para buscar o contexto certo em uma base de código realmente grande, você precisa passar por algum mecanismo de busca.”

Qodo-Embed-1-1.5B oferece desempenho e eficiência

O Qodo-Embed-1-1.5B se destaca por seu equilíbrio entre eficiência e precisão. Enquanto muitos modelos de ponta dependem de bilhões de parâmetros — o modelo text-embedding-3-large da OpenAI possui 7 bilhões, por exemplo — o modelo da Qodo alcança resultados superiores com apenas 1,5 bilhão de parâmetros.

No Code Information Retrieval Benchmark (CoIR), um teste padrão da indústria para recuperação de código em várias linguagens e tarefas, o Qodo-Embed-1-1.5B obteve uma pontuação de 70,06, superando o SFR-Embedding-2_R da Salesforce (67,41) e o text-embedding-3-large da OpenAI (65,17).

Esse nível de desempenho é crítico para empresas em busca de soluções de IA econômicas. Com a capacidade de rodar em GPUs de baixo custo, o modelo torna a recuperação avançada de código acessível a uma gama mais ampla de equipes de desenvolvimento, reduzindo custos de infraestrutura enquanto melhora a qualidade e produtividade do software.

Abordando a complexidade, nuances e especificidade de diferentes trechos de código

Um dos maiores desafios no desenvolvimento de software impulsionado por IA é que códigos semelhantes podem ter funções bastante diferentes. Friedman ilustra isso com um exemplo simples, mas impactante:

“Um dos maiores desafios em embedding de código é que duas funções quase idênticas — como ‘sacar’ e ‘depositar’ — podem diferir apenas por um sinal de mais ou menos. Elas precisam estar próximas no espaço vetorial, mas também claramente distintas.”

Um problema chave nos modelos de embedding é garantir que códigos funcionalmente distintos não sejam agrupados incorretamente, o que poderia causar grandes erros de software. “Você precisa de um modelo de embedding que compreenda o código o suficiente para buscar o contexto certo sem trazer funções semelhantes, mas incorretas, que poderiam causar sérios problemas.”

Para resolver isso, a Qodo desenvolveu uma abordagem de treinamento única, combinando dados sintéticos de alta qualidade com amostras de código do mundo real. O modelo foi treinado para reconhecer diferenças sutis em códigos funcionalmente similares, garantindo que, quando um desenvolvedor busca um código relevante, o sistema recupere os resultados corretos — e não apenas códigos semelhantes.

Friedman observa que esse processo de treinamento foi refinado em colaboração com a NVIDIA e a AWS, ambas escrevendo blogs técnicos sobre a metodologia da Qodo. “Coletamos um conjunto de dados único que simula as delicadas propriedades do desenvolvimento de software e ajustamos um modelo para reconhecer essas nuances. É por isso que nosso modelo supera modelos de embedding genéricos para código.”

Suporte a múltiplas linguagens de programação e planos para expansão futura

O modelo Qodo-Embed-1-1.5B foi otimizado para as 10 linguagens de programação mais comumente usadas, incluindo Python, JavaScript e Java, com suporte adicional para uma variedade de outras linguagens e frameworks.

Futuras iterações do modelo expandirão essa base, oferecendo integração mais profunda com ferramentas de desenvolvimento empresarial e suporte adicional para outras linguagens.

“Muitos modelos de embedding têm dificuldade em diferenciar entre linguagens de programação, às vezes confundindo trechos de diferentes linguagens”, disse Friedman. “Treinamos nosso modelo especificamente para evitar isso, focando nas 10 principais linguagens usadas no desenvolvimento empresarial.”

Opções de implantação e disponibilidade empresarial

A Qodo está tornando seu novo modelo amplamente acessível por meio de múltiplos canais.

A versão de 1,5B parâmetros está disponível no Hugging Face sob a licença OpenRAIL++-M, permitindo que desenvolvedores a integrem livremente em seus fluxos de trabalho. Empresas que precisam de capacidades adicionais podem acessar versões maiores sob licenciamento comercial.

Para empresas em busca de uma solução totalmente gerenciada, a Qodo oferece uma plataforma de grau empresarial que automatiza as atualizações de embedding à medida que as bases de código evoluem. Isso enfrenta um desafio chave no desenvolvimento impulsionado por IA: garantir que modelos de busca e recuperação permaneçam precisos à medida que o código muda ao longo do tempo.

Friedman vê isso como um passo natural na missão da Qodo. “Estamos lançando o Qodo Embed One como o primeiro passo. Nosso objetivo é melhorar continuamente em três dimensões — precisão, suporte para mais linguagens e melhor tratamento de frameworks e bibliotecas específicas.”

Além do Hugging Face, o modelo também estará disponível na plataforma NIM da NVIDIA e no AWS SageMaker JumpStart, tornando ainda mais fácil para as empresas implantarem e integrarem em seus ambientes de desenvolvimento existentes.

O futuro da IA no desenvolvimento de software empresarial

Ferramentas de codificação impulsionadas por IA estão evoluindo rapidamente, mas o foco está mudando além da geração de código para compreensão, recuperação e garantia de qualidade do código. À medida que as empresas se movem para integrar a IA mais profundamente em seus processos de engenharia de software, ferramentas como Qodo-Embed-1-1.5B desempenharão um papel crucial em tornar os sistemas de IA mais confiáveis, eficientes e econômicos.

“Se você é um desenvolvedor em uma empresa da Fortune 15.000, não usa apenas Copilot ou Cursor. Você possui fluxos de trabalho e iniciativas internas que requerem uma compreensão profunda de grandes bases de código. É aí que um modelo de embedding de código de alta qualidade se torna essencial.”

O mais recente modelo da Qodo é um passo em direção a um futuro onde a IA não apenas auxilia os desenvolvedores na escrita de código — mas ajuda-os a entender, gerenciar e otimizar o mesmo em ecossistemas de software complexos e em larga escala.

Para equipes empresariais que buscam aproveitar a IA para uma busca de código mais inteligente, recuperação e controle de qualidade, o novo modelo de embedding da Qodo oferece uma alternativa atraente e de alto desempenho em comparação com soluções maiores e mais intensivas em recursos.





    5 × três =




    Bolt42