Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais
A Nvidia se tornou uma das empresas mais valiosas do mundo nos últimos anos, graças à atenção do mercado financeiro sobre a demanda por unidades de processamento gráfico (GPUs), os chip poderosos que a Nvidia fabrica e que são usados para renderizar gráficos em videogames, mas também, cada vez mais, para treinar modelos de linguagem e difusão da IA.
Mas a Nvidia faz muito mais do que apenas hardware e o software que o suporta. À medida que a era da IA generativa avança, a empresa baseada em Santa Clara tem lançado gradualmente mais e mais modelos de IA — a maioria de código aberto e gratuita para pesquisadores e desenvolvedores baixarem, modificarem e utilizarem comercialmente — e o mais recente entre eles é o Parakeet-TDT-0.6B-v2, um modelo de reconhecimento de fala automático (ASR) que pode, nas palavras de Vaibhav “VB” Srivastav da Hugging Face, “transcrever 60 minutos de áudio em 1 segundo [emoji de mente explodindo].”
Esta é a nova geração do modelo Parakeet, que a Nvidia apresentou pela primeira vez em janeiro de 2024 e atualizou novamente em abril daquele ano, mas esta versão dois é tão poderosa que atualmente lidera a Hugging Face Open ASR Leaderboard com uma média de “Taxa de Erro de Palavras” (número de vezes que o modelo transcreve uma palavra falada incorretamente) de apenas 6,05% (em 100).
Para colocar isso em perspectiva, ela se aproxima de modelos de transcrição proprietários, como o GPT-4o-transcribe da OpenAI (com um WER de 2,46% em inglês) e o ElevenLabs Scribe (3,3%).
E oferece tudo isso enquanto permanece disponível gratuitamente sob uma licença Creative Commons CC-BY-4.0, tornando-se uma proposta atraente para empresas comerciais e desenvolvedores independentes que buscam integrar serviços de reconhecimento e transcrição de fala em suas aplicações pagas.
Desempenho e posicionamento em benchmarks
O modelo possui 600 milhões de parâmetros e utiliza uma combinação das arquiteturas do codificador FastConformer e do decodificador TDT.
É capaz de transcrever uma hora de áudio em apenas um segundo, desde que esteja executando em hardware acelerado por GPU da Nvidia.
O benchmark de desempenho é medido em um RTFx (Fator de Tempo Real) de 3386,02 com um tamanho de lote de 128, posicionando-o no topo dos benchmarks ASR atuais mantidos pela Hugging Face.
Casos de uso e disponibilidade
Lançado globalmente em 1º de maio de 2025, o Parakeet-TDT-0.6B-v2 é destinado a desenvolvedores, pesquisadores e equipes industriais que constroem aplicações como serviços de transcrição, assistentes de voz, geradores de legendas e plataformas de IA conversacional.
O modelo suporta pontuação, capitalização e timestamping detalhado em nível de palavra, oferecendo um pacote completo de transcrição para uma ampla gama de necessidades de conversão de fala em texto.
Acesso e implantação
Os desenvolvedores podem implantar o modelo usando o kit de ferramentas NeMo da Nvidia. O processo de configuração é compatível com Python e PyTorch, e o modelo pode ser utilizado diretamente ou ajustado para tarefas específicas de domínio.
A licença de código aberto (CC-BY-4.0) também permite uso comercial, tornando-o atraente para startups e empresas.
Dados de treinamento e desenvolvimento do modelo
O Parakeet-TDT-0.6B-v2 foi treinado em um corpus diversificado e de grande escala chamado conjunto de dados Granary. Este inclui cerca de 120.000 horas de áudio em inglês, compostas por 10.000 horas de dados transcritos por humanos de alta qualidade e 110.000 horas de fala pseudo-rotulada.
As fontes variam desde conjuntos de dados conhecidos, como LibriSpeech e Mozilla Common Voice, até YouTube-Commons e Librilight.
A Nvidia planeja tornar o conjunto de dados Granary publicamente disponível após sua apresentação na Interspeech 2025.
Avaliação e robustez
O modelo foi avaliado em múltiplos benchmarks de ASR em inglês, incluindo AMI, Earnings22, GigaSpeech e SPGISpeech, mostrando forte desempenho de generalização. Permanece robusto sob diversas condições de ruído e apresenta bom desempenho mesmo com formatos de áudio estilo telefonia, com apenas uma degradação modesta em menores razões sinal-ruído.
Compatibilidade de hardware e eficiência
Parakeet-TDT-0.6B-v2 é otimizado para ambientes de GPU Nvidia, suportando hardwares como as placas A100, H100, T4 e V100.
Embora GPUs de alto desempenho maximizem o desempenho, o modelo ainda pode ser carregado em sistemas com apenas 2 GB de RAM, permitindo cenários de implantação mais amplos.
Considerações éticas e uso responsável
A NVIDIA observa que o modelo foi desenvolvido sem o uso de dados pessoais e adere à sua estrutura de IA responsável.
Embora nenhuma medida específica tenha sido tomada para mitigar viés demográfico, o modelo passou por padrões de qualidade internos e inclui documentação detalhada sobre seu processo de treinamento, proveniência dos dados e conformidade com a privacidade.
O lançamento chamou a atenção das comunidades de aprendizado de máquina e código aberto, especialmente após ser destacado publicamente nas redes sociais. Comentadores notaram a capacidade do modelo de superar alternativas comerciais de ASR enquanto permanece totalmente de código aberto e utilizável comercialmente.
Desenvolvedores interessados em experimentar o modelo podem acessá-lo via Hugging Face ou através do kit de ferramentas NeMo da Nvidia. Instruções de instalação, scripts de demonstração e orientações de integração estão prontamente disponíveis para facilitar a experimentação e implantação.
Insigts diários sobre casos de uso empresarial com VB Daily
Se você quer impressionar seu chefe, o VB Daily está aqui para ajudar. Nós fornecemos as informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e maximizar o ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
Unblocked levanta R$ 20 milhões para IA ajudar desenvolvedores a compreender códigos.
[the_ad id="145565"] Cada desenvolvedor possui seu próprio estilo único de escrever código. Apesar das empresas estabelecerem melhores práticas e elaborarem documentação, pode…
RSAC 2025: Cisco e Meta colocam a inteligência artificial de código aberto no centro da defesa contra ameaças.
[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder de mercado. Saiba mais…
NewLimit, fundada pelo CEO da Coinbase, Brian Armstrong, arrecada US$ 130 milhões para desenvolver tratamentos de reversão da idade
[the_ad id="145565"] NewLimit, uma startup que tem como objetivo aumentar a longevidade saudável das pessoas por meio da programação genética de suas células, levantou uma…