A Nvidia lança modelo de inteligência artificial para transcrição totalmente open source, Parakeet-TDT-0.6B-V2, na Hugging Face.

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais

A Nvidia se tornou uma das empresas mais valiosas do mundo nos últimos anos, graças à atenção do mercado financeiro sobre a demanda por unidades de processamento gráfico (GPUs), os chip poderosos que a Nvidia fabrica e que são usados para renderizar gráficos em videogames, mas também, cada vez mais, para treinar modelos de linguagem e difusão da IA.

Mas a Nvidia faz muito mais do que apenas hardware e o software que o suporta. À medida que a era da IA generativa avança, a empresa baseada em Santa Clara tem lançado gradualmente mais e mais modelos de IA — a maioria de código aberto e gratuita para pesquisadores e desenvolvedores baixarem, modificarem e utilizarem comercialmente — e o mais recente entre eles é o Parakeet-TDT-0.6B-v2, um modelo de reconhecimento de fala automático (ASR) que pode, nas palavras de Vaibhav “VB” Srivastav da Hugging Face, “transcrever 60 minutos de áudio em 1 segundo [emoji de mente explodindo].”

Esta é a nova geração do modelo Parakeet, que a Nvidia apresentou pela primeira vez em janeiro de 2024 e atualizou novamente em abril daquele ano, mas esta versão dois é tão poderosa que atualmente lidera a Hugging Face Open ASR Leaderboard com uma média de “Taxa de Erro de Palavras” (número de vezes que o modelo transcreve uma palavra falada incorretamente) de apenas 6,05% (em 100).

Para colocar isso em perspectiva, ela se aproxima de modelos de transcrição proprietários, como o GPT-4o-transcribe da OpenAI (com um WER de 2,46% em inglês) e o ElevenLabs Scribe (3,3%).

E oferece tudo isso enquanto permanece disponível gratuitamente sob uma licença Creative Commons CC-BY-4.0, tornando-se uma proposta atraente para empresas comerciais e desenvolvedores independentes que buscam integrar serviços de reconhecimento e transcrição de fala em suas aplicações pagas.

Desempenho e posicionamento em benchmarks

O modelo possui 600 milhões de parâmetros e utiliza uma combinação das arquiteturas do codificador FastConformer e do decodificador TDT.

É capaz de transcrever uma hora de áudio em apenas um segundo, desde que esteja executando em hardware acelerado por GPU da Nvidia.

O benchmark de desempenho é medido em um RTFx (Fator de Tempo Real) de 3386,02 com um tamanho de lote de 128, posicionando-o no topo dos benchmarks ASR atuais mantidos pela Hugging Face.

Casos de uso e disponibilidade

Lançado globalmente em 1º de maio de 2025, o Parakeet-TDT-0.6B-v2 é destinado a desenvolvedores, pesquisadores e equipes industriais que constroem aplicações como serviços de transcrição, assistentes de voz, geradores de legendas e plataformas de IA conversacional.

O modelo suporta pontuação, capitalização e timestamping detalhado em nível de palavra, oferecendo um pacote completo de transcrição para uma ampla gama de necessidades de conversão de fala em texto.

Acesso e implantação

Os desenvolvedores podem implantar o modelo usando o kit de ferramentas NeMo da Nvidia. O processo de configuração é compatível com Python e PyTorch, e o modelo pode ser utilizado diretamente ou ajustado para tarefas específicas de domínio.

A licença de código aberto (CC-BY-4.0) também permite uso comercial, tornando-o atraente para startups e empresas.

Dados de treinamento e desenvolvimento do modelo

O Parakeet-TDT-0.6B-v2 foi treinado em um corpus diversificado e de grande escala chamado conjunto de dados Granary. Este inclui cerca de 120.000 horas de áudio em inglês, compostas por 10.000 horas de dados transcritos por humanos de alta qualidade e 110.000 horas de fala pseudo-rotulada.

As fontes variam desde conjuntos de dados conhecidos, como LibriSpeech e Mozilla Common Voice, até YouTube-Commons e Librilight.

A Nvidia planeja tornar o conjunto de dados Granary publicamente disponível após sua apresentação na Interspeech 2025.

Avaliação e robustez

O modelo foi avaliado em múltiplos benchmarks de ASR em inglês, incluindo AMI, Earnings22, GigaSpeech e SPGISpeech, mostrando forte desempenho de generalização. Permanece robusto sob diversas condições de ruído e apresenta bom desempenho mesmo com formatos de áudio estilo telefonia, com apenas uma degradação modesta em menores razões sinal-ruído.

Compatibilidade de hardware e eficiência

Parakeet-TDT-0.6B-v2 é otimizado para ambientes de GPU Nvidia, suportando hardwares como as placas A100, H100, T4 e V100.

Embora GPUs de alto desempenho maximizem o desempenho, o modelo ainda pode ser carregado em sistemas com apenas 2 GB de RAM, permitindo cenários de implantação mais amplos.

Considerações éticas e uso responsável

A NVIDIA observa que o modelo foi desenvolvido sem o uso de dados pessoais e adere à sua estrutura de IA responsável.

Embora nenhuma medida específica tenha sido tomada para mitigar viés demográfico, o modelo passou por padrões de qualidade internos e inclui documentação detalhada sobre seu processo de treinamento, proveniência dos dados e conformidade com a privacidade.

O lançamento chamou a atenção das comunidades de aprendizado de máquina e código aberto, especialmente após ser destacado publicamente nas redes sociais. Comentadores notaram a capacidade do modelo de superar alternativas comerciais de ASR enquanto permanece totalmente de código aberto e utilizável comercialmente.

Desenvolvedores interessados em experimentar o modelo podem acessá-lo via Hugging Face ou através do kit de ferramentas NeMo da Nvidia. Instruções de instalação, scripts de demonstração e orientações de integração estão prontamente disponíveis para facilitar a experimentação e implantação.

Insigts diários sobre casos de uso empresarial com VB Daily

Se você quer impressionar seu chefe, o VB Daily está aqui para ajudar. Nós fornecemos as informações sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights e maximizar o ROI.

Leia nossa Política de Privacidade

Obrigado por se inscrever. Confira mais newsletters do VB aqui.

Ocorreu um erro.

Conteúdo relacionado

BusinessInteligência artificial

Hugging Face lança uma ferramenta de IA agente semelhante ao Operator de forma gratuita.

[the_ad id="145565"] Uma equipe da Hugging Face lançou um agente de IA “que usa computador” disponível gratuitamente e hospedado na nuvem. Mas esteja avisado: é bastante lento…

BusinessInteligência artificial

Ōura adiciona recursos de rastreamento de refeições e glicose com inteligência artificial em parceria com a Stelo da Dexcom.

[the_ad id="145565"] Ōura, fabricante de um anel inteligente para monitoramento de saúde, anunciou que utilizará IA para rastrear e analisar duas novas funcionalidades de saúde…

BusinessInteligência artificial

A startup Korl lança ferramenta multimodal e multiagente para comunicação personalizada entre sistemas distintos.

[the_ad id="145565"] Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdos exclusivos sobre cobertura de IA de ponta. Saiba mais…