Bolt42

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA de ponta. Saiba Mais


A Nvidia se tornou uma das empresas mais valiosas do mundo nos últimos anos, graças à atenção do mercado financeiro sobre a demanda por unidades de processamento gráfico (GPUs), os chip poderosos que a Nvidia fabrica e que são usados para renderizar gráficos em videogames, mas também, cada vez mais, para treinar modelos de linguagem e difusão da IA.

Mas a Nvidia faz muito mais do que apenas hardware e o software que o suporta. À medida que a era da IA generativa avança, a empresa baseada em Santa Clara tem lançado gradualmente mais e mais modelos de IA — a maioria de código aberto e gratuita para pesquisadores e desenvolvedores baixarem, modificarem e utilizarem comercialmente — e o mais recente entre eles é o Parakeet-TDT-0.6B-v2, um modelo de reconhecimento de fala automático (ASR) que pode, nas palavras de Vaibhav “VB” Srivastav da Hugging Face, “transcrever 60 minutos de áudio em 1 segundo [emoji de mente explodindo].”

Esta é a nova geração do modelo Parakeet, que a Nvidia apresentou pela primeira vez em janeiro de 2024 e atualizou novamente em abril daquele ano, mas esta versão dois é tão poderosa que atualmente lidera a Hugging Face Open ASR Leaderboard com uma média de “Taxa de Erro de Palavras” (número de vezes que o modelo transcreve uma palavra falada incorretamente) de apenas 6,05% (em 100).

Para colocar isso em perspectiva, ela se aproxima de modelos de transcrição proprietários, como o GPT-4o-transcribe da OpenAI (com um WER de 2,46% em inglês) e o ElevenLabs Scribe (3,3%).

E oferece tudo isso enquanto permanece disponível gratuitamente sob uma licença Creative Commons CC-BY-4.0, tornando-se uma proposta atraente para empresas comerciais e desenvolvedores independentes que buscam integrar serviços de reconhecimento e transcrição de fala em suas aplicações pagas.

Desempenho e posicionamento em benchmarks

O modelo possui 600 milhões de parâmetros e utiliza uma combinação das arquiteturas do codificador FastConformer e do decodificador TDT.

É capaz de transcrever uma hora de áudio em apenas um segundo, desde que esteja executando em hardware acelerado por GPU da Nvidia.

O benchmark de desempenho é medido em um RTFx (Fator de Tempo Real) de 3386,02 com um tamanho de lote de 128, posicionando-o no topo dos benchmarks ASR atuais mantidos pela Hugging Face.

Casos de uso e disponibilidade

Lançado globalmente em 1º de maio de 2025, o Parakeet-TDT-0.6B-v2 é destinado a desenvolvedores, pesquisadores e equipes industriais que constroem aplicações como serviços de transcrição, assistentes de voz, geradores de legendas e plataformas de IA conversacional.

O modelo suporta pontuação, capitalização e timestamping detalhado em nível de palavra, oferecendo um pacote completo de transcrição para uma ampla gama de necessidades de conversão de fala em texto.

Acesso e implantação

Os desenvolvedores podem implantar o modelo usando o kit de ferramentas NeMo da Nvidia. O processo de configuração é compatível com Python e PyTorch, e o modelo pode ser utilizado diretamente ou ajustado para tarefas específicas de domínio.

A licença de código aberto (CC-BY-4.0) também permite uso comercial, tornando-o atraente para startups e empresas.

Dados de treinamento e desenvolvimento do modelo

O Parakeet-TDT-0.6B-v2 foi treinado em um corpus diversificado e de grande escala chamado conjunto de dados Granary. Este inclui cerca de 120.000 horas de áudio em inglês, compostas por 10.000 horas de dados transcritos por humanos de alta qualidade e 110.000 horas de fala pseudo-rotulada.

As fontes variam desde conjuntos de dados conhecidos, como LibriSpeech e Mozilla Common Voice, até YouTube-Commons e Librilight.

A Nvidia planeja tornar o conjunto de dados Granary publicamente disponível após sua apresentação na Interspeech 2025.

Avaliação e robustez

O modelo foi avaliado em múltiplos benchmarks de ASR em inglês, incluindo AMI, Earnings22, GigaSpeech e SPGISpeech, mostrando forte desempenho de generalização. Permanece robusto sob diversas condições de ruído e apresenta bom desempenho mesmo com formatos de áudio estilo telefonia, com apenas uma degradação modesta em menores razões sinal-ruído.

Compatibilidade de hardware e eficiência

Parakeet-TDT-0.6B-v2 é otimizado para ambientes de GPU Nvidia, suportando hardwares como as placas A100, H100, T4 e V100.

Embora GPUs de alto desempenho maximizem o desempenho, o modelo ainda pode ser carregado em sistemas com apenas 2 GB de RAM, permitindo cenários de implantação mais amplos.

Considerações éticas e uso responsável

A NVIDIA observa que o modelo foi desenvolvido sem o uso de dados pessoais e adere à sua estrutura de IA responsável.

Embora nenhuma medida específica tenha sido tomada para mitigar viés demográfico, o modelo passou por padrões de qualidade internos e inclui documentação detalhada sobre seu processo de treinamento, proveniência dos dados e conformidade com a privacidade.

O lançamento chamou a atenção das comunidades de aprendizado de máquina e código aberto, especialmente após ser destacado publicamente nas redes sociais. Comentadores notaram a capacidade do modelo de superar alternativas comerciais de ASR enquanto permanece totalmente de código aberto e utilizável comercialmente.

Desenvolvedores interessados em experimentar o modelo podem acessá-lo via Hugging Face ou através do kit de ferramentas NeMo da Nvidia. Instruções de instalação, scripts de demonstração e orientações de integração estão prontamente disponíveis para facilitar a experimentação e implantação.





    15 − 9 =




    Bolt42