Na quinta-feira, a desenvolvedora francesa de modelos de linguagem grandes (LLM) Mistral lançou uma nova API para desenvolvedores que lidam com documentos PDF complexos. A Mistral OCR é uma API de reconhecimento óptico de caracteres (OCR) que transforma qualquer PDF em um arquivo de texto, facilitando a ingestão por modelos de inteligência artificial.
Os LLMs, que sustentam ferramentas populares de GenAI como o ChatGPT da OpenAI, funcionam particularmente bem com texto bruto. Assim, empresas que desejam criar seu próprio fluxo de trabalho de IA sabem que se tornou extremamente importante armazenar e indexar dados em um formato limpo para que esses dados possam ser reutilizados em processamentos de IA.
Diferentemente da maioria das APIs de OCR, a Mistral OCR é uma API multimodal, ou seja, consegue detectar quando há ilustrações e fotos entre blocos de texto. A API de OCR cria caixas delimitadoras ao redor desses elementos gráficos e os inclui na saída.
Além disso, a Mistral OCR não apenas oferece um grande bloco de texto; a saída é formatada em Markdown, uma sintaxe de formatação utilizada por desenvolvedores para adicionar links, cabeçalhos e outros elementos de formatação a um arquivo de texto simples.
Os LLMs dependem fortemente do Markdown para seus conjuntos de dados de treinamento. Da mesma forma, ao usar um assistente de IA, como o Le Chat da Mistral ou o ChatGPT da OpenAI, eles frequentemente geram Markdown para criar listas com marcadores, adicionar links ou destacar alguns elementos em negrito. Aplicativos assistentes formatam essa saída em Markdown de maneira fluida em uma saída de texto rico. É por isso que o texto bruto — e o Markdown — se tornaram mais importantes nos últimos anos à medida que o GenAI explodiu.
“Ao longo dos anos, as organizações acumularam inúmeros documentos, muitas vezes em formatos PDF ou de apresentação, que são inacessíveis aos LLMs, especialmente para sistemas RAG. Com a Mistral OCR, nossos clientes agora podem converter documentos ricos e complexos em conteúdo legível em todos os idiomas”, disse o cofundador e diretor científico da Mistral, Guillaume Lample.
“Este é um passo crucial para a ampla adoção de assistentes de IA em empresas que precisam simplificar o acesso à sua vasta documentação interna”, acrescentou.
A Mistral OCR está disponível na própria plataforma de API da Mistral ou através de seus parceiros de nuvem (AWS, Azure, Google Cloud Vertex, etc.). E para empresas que trabalham com dados classificados ou sensíveis, a Mistral oferece implantação local.
De acordo com a empresa de IA com sede em Paris, a Mistral OCR possui um desempenho melhor do que APIs do Google, Microsoft e OpenAI. A empresa testou seu modelo de OCR com documentos complexos que incluem expressões matemáticas (formatação LaTeX), layouts avançados ou tabelas. Também é suposto que tenha um desempenho melhor com documentos que não estão em inglês.

Considerando que a Mistral OCR faz uma única função, a empresa acredita que ela também é mais rápida do que as opções existentes. Isso não é uma surpresa se comparado a um LLM multimodal como o GPT-4o, que também possui capacidades de OCR (entre muitas outras funcionalidades).
A Mistral também está utilizando a Mistral OCR em seu próprio assistente de IA Le Chat. Quando um usuário faz o upload de um arquivo PDF, a empresa utiliza a Mistral OCR nos bastidores para entender o que há no documento antes de processar o texto.
Empresas e desenvolvedores provavelmente utilizarão a Mistral OCR com um sistema RAG (ou seja, Geração Aumentada por Recuperação) para usar documentos multimodais como entrada em um LLM. E há muitos casos de uso potenciais. Por exemplo, poderíamos imaginar escritórios de advocacia usando isso para ajudá-los a analisar rapidamente grandes volumes de documentos.
RAG é uma técnica usada para recuperar dados e utilizá-los como contexto com um modelo de IA generativa.
Conteúdo relacionado
Juiz permite que processo dos autores sobre direitos autorais de IA contra a Meta prossiga
[the_ad id="145565"] Um juiz federal está permitindo que um processo judicial relacionado à copyright envolvendo a Meta prossiga, embora tenha rejeitado parte da ação. No caso…
Google Remove Menções a ‘Diversidade’ e ‘Equidade’ da Página da Equipe de IA Responsável
[the_ad id="145565"] O Google fez uma atualização silenciosa em sua página da equipe de IA Responsável e Tecnologia Centrada no Humano (RAI-HCT), a qual é responsável por…
Nova proposta do DOJ ainda pede que o Google desmete o Chrome, mas permite investimentos em IA.
[the_ad id="145565"] O Departamento de Justiça dos EUA ainda está pedindo para que o Google venda seu navegador Chrome, de acordo com um documento da corte divulgado na…