Mistral lança uma API de moderação

A startup de IA Mistral lançou uma nova API para moderação de conteúdo.

A API, que é a mesma que alimenta a moderação na plataforma de chatbot Le Chat da Mistral, pode ser adaptada a aplicações específicas e padrões de segurança, segundo a Mistral. Ela é baseada em um modelo ajustado (Ministral 8B) treinado para classificar texto em uma variedade de idiomas, incluindo inglês, francês e alemão, em uma das nove categorias: sexual, ódio e discriminação, violência e ameaças, conteúdo perigoso e criminal, autoagressão, saúde, finanças, lei e informações pessoais identificáveis.

A API de moderação pode ser aplicada a texto bruto ou conversacional, afirma a Mistral.

“Nos últimos meses, observamos um crescente entusiasmo na indústria e na comunidade de pesquisa por novos sistemas de moderação baseados em IA, que podem ajudar a tornar a moderação mais escalável e robusta em diversas aplicações,” escreveu a Mistral em um post no blog. “Nosso classificador de moderação de conteúdo aproveita as categorias de políticas mais relevantes para garantir guardrails eficazes e introduz uma abordagem pragmática para a segurança do modelo, abordando danos gerados por modelos, como conselhos não qualificados e PII.”

Os sistemas de moderação impulsionados por IA são úteis em teoria. No entanto, eles também são suscetíveis aos mesmos preconceitos e falhas técnicas que afetam outros sistemas de IA.

Por exemplo, alguns modelos treinados para detectar toxicidade interpretam frases em Vernacular Afro-Americano (AAVE), a gramática informal usada por alguns americanos negros, como desproporcionalmente “tóxicas.” Publicações em redes sociais sobre pessoas com deficiências também são frequentemente sinalizadas como mais negativas ou tóxicas por modelos públicos de detecção de sentimento e toxicidade, como estudos já encontraram.

A Mistral afirma que seu modelo de moderação é altamente preciso — mas também admite que ainda está em desenvolvimento. Notavelmente, a empresa não comparou o desempenho de sua API com outras APIs de moderação populares, como a Perspective API do Jigsaw e a API de moderação da OpenAI.

“Estamos trabalhando com nossos clientes para construir e compartilhar ferramentas de moderação escaláveis, leves e personalizáveis,” disse a empresa, “e continuaremos a dialogar com a comunidade de pesquisa para contribuir com avanços em segurança para o campo mais amplo.”

A Mistral também anunciou uma API de processamento em lote hoje. A empresa afirma que pode reduzir o custo de modelos atendidos por meio de sua API em 25% ao processar requisições de alto volume de forma assíncrona. A Anthropic, OpenAI, Google e outros também oferecem opções de processamento em lote para suas APIs de IA.