Bolt42

Junte-se aos nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre cobertura de IA líder do setor. Saiba Mais


A IA empresarial é tão eficaz quanto os dados disponíveis para um modelo.

No passado, as empresas dependiam em grande parte de dados estruturados. Com a rápida adoção da IA generativa, as empresas estão cada vez mais buscando consumir quantidades muito maiores de dados não estruturados. Dados não estruturados, por definição, não têm uma estrutura específica e podem estar em várias formas. Para as empresas, isso pode ser um desafio, pois a qualidade dos dados não estruturados muitas vezes é desconhecida. A qualidade dos dados pode se referir à precisão, lacunas de conhecimento, duplicações e outros problemas que impactam a utilidade dos dados.

As ferramentas de qualidade de dados, que são usadas há muito tempo para dados estruturados, estão agora se expandindo para dados não estruturados na IA empresarial. Um dos fornecedores, a Anomalo, tem desenvolvido sua plataforma de qualidade de dados para dados estruturados há vários anos. Hoje, a empresa anunciou uma expansão de sua plataforma para melhor suportar o monitoramento da qualidade dos dados não estruturados.

O cofundador e CEO da Anomalo, Elliot Shmukler, acredita que a tecnologia de sua empresa pode ter um impacto significativo nas organizações.

“Acreditamos que ao eliminar problemas de qualidade dos dados, podemos acelerar pelo menos 30% das implementações de IA generativa”, disse Shmukler em uma entrevista exclusiva à VentureBeat.

Ele observou que as empresas abandonam alguns projetos de IA após a fase de prova de conceito. O problema raiz reside na baixa qualidade dos dados, grandes lacunas de dados e o fato de que os dados empresariais não estão prontos para o consumo de IA generativa.

“Acreditamos que o uso do monitoramento não estruturado da Anomalo poderia acelerar os típicos projetos de IA generativa nas empresas em até um ano,” disse Shmukler. “Isso se deve à capacidade de entender rapidamente, perfilar e, em última instância, curar os dados dos quais esses projetos dependem.”

Além da atualização do produto, a Anomalo anunciou uma extensão de $10 milhões em seu financiamento da Série B, anteriormente anunciado em 23 de janeiro, elevando o total para $82 milhões.

Por que a qualidade dos dados é importante para a IA empresarial

Diferente das preocupações tradicionais sobre a qualidade de dados estruturados, o conteúdo não estruturado apresenta desafios únicos para aplicações de IA.

“Como se trata de dados não estruturados, qualquer coisa pode estar lá,” enfatizou Shmukler. “Pode haver informações pessoalmente identificáveis, e-mails, nomes, números de seguridade social… pode haver informações secretas proprietárias nesses documentos que talvez você não queira enviar para os grandes modelos de linguagem.”

A plataforma Anomalo aborda esses desafios adicionando metadados estruturados a documentos não estruturados. Isso permite que as organizações entendam e controlem melhor seus dados antes que eles cheguem aos modelos de IA.

O software da Anomalo oferece os seguintes recursos principais para a qualidade de dados não estruturados:

Definição de problema personalizada: Permite que os usuários definam seus próprios problemas a serem detectados em coleções de documentos, além dos problemas pré-definidos, como informações pessoalmente identificáveis (PII) ou conteúdo abusivo.

Suporte para modelos em nuvem privada: Permite que as empresas utilizem grandes modelos de linguagem (LLMs) implantados em seus próprios ambientes de provedores de nuvem, proporcionando mais controle e conforto sobre seus dados.

Tagueamento de metadados: Adiciona metadados estruturados a documentos não estruturados, como informações sobre problemas detectados, para permitir uma melhor curadoria e filtragem dos dados para aplicações de IA generativa.

Redação: Um recurso futuro que permitirá que o software forneça versões redigidas de documentos, removendo informações sensíveis.

Diferenciação competitiva em um mercado emergente para a qualidade de dados não estruturados

A Anomalo não está sozinha no mercado de qualidade de dados não estruturados, assim como não estava sozinha na qualidade de dados estruturados.

Múltiplos fornecedores de qualidade de dados, incluindo Monte Carlo Data, Collibra e Qlik, possuem diferentes formas de tecnologia para qualidade de dados não estruturados. Shmukler vê várias áreas e maneiras pelas quais sua empresa se diferencia.

Ele observou que alguns dos outros fornecedores estão abordando a qualidade de dados não estruturados integrando-se a bancos de dados vetoriais que contêm dados que alimentam um fluxo de trabalho de geração aumentada por recuperação (RAG). Shmukler explicou que a abordagem requer que um pipeline já esteja configurado para enviar os dados apropriados para o banco de dados vetorial. Ele também acrescentou que isso restringe as aplicações apenas à abordagem tradicional de RAG, ao invés de abordagens mais novas, como grandes modelos de contexto, que podem nem precisar de um banco de dados vetorial.

“A Anomalo é diferente pois analisamos as coleções brutas de dados não estruturados, antes que qualquer pipeline tenha sido configurado para ingerir tais dados,” disse Shmukler. “Isso permite uma exploração mais ampla de todos os dados disponíveis antes de se comprometer a construir um pipeline e também abre todas as possíveis abordagens para usar esses dados além das técnicas tradicionais de RAG.”

Como o monitoramento da Anomalo se encaixa nas implementações de IA empresarial

A plataforma Anomalo pode acelerar vários aspectos das implementações de IA empresarial.

Shmukler observou que as equipes podem integrar o monitoramento da qualidade dos dados na fase de preparação dos dados, antes de enviar qualquer dado para um modelo ou banco de dados vetorial. Fundamentamente, o que a Anomalo faz é fornecer um pouco de estrutura, na forma de metadados, sobre os dados não estruturados. As empresas podem usar metadados estruturados para garantir dados de alta qualidade e livres de problemas ao treinar ou ajustar modelos de IA generativa.

O monitoramento da qualidade dos dados da Anomalo também pode se integrar aos pipelines de dados que alimentam o RAG. No caso de uso do RAG, dados não estruturados são ingeridos em bancos de dados vetoriais para recuperação. Os metadados podem ser usados para filtrar, classificar e curar os dados utilizados no RAG, garantindo a qualidade das informações usadas para gerar resultados.

Outra área central onde Shmukler vê o impacto do monitoramento da qualidade dos dados é na conformidade e mitigação de riscos. A tagueação de dados da Anomalo ajuda as empresas a evitar que a IA gerativa exponha informações sensíveis e viole conformidades.

“Toda empresa está preocupada com LLMs respondendo com dados que não deveriam ter, revelando informações sensíveis,” disse Shmukler. “Uma grande parte disso, além disso, é apenas poder dormir melhor à noite, enquanto você constrói suas aplicações de IA generativa, sabendo que é muito, muito menos provável que qualquer dado sensível ou qualquer dado que você não queira que o LLM conheça, realmente chegue ao LLM.”





    15 + três =




    Bolt42