Participe de nossas newsletters diárias e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura líder de IA no setor. Saiba mais
O mundo dos investimentos enfrenta um problema significativo quando se trata de dados sobre pequenas e médias empresas (PMEs). Isso não está relacionado à qualidade ou precisão dos dados — é a falta de dados disponíveis.
Avaliar a solvência de créditos de PMEs tem sido notoriamente desafiador, pois os dados financeiros das pequenas empresas não são públicos, tornando-se, portanto, muito difíceis de acessar.
S&P Global Market Intelligence, uma divisão da S&P Global e um dos principais provedores de classificações de crédito e benchmarks, afirma ter resolvido esse problema antigo. A equipe técnica da empresa construiu a RiskGauge, uma plataforma impulsionada por IA que rastreia dados difíceis de encontrar de mais de 200 milhões de sites, processa-os por meio de vários algoritmos e gera pontuações de risco.
Baseada na arquitetura Snowflake, a plataforma aumentou a cobertura de PMEs da S&P em 5X.
“Nosso objetivo era expansão e eficiência,” explicou Moody Hadi, chefe de desenvolvimento de novos produtos de soluções de risco da S&P Global. “O projeto melhorou a precisão e a cobertura dos dados, beneficiando os clientes.”
A arquitetura subjacente do RiskGauge
A gestão de crédito de contraparte essencialmente avalia a solvência e o risco de uma empresa com base em vários fatores, incluindo finanças, probabilidade de inadimplência e apetite ao risco. A S&P Global Market Intelligence fornece essas informações a investidores institucionais, bancos, seguradoras, gestores de patrimônio e outros.
“Grandes entidades corporativas financeiras emprestam para fornecedores, mas precisam saber quanto emprestar, com que frequência monitorá-los, qual seria a duração do empréstimo,” explicou Hadi. “Eles confiam em terceiros para obter uma pontuação de crédito confiável.”
Mas há muito tempo existe uma lacuna na cobertura das PMEs. Hadi apontou que, enquanto grandes empresas públicas como IBM, Microsoft, Amazon e Google são obrigadas a divulgar seus resultados financeiros trimestrais, as PMEs não têm essa obrigação, limitando a transparência financeira. Do ponto de vista do investidor, considere que existem cerca de 10 milhões de PMEs nos EUA, em comparação com cerca de 60 mil empresas públicas.
A S&P Global Market Intelligence afirma que agora cobre todas essas empresas: anteriormente, a firma tinha dados sobre cerca de 2 milhões, mas o RiskGauge expandiu isso para 10 milhões.
A plataforma, que entrou em produção em janeiro, baseia-se em um sistema construído pela equipe de Hadi que extrai dados da empresa de conteúdo da web não estruturado, combina-os com conjuntos de dados anônimos de terceiros e aplica aprendizado de máquina (ML) e algoritmos avançados para gerar pontuações de crédito.
A empresa utiliza Snowflake para minerar páginas de empresas e processá-las em fatores firmográficos (segmentadores de mercado) que são então alimentados no RiskGauge.
A pipeline de dados da plataforma consiste em:
- Crawlers / web scrapers
- Uma camada de pré-processamento
- Mineradores
- Curadores
- Pontuação RiskGauge
Especificamente, a equipe de Hadi utiliza o armazém de dados da Snowflake e os Serviços de Contêiner Snowpark no meio das etapas de pré-processamento, mineração e curadoria.
No final desse processo, as PMEs são pontuadas com base em uma combinação de riscos financeiros, comerciais e de mercado; 1 sendo o mais alto, 100 o mais baixo. Os investidores também recebem relatórios sobre o RiskGauge detalhando finanças, firmográficos, relatórios de crédito empresarial, desempenho histórico e principais desenvolvimentos. Eles também podem comparar empresas com seus pares.
Como a S&P está coletando dados valiosos sobre empresas
Hadi explicou que o RiskGauge emprega um processo de coleta em várias camadas que extrai vários detalhes do domínio da web de uma empresa, como páginas básicas de ‘contato’ e informações relacionadas a notícias. Os mineradores vão por várias camadas de URL para extrair dados relevantes.
“Como você pode imaginar, uma pessoa não consegue fazer isso,” disse Hadi. “Seria muito demorado para um humano, especialmente quando você lida com 200 milhões de páginas da web.” O que, ele observou, resulta em vários terabytes de informações de sites.
Após a coleta de dados, o próximo passo é executar algoritmos que removem qualquer coisa que não seja texto; Hadi destacou que o sistema não está interessado em JavaScript ou mesmo tags HTML. Os dados são limpos para que se tornem legíveis por humanos, não por código. Em seguida, são carregados na Snowflake, e vários mineradores de dados são executados nas páginas.
Algoritmos de conjunto são críticos para o processo preditivo; esse tipo de algoritmo combina previsões de vários modelos individuais (modelos base ou ‘aprendizes fracos’ que são essencialmente um pouco melhores do que adivinhação aleatória) para validar informações da empresa, como nome, descrição do negócio, setor, localização e atividade operacional. O sistema também leva em consideração qualquer polaridade em torno das divulgações feitas no site.
“Após rastrear um site, os algoritmos atingem diferentes componentes das páginas extraídas, e eles votam e retornam com uma recomendação,” explicou Hadi. “Não há humanos envolvidos nesse processo, os algoritmos estão essencialmente competindo entre si. Isso ajuda na eficiência para aumentar nossa cobertura.”
Após esse carregamento inicial, o sistema monitora a atividade do site, executando automaticamente varreduras semanais. Ele não atualiza informações semanalmente; apenas quando detecta uma mudança, acrescentou Hadi. Ao realizar varreduras subsequentes, uma chave hash rastreia a página de entrada do rastreamento anterior, e o sistema gera outra chave; se forem idênticas, nenhuma mudança foi feita e nenhuma ação é necessária. No entanto, se as chaves hash não coincidirem, o sistema será acionado para atualizar a informação da empresa.
Essa coleta contínua é importante para garantir que o sistema permaneça o mais atualizado possível. “Se eles estão atualizando o site com frequência, isso nos informa que eles estão ativos, certo?”, observou Hadi.
Desafios com velocidade de processamento, gigantescos conjuntos de dados e sites desorganizados
Havia desafios a serem superados ao construir o sistema, é claro, particularmente devido ao tamanho dos conjuntos de dados e à necessidade de processamento rápido. A equipe de Hadi teve que fazer compromissos para equilibrar precisão e velocidade.
“Continuamos otimizando diferentes algoritmos para rodar mais rápido,” explicou ele. “E ajustando; alguns algoritmos que tínhamos eram realmente bons, com alta precisão, alta lembrança, mas eram computacionalmente muito caros.”
Os sites nem sempre seguem formatos padrão, exigindo métodos de coleta flexíveis.
“Você ouve muito sobre o design de sites com um exercício como este, porque quando começamos, pensávamos: ‘Ei, todo site deveria seguir um sitemap ou XML,’” disse Hadi. “E adivinha? Ninguém segue isso.”
Eles não queriam codificar rígida ou incorporar automação de processos robóticos (RPA) no sistema porque os sites variam muito, disse Hadi, e eles sabiam que as informações mais importantes eram o texto. Isso levou à criação de um sistema que só extrai componentes necessários de um site, depois os limpa para o texto real e descarta o código e qualquer JavaScript ou TypeScript.
Como Hadi destacou, “os maiores desafios estavam em torno de desempenho e ajuste e o fato de que os sites por design não são limpos.”
Insights diários sobre casos de uso de negócios com o VB Daily
Se você quiser impressionar seu chefe, o VB Daily tem o que você precisa. Damos a você informações privilegiadas sobre o que as empresas estão fazendo com IA generativa, desde mudanças regulatórias até implementações práticas, para que você possa compartilhar insights para o máximo de ROI.
Leia nossa Política de Privacidade
Obrigado por se inscrever. Confira mais newsletters do VB aqui.
Ocorreu um erro.

Conteúdo relacionado
A América do Norte concentra a maior parte dos investimentos em capital de risco em IA, apesar do ambiente político desafiador.
[the_ad id="145565"] Apesar do que alguns especialistas têm caracterizado como um ambiente cada vez mais hostil à P&D em IA, a América do Norte continua recebendo a maior…
CEO da Alphabet, Sundar Pichai, descarta temores sobre empregos com IA e destaca planos de expansão.
[the_ad id="145565"] Em uma entrevista à Bloomberg na noite de quarta-feira, no centro de San Francisco, o CEO da Alphabet, Sundar Pichai, rejeitou as preocupações de que a IA…
Google adia o lançamento do recurso de busca por IA ‘Ask Photos’
[the_ad id="145565"] O Google está adiando o lançamento do recurso “Ask Photos” por cerca de duas semanas, escreveu o gerente de produto do Google Photos, Jamie Aspinall, em……