Bolt42

Participe de nossos boletins diários e semanais para as últimas atualizações e conteúdo exclusivo sobre a cobertura de IA de ponta da indústria. Saiba mais


A empresa de design gráfico Napkin AI está trilhando um caminho único em uma área empolgante de aplicações de agentes de IA vertical.

Um usuário pode digitar um texto no site da Napkin AI, e a ferramenta gera um gráfico que representa seu texto em cinco segundos.

O que é fascinante é que, por trás dos panos, a Napkin está realizando isso ao replicar as diferentes funções tradicionais de uma agência de design — redator, designer, ilustrador, estilista de marca – com agentes de IA individuais, ao invés de humanos.

O produto ganhou tração impressionante desde seu lançamento em agosto. Ele possui 2 milhões de usuários beta, o dobro do número de usuários há apenas seis semanas, segundo Pramod Sharma, co-fundador e CEO da Napkin.

“Tomamos uma abordagem um pouco diferente,” disse ele em uma entrevista ao VentureBeat. “Não começamos com: ‘Vamos olhar um modelo de imagem e ver o que ele pode fazer.’ Na verdade, para nós, isso foi uma reflexão posterior. A questão realmente é o que é necessário para criar um gráfico, como isso é feito hoje e trabalhar para trás.”

Napkin AI é parte de uma tendência em direção a agentes de IA verticais

Napkin faz parte de um número crescente de startups que estão surgindo para atender áreas verticais com produtos que não são impulsionados pelo modelo incumbente de SaaS, mas por agentes de IA verticais que operam nos bastidores. A Napkin demonstra como essas empresas podem ser produtivas. Há uma equipe de 12 pessoas trabalhando remotamente, sendo Sharma o único que reside na área da Baía de São Francisco. Essas empresas também prometem ser altamente disruptivas, pois são muito mais personalizáveis e potentes para seus casos de uso específicos.

Para uma análise mais aprofundada da abordagem da Napkin AI, incluindo percepções de seus co-fundadores sobre como seu sistema de agentes funciona, confira minha conversa com Sam Witteveen, um desenvolvedor de agentes de IA, e a equipe da Napkin neste vídeo do YouTube:

O que parece diferenciar a Napkin da concorrência em seu espaço é seu foco em atender a uma necessidade específica: ajudar profissionais que não são especialistas em design gráfico a criar designs bonitos, principalmente para apresentações em PowerPoint. Esses usuários desejam diagramas e outras ilustrações, e não apenas as imagens sofisticadas produzidas por muitos provedores de IA generativa — e querem poder editar essas imagens de maneira fácil e simples. E é isso que a Napkin faz: após fornecer sua melhor resposta ao usuário dentro de cinco segundos, permite que o usuário edite aspectos como estilo, cor e tipo de design. (Veja a imagem abaixo como exemplo de uma imagem renderizada pela Napkin)

Exemplo de uma imagem gerada pela Napkin AI

Napkin AI representa um terceiro caminho

A Napkin não usa modelos de difusão de IA como a maioria dos outros provedores de imagem, disse o CEO Sharma, porque esses modelos não permitem que os usuários editem facilmente elementos únicos de ilustrações, como as fatias de um gráfico de pizza ou o texto circundante. Ao fundamentar o produto Napkin com agentes que atendem funções específicas e úteis, a abordagem da Napkin representa um “terceiro caminho.”

O “primeiro caminho”, tomado por contemporâneos incumbentes de design gráfico como Adobe ou Canva, é anexar ferramentas de IA a fluxos de trabalho de design tradicionais. A Napkin não faz isso. Ela é gerativa pela essência, pois utiliza IA generativa para criar o melhor rascunho visual que consegue, com base no prompt do usuário. Em seguida, simplifica o processo de edição restante, mantendo em mente que a maioria dos usuários não possui habilidades avançadas de design — aquelas necessárias, por exemplo, para entender o Adobe Creative Cloud.

Nem a Napkin segue o “segundo caminho”, daquele novo grupo de empresas de imagens e vídeos de IA, como MidJourney, Stable Diffusion, Runway, Ideogram e outras — que se orgulham de serem first AI, e usam modelos de difusão massivos para deslumbrar os usuários com imagens ou vídeos de alta qualidade. Muitas vezes não é claro como se diferenciam umas das outras. A Napkin, no entanto, está determinada a não cair na armadilha da tecnologia maravilhosa apenas por causa disso, porque isso não coloca os usuários em primeiro lugar, disse Sharma.

Veja como a Napkin AI funciona: ela permite que os usuários coletem uma descrição em texto — seja um prompt para uma apresentação, um trecho de blog ou notas de brainstorming — e recebam múltiplas opções gráficas de alta qualidade em segundos. Esses gráficos não são meros templates, mas designs personalizáveis, com fontes, cores e layouts editáveis — mas são fáceis de usar, com ferramentas deslizantes. O produto evita a enorme barra de menu com centenas de opções fornecidas por ferramentas mais complexas como Figma ou Canva. Após criar uma imagem, a Napkin permite que você a exporte em formato PNG, PDF ou SVG.

Napkin AI possui quatro sub-agentes sob o capô

Mais interessante, porém, é como os agentes estão trabalhando por trás dos bastidores: a Napkin utiliza um LLM orquestrador, impulsionado principalmente pelo GPT-4o mini da OpenAI, para responder ao prompt de um usuário. Este LLM atua como um agente, delegando tarefas a uma série de outros sub-agentes que têm responsabilidades específicas. O primeiro “agente de texto” sugere algum texto que pode ser usado no design. O segundo “agente de layout” analisa o texto e decide sobre um layout de design específico que seria o melhor para aquele texto. Um terceiro “agente de ícone e ilustração” verifica um banco de dados para ver se há um ícone que corresponda ao pedido de texto, e se não houver, ele pode gerar um ícone no ato. Por fim, há um quarto “agente de estilo”, que permite que os usuários personalizem o design com suas próprias cores e estilo corporativo. Como explica o CEO Sharma, a Napkin não impõe muitas restrições a esses quatro agentes, exceto para maximizar a qualidade e a velocidade. Responder em cinco segundos é fundamental para encantar os clientes, disse Sharma.

Cada “agente” contribui para a composição geral, garantindo que o gráfico gerado seja não apenas esteticamente agradável, mas também adaptado à intenção do usuário.

O quarto, “agente de estilo”, será introduzido no produto na próxima semana, e haverá melhorias ao longo do tempo, disse Sharma. Em breve, os usuários poderão fazer upload de uma captura de tela ou de outros documentos de seu estilo corporativo, para que um modelo de imagem possa gerar automaticamente imagens nesse estilo. Ele citou a pesquisa sendo feita pela Meta na área de grandes modelos de conceito (LCMS) que poderiam ajudar aqui. Por enquanto, porém, o agente da Napkin é um motor de renderização que oferece várias opções de estilo aos usuários por meio de um painel de controle.

Fiz esta imagem a partir da Napkin AI para ilustrar seu layout de agentes.

Qualidade e foco como diferenciadores

Um dos compromissos mais marcantes da Napkin é seu foco na qualidade. Para Sharma, o objetivo não é apenas produzir visuais rapidamente — é garantir que cada gráfico valha a pena ser usado. “Nós pegamos seu conteúdo escrito e o transformamos em um gráfico que realmente captura a essência da sua ideia,” disse Sharma. “Percebemos que, em um gráfico, bom não é suficiente. Ele precisa ser realmente, realmente ótimo. Caso contrário, perde seu propósito.”

Sharma co-fundou a Napkin AI com Jerome Scholler, depois de compartilhar uma frustração conjunta em relação à qualidade de apresentações. Antes de iniciar a Napkin, Sharma construiu a empresa de jogos educacionais para crianças Osmo, que também era conhecida pela qualidade de design. Scholler também fazia parte da equipe fundadora da Osmo. Sharma é também um ex-funcionário do Google.

Essa obsessão com a qualidade se estende aos fundamentos técnicos. Ao contrário dos modelos de difusão que muitas vezes carecem de compreensão semântica dos gráficos, a plataforma baseada em agentes da Napkin permite separar elementos como conteúdo, layout e estilo. Esse desacoplamento permite que os usuários modifiquem o conteúdo de forma dinâmica sem perder a integridade do design.

Tração e expansão

O mercado parece concordar com a abordagem da Napkin. A plataforma dobrou seus usuários nas últimas seis semanas e está mostrando fortes taxas de retenção, sugerindo que os usuários gostam do fluxo de trabalho subjacente. Após algumas semanas de uso, “os usuários dizem: ‘Me dê mais!’” disse Sharma. “‘Você pode expandir o catálogo? As possibilidades? O tipo de ilustrações?’ É bom para nós porque estamos muito focados agora.”

O que é interessante, porém, é que para comunicações visuais, certos designs funcionam bem e outros não. O cérebro humano pode entender facilmente gráficos de pizza e barras, por exemplo, mas pode ter mais dificuldade com outros designs. “O que aprendemos sobre o espaço é que as estruturas em si não são ilimitadas,” disse Sharma. “São estruturas ou metáforas bem definidas que as pessoas tipicamente usam, mas como você as apresenta? Como você ilustra essa metáfora? É aí que vem muita criatividade, e estamos realmente trabalhando para expandir isso dramaticamente.”

A empresa levantou uma rodada de seed de $10 milhões em agosto, e saiu do modo oculto na época (veja a cobertura do VentureBeat na época). Mas já se passaram três anos desde que começaram a trabalhar no problema. “Posso te dizer que ainda é um problema muito difícil,” disse Sharma. “Os humanos são muito bons em ler gráficos e perceber se o gráfico é bom. Eles não sabem como fazer um, mas podem julgá-lo muito, muito rapidamente.”

O futuro da Napkin AI

À medida que grandes players como Canva e Adobe observam o espaço da IA generativa, a clara diferenciação da Napkin AI pode torná-la um alvo de aquisição. Seja como um disruptor independente ou um componente crítico de um ecossistema maior, a Napkin AI é, sem dúvida, uma empresa a ser observada no cenário de gráficos de IA generativa.





    14 − 9 =




    Bolt42