Data-centric: os dados no coração da Inteligência Artificial

Por EloInsights

Modelos de inteligência artificial (IA) já levam organizações a outro patamar de advanced analytics, consolidando uma cultura orientada a dados (data-driven)

Em um cenário de amadurecimento da capacidade analítica das empresas, o princípio de data-centric AI propõe trazer ao centro a preocupação com a qualidade dos dados para evoluir os sistemas baseados em IA.

O artigo traça um panorama, além de tratar de aspectos que podem impactar o futuro da IA, como rotulagem de dados e modelos causais.

O conceito de “data-centric AI”, que estabelece que, por mais avançados e maduros que sejam os atuais modelos de IA, é vital que as organizações tenham em seu horizonte a importância crucial da qualidade e disponibilidade de dados para que esse trabalho seja feito com mais acurácia, abrindo assim novas possibilidades de aplicação e desenvolvimento do negócio.

No cenário atual dos negócios, adotar uma cultura orientada por dados (no termo em inglês, data-driven) é fundamental para uma organização que almeje não apenas se manter competitiva, mas também expandir sua capacidade de atuação e entrega de valor para todos os stakeholders envolvidos. Para que seja possível concretizar um cenário em que a tomada de decisão é embasada por dados, torna-se crucial o investimento em áreas-chave como advanced analytics e inteligência artificial (IA).

E isso implica, para as organizações, dar alguns passos atrás e responder algumas perguntas fundamentais, que dizem respeito às suas bases. Por exemplo: como a empresa trata seus dados atualmente?

Apesar de as discussões em torno de advanced analytics e inteligência artificial evocarem cenários de alta sofisticação tecnológica, existem trabalhos de base anteriores que precisam ser feitos para viabilizar essa realidade mais avançada. E é nesse ponto que muitas empresas ainda pecam.

O que é Data-Centric?

Em 2020, o Instituto Cappra entrevistou 500 especialistas em diversas empresas no Brasil que, em média, lidavam com um volume de dados próximo a 10 petabytes, com um crescimento esperado de 175% nos próximos 5 anos. Apesar disso, somente 48% dos colaboradores dessas organizações usavam efetivamente dados em tomadas de decisão.

É para atender à demanda de extrair o máximo de informações úteis do big data que o data-centric AI traz uma nova perspectiva: olhar para como são extraídos, tratados e armazenados os dados usados no treinamento de modelos de inteligência artificial.

As organizações já canalizam recursos para tecnologias e sistemas baseados em IA. Pesquisa do IDC conclui que 86%, de mais de 300 empresas analisadas em oito países da América Latina, já adotam soluções de Dados, Analytics e Inteligência Artificial.

Esta, associada a machine learning, aparece entre os principais investimentos feitos a partir de 2022. Outro estudo, da Dell em parceria com a MIT Technology Review, aponta que a IA está no horizonte de 4 a cada 10 empresas latino-americanas, sendo que a Internet das Coisas (IoT, pela sigla em inglês) aparece nos planos de 34% das organizações.

Os planos são promissores, mas a realidade no momento é outra, pois a capacidade analítica das empresas ainda é baixa. Uma prova disso é que a falta de maturidade para lidar com dados é o principal motivo de insatisfação de profissionais da área de analytics, segundo o State of Data Brasil 2021.

Ou seja, para alavancar a inovação, desenvolver e reter os profissionais mais talentosos, é fundamental fornecer estrutura de tecnologia e ferramentas, estabelecer uma visão clara de processos e governança, criar um roadmap priorizado de casos de uso e moldar-se para construir uma cultura data-driven, com tomada de decisão baseada em dados. E tudo isso pode ter um custo altíssimo.

Como otimizar o uso de sistemas baseados em IA e orientar o uso de dados na empresa?

É importante, primeiro, compreender a importância de se priorizar o foundation do dado. Antes mesmo de contratar cientistas de dados ou engenheiros superespecializados para obter ganhos com tecnologias ligadas a advanced analytics, caso da IA, é preciso garantir robustez.

Essa é a tese de Pedro Guilherme Ferreira. “É essencial ter uma governança mais preocupada com a acuracidade dos dados para poder tomar decisões embasadas neles”, afirma.

Ter o data-centric AI como princípio reforça a construção de indicadores, visto que hoje muitas indústrias sequer coletam dados para estruturar séries históricas que embasam modelos preditivos.

Trazer os dados para o centro significa, por exemplo, aplicar um metric layer, ou seja, uma camada semântica ou um repositório centralizado, em que as equipes de dados definem e armazenam as métricas de negócios.

“Assim, tudo o que você construir em Analytics terá uma fonte única, uma fonte da verdade daquele dado”, diz Ferreira.

Não se refere a apenas guardá-los em um data lake, armazenamento de dados estruturados e não-estruturados que permite diferentes tipos de análise e processamento de big data, mas diz respeito à forma como esse repositório será construído e o que vai ser extraído daqueles dados.

Em um exemplo simples, isso quer dizer que a forma como o dado é descrito e armazenado pode tornar mais ou menos eficiente sistemas baseados em IA que façam controle de qualidade de manufaturas em uma indústria, por meio de reconhecimento de imagens.

“O data-centric é mais complexo. Para começar a ser uma empresa com cultura data-driven, é preciso pensar mais no dado que no modelo. O dado sempre foi o coração do Analytics e da Estatística. A preocupação tem que estar ali”, diz Ferreira.

A evolução dos modelos e sistemas baseados em IA

O conceito de data-centric AI é novo. Tanto que ocupa o primeiro quadrante entre as inovações do gráfico Hype Cycle for AI 2022, da Gartner.

Em recente entrevista para a Fortune, Andrew Ng – um dos pioneiros do deep learning, fundador e CEO da Landing AI e grande defensor do data-centric AI – ressalta o valor dos dados nesse contexto. A premissa é que os algoritmos de IA de última geração são cada vez mais onipresentes graças aos repositórios de código aberto e à publicação de pesquisas de ponta.

As empresas podem acessar o mesmo código que gigantes como o Google ou a NASA, mas o sucesso dependerá de quais dados serão usados para treinar seus algoritmos, de que forma eles são coletados e processados e como são governados.

A ideia do conceito data-centric é criar sistemas de inteligência artificial que sejam bem treinados usando a menor quantidade possível de dados muito bem-preparados.

Ferreira enfatiza que esse entendimento nasce de uma evolução. “Por algum tempo, tudo ficou muito concentrado na questão dos modelos. Os dados vinham de mídias sociais, de gigantes como Facebook e Google. O foco estava nas modelagens. Você saía do machine learning (aprendizado de máquinas) para outros modelos de inteligência artificial, com redes neurais”, afirma.

Seguindo essa linha evolutiva, entendemos melhor a proposta de guinada para o data-centric. Em um estágio inicial, o interesse se concentrava no desempenho e na acuracidade dos modelos e sistemas baseados em IA.

Deep learning e machine learning

O deep learning aprofundou as camadas de aprendizado da inteligência artificial por meio de algoritmos mais autônomos dentro do processo de machine learning, possibilitando o desenvolvimento de sistemas adaptativos que se assemelham ao cérebro humano, as redes neurais, acrescentando complexidade a modelos de análise de dados.

Na discussão em curso, esses modelos já são considerados maduros e o que passa a fazer a diferença é a qualidade dos dados usados para treiná-los. Além disso, as empresas hoje já têm condições de coletar informações de forma mais independente e a tratar esses dados da melhor maneira possível para levar as análises a outro patamar.

“É sobre você ter um dado muito correto, com muitas informações e em menor quantidade para obter o melhor desempenho dos modelos em relação ao que você está querendo responder. Essa é a grande diferença do data-centric: uma IA em que há um trabalho mais cuidadoso para que os dados possam gerar bons resultados futuros”, reforça Ferreira.

Assim como na aplicação de qualquer recurso tecnológico, não existe bala de prata na inteligência artificial. Para cada problema a ser resolvido, há um modelo mais adequado. O funcionamento pode envolver todos os tipos de dado, seja um texto, uma imagem, uma série temporal, entre outros.

Independente disso, o modelo faz uma redução de dimensionalidade para conseguir capturar toda a estrutura daquilo que está sendo analisado, até sobrar algo que não se consegue capturar. Vamos colocar um exemplo mais concreto: em uma indústria, é preciso prever qual será a venda de uma marca de refrigerante em um determinado mês. Para isso, recorre-se a dados históricos de venda.

Um modelo de IA pode considerar diversos parâmetros: sazonalidade, tendência, ciclo econômico, variações no curto prazo, entre outros. A série temporal de vendas pode ter diferentes perfis: mais ou menos sazonalidade, por exemplo.

É possível, então, empregar uma inteligência artificial que vai capturar melhor a sazonalidade; outra que vai capturar melhor a tendência; outro modelo vai captar melhor outro parâmetro de interesse para montar esse histórico que vai embasar o modelo preditivo.

A evolução do modelo acontece quando se captam nuances que versões anteriores não eram capazes. De um modelo preditivo que utilizava variações lineares, evolui-se para outro, que faz uma análise não-linear no tempo. Ou, em um contexto mais sofisticado de aplicação, um sistema de reconhecimento de imagem que se baseava em preto e branco, mas agora já consegue captar 10 cores; outro já capta 20 cores. E assim por diante.

“Nesse exemplo hipotético, podemos dizer que já existem modelos que pegam todos os espectros de cores. A novidade é constatar que o problema está nas informações usadas no treinamento dos algoritmos de inteligência artificial. Se eu usar imagens distorcidas e de baixa qualidade, elas vão impactar negativamente uma tecnologia de reconhecimento de imagens, por exemplo”, afirma Ferreira, fazendo o elo com o princípio do data-centric.

O uso da Inteligência Artificial

A expansão do uso da inteligência artificial para diferentes setores da economia, como na indústria 4.0, da manufatura ou na agricultura, não quer dizer que se pretende excluir a evolução dos modelos. A discussão que se coloca é que, para melhorar a precisão e o desempenho desses modelos de IA, é mais vantajoso priorizar a qualidade dos dados, com maior acurácia.

Podemos pensar aqui na questão do viés da tecnologia – um outro universo que envolve temas como racismo algorítmico. Mas, no contexto industrial, se treino com uma informação enviesada ou pouco precisa, o algoritmo responsável por identificar imperfeições no processo de manufatura, mesmo com o melhor código possível, esse modelo de IA não vai melhorar o meu processo de fabricação de forma ótima. Dados enviesados produzem resultados enviesados.

Nesse exemplo de cenário hipotético, a Internet das Coisas (IoT) pode ser uma forte aliada. “A cada dia, há mais fábricas instalando sensores. Além disso, teremos câmeras que tiram fotos com mais pixels, em melhor resolução, para alimentar sistemas de controle de qualidade por reconhecimento de imagens.

O repositório desses dados também terá melhor processamento e mais ferramentas estarão à disposição para ajudar a cuidar da qualidade das informações”, diz Pedro Guilherme Ferreira.

Na medida em que cresce velozmente a importância do advanced analytics e dos sistemas baseados em IA como ferramenta de diferenciação das empresas em todo o espectro da economia, as organizações precisam encontrar caminhos para tornar a análise de dados mais precisa, automatizada e mais capacitada a dar respostas bem direcionadas aos desafios de negócio.

Num cenário de amadurecimento dos modelos de IA, as atenções e prioridades gradualmente se voltam aos fundamentos do dado, e a uma conhecida sabedoria de que, nestes casos, qualidade é mais importante que quantidade.