Arquitetura de dados para monitoramento socioambiental: o caso re.green


Por Lucas De Vivo, Raphael Sá, Odair Tanes e Fábio Catein

  • O monitoramento socioambiental feito pela re.green é complexo, abrange diversas áreas do negócio e exige eficiência, precisão e dados confiáveis.
  • A arquitetura do sistema de monitoramento criada pela EloGroup oferece automação em alto nível e entrega informações limpas, atualizadas e catalogadas na ponta da operação.
  • O fluxo funciona por meio de ingestão, processamento, armazenamento e disponibilização de dados de diversas fontes em dashboards intuitivos e simples.

No primeiro artigo desta série sobre a parceria de implementação de tecnologia e inteligência de dados entre a re.green e a EloGroup discutimos como um projeto full-stack foi capaz de aumentar drasticamente a capacidade da re.green de realizar a prospecção de terras para restauração, de 600 mil para cerca de 2 milhões de hectares anuais.

Fundada em 2022, a empresa brasileira tem como propósito a restauração ecológica em larga escala de florestas nos biomas Mata Atlântica e Amazônia por meio de um modelo de negócio inovador baseado na venda de créditos de carbono de alta integridade e ativos florestais. Uma iniciativa de geração de valor econômico a partir das florestas, com alto impacto social e, claro, ambiental.

Mas a automação na aquisição de terras é apenas o início dessa longa cadeia de desenvolvimento de projetos de restauração ecológica em escala. O monitoramento dos projetos re.green, realizado a partir de metodologias extremamente criteriosas, é outra etapa chave.

Monitoramento se refere ao processo sistemático e contínuo de coleta, análise e interpretação de dados que tem como objetivo central garantir a qualidade da restauração e quantificar seus impactos locais e na paisagem. Neste sentido a estratégia de monitoramento da re.green abrange múltiplos componentes, incluindo clima, biodiversidade e social.

O acompanhamento destes componentes é feito através da análise de indicadores mensuráveis que segue uma lógica integrada para que seja possível, ao final, avaliar a qualidade da restauração e os impactos socioambientais gerados.

Neste contexto, o desenho estratégico construído pela EloGroup em parceria com o time re.green promoveu a implementação de uma robusta arquitetura de dados, da qual participamos de forma central.

Neste insight, você conhecerá com mais detalhes parte do monitoramento conduzido pela re.green e como a arquitetura de dados suportou esse processo.

A estratégia de monitoramento da re.green

A estratégia de monitoramento da re.green foi desenvolvida para garantir uma abordagem estruturada, contínua e eficiente na avaliação dos projetos de restauração, alinhando-se aos princípios do MRV (Monitoramento, Relato e Verificação). Esse processo assegura a transparência, rastreabilidade e credibilidade das informações, permitindo o acompanhamento da evolução dos projetos, a validação dos impactos ambientais e a tomada de decisões embasadas em dados confiáveis. Um outro aspecto importante da estratégia de monitoramento é garantir a escalabilidade e a reprodutibilidade das análises, o que torna a arquitetura de dados um componente central para o sucesso e a expansão do monitoramento da re.green.

“É necessário garantir o monitoramento contínuo da área durante pelo menos 50 anos, passando por processos de auditoria junto à certificadora. Precisamos controlar incêndios, desmatamentos ilegais, entre outros. Isso, por si só, exige uma capacidade de lidar com uma altíssima volumetria de dados, seja pelo tempo ou pelos diferentes formatos e fontes de dados que são monitorados e avaliados”, explica Raphael Sá, gerente do projeto na EloGroup.

O monitoramento abrange diferentes temáticas e áreas de negócio. Sendo assim, ele é considerado uma discussão multieixo. Além da alta volumetria, um grande desafio do processo é lidar com dados de naturezas diferentes e integrações multimodais. Ele envolve uma série de perguntas:

Por que monitorar?

O monitoramento é essencial para assegurar o impacto positivo das ações da re.green para o clima, biodiversidade e comunidades, além de avaliar o progresso e a efetividade das ações de restauração implementadas. Em termos gerais, através da aplicação do protocolo de monitoramento é possível estimar, dentre outras variáveis, a remoção de carbono da atmosfera, os impactos do projeto para a biodiversidade e recursos hídricos, dentre outros benefícios ecossistêmicos, bem como para o engajamento comunitário e desenvolvimento local de cadeias da bioeconomia.

Quando monitorar?

A frequência do monitoramento deve equilibrar a necessidade de acompanhamento da qualidade da restauração ecológica como um todo, incluindo um acompanhamento preciso da restauração ecológica com as demandas operacionais, financeiras e comerciais. Isso pode resultar em diferentes frequências de monitoramento. Para exemplificar trazemos aqui, na escala do tempo, as três macro etapas que envolvem o monitoramento da trajetória da restauração:

  • T0 – Caracterização socioambiental realizada antes do início do projeto de restauração, incluindo, por exemplo, a coleta de informações sobre riqueza de espécies vegetais e de fauna, bem como mapeamento de atores e comunidades locais.
  • Monitoramento pós-plantio – Acompanhamento do início da restauração (três primeiros anos) apoiando a definição de potenciais intervenções para otimizar o desenvolvimento florestal, como por exemplo acompanhamento das taxas de mortalidade para direcionar ações de replantio.
  • Monitoramento de longo prazo – Acompanhamento da trajetória da restauração realizado, em geral, a cada 5 anos após o início do desenvolvimento do projeto, incluindo aspectos relacionados ao clima, biodiversidade e comunidades

O que monitorar?

No contexto da re.green o monitoramento inclui componentes de clima, biodiversidade e comunidades. A re.green desenvolveu, em parceria com instituições de Pesquisa & Desenvolvimento como IIS e ESALQ, um protocolo de monitoramento integrado, no qual são definidas a estratégia de monitoramento, seus componentes, objetivos e indicadores mensuráveis de forma quali ou quantitativa. Para cada componente há uma série de indicadores que possibilitam avaliar como eles estão inseridos no protocolo de monitoramento, como por exemplo:

  • Riqueza de espécies nativas plantadas;
  • Estoque de carbono;
  • Densidade de plantas regenerantes;
  • Distribuição altimétrica da vegetação;
  • Distribuição diamétrica da vegetação;
  • Riqueza de mamíferos de grande porte, entre outros;
  • Percepção das comunidades em relação aos impactos do projeto.


Esses são apenas alguns indicadores aplicados à solução, e podem ser encontrados de maneira mais minuciosa e compartimentada no painel de gestão do monitoramento da re.green, criado em conjunto com a EloGroup.

O fluxo de monitoramento da re.green

Partindo da estratégia e indicadores de monitoramento definidos pela re.green, o primeiro passo na construção de um fluxo integrado de monitoramento socioambiental foi o desenho de um MVP, ou Mínimo Produto Viável, em português, versão mais simples possível de construção de uma solução que apresente as funcionalidades essenciais para atender às necessidades das pessoas usuárias e validar o impacto e performance do negócio.

Nesse caso, o MVP é um painel com informações consolidadas, conectado a uma base de dados estruturada, unificada e alimentada por meio da coleta e processamento de indicadores prioritários da estratégia de monitoramento.

Atualmente, o painel é voltado para uso interno na re.green, atendendo profissionais de diferentes áreas como financeiro, comercial, operações, desenvolvimento de projetos e gestão, que necessitam acessar e verificar indicadores estratégicos dos projetos de restauração.

O foco principal dessa base seriam os projetos de restauração ecológica em terras já adquiridas pela re.green, como as localizadas nos municípios de Eunápolis (BA), Maraçumé (MA) e Potiraguá (BA), e garantir a disponibilização de informações relacionadas a elas para que as áreas de negócio pudessem consumi-las e processá-las.

Arquitetura de dados do painel de monitoramento

Devido à natureza de negócio da re.green, bem como o alto nível de especificidade da operação, o painel de monitoramento precisa entregar informações a profissionais da re.green de maneira automatizada, com agilidade, eficiência e acima de tudo muita precisão.

Além disso, é necessário garantir a correlação de dados obtidos de diferentes fontes, internas e externas, como planilhas, SGF (sistema de gestão florestal), solução transacional de captação, entre outros.

Por isso, no desenho do MVP, houve um cuidado especial a fim de habilitar uma infraestrutura de processamento de dados de alta volumetria com uso de técnicas avançadas, obtendo informações refinadas e efetivas para utilização das equipes.

Toda a arquitetura de dados foi construída na nuvem, pensando especialmente na facilidade de operação e escalabilidade. Nesse formato, não são necessárias alterações físicas para escalar e modificar as estruturas, diferentemente de um setup on premise (servidores locais), e a implementação é muito mais simples.

A arquitetura se baseou em um processo de ETL (Extract, Transform and Load), derivado em quatro etapas principais: Extração, Ingestão, Transformação e Carregamento. Para atender a essas necessidades, usamos as soluções Apache NIFI e Spark.

Detalharemos abaixo os pontos principais dessa arquitetura, voltada para o processamento massivo de dados.

Clique na imagem para ampliar.

1 – Extração

Os arquivos da re.green têm origem em fontes variadas, o que significa que podem ter diferentes tamanhos, formatos e espaços de armazenamento. Alguns estão no OneDrive, da Microsoft, outros são controlados direto pelos sistemas de gestão florestal.

Há, então, uma verificação periódica que sincroniza os documentos para que estejam sempre atualizados no armazenamento. Assim, sua versão será a mais correta para ser enviada para a camada de dados, iniciando a etapa de ingestão.

No caso da re.green, foi utilizada uma abordagem chamada de Data Lakehouse, uma solução moderna que combina a flexibilidade de um datalake (armazenamento de grandes quantidades de dados brutos e variados) e a organização de um data warehouse, que facilita análises estruturadas e integração de dados multimodal.

É como uma “casa de dados” que armazena tudo de forma acessível e permite uma exploração facilitada dos dados, sem complicações técnicas.

 

2 – Ingestão

A etapa de ingestão é aquela na qual há a transferência das informações das fontes iniciais para a camada de dados.

Os arquivos são copiados em seu formato original para um diretório temporário do datalake, cuja função é somente armazenar os dados por um certo período. Essa camada recebe o nome de “transiente”.

Os arquivos são lidos e têm seus dados originais (as-is) separados e gravados em formato Parquet, projetado especificamente para dividir as informações entre metadados (versão, tipo, entre outros) e os dados, efetivamente.

As informações são transferidas para um outro bucket, chamado de Raw. É aí que se inicia a fase de Transformação.

 

3 – Transformação

A transformação dos dados começa com um refinamento inicial das informações que inclui, por exemplo, a retirada de duplicatas, alteração de nomes de colunas e a remoção de dados nulos.

Esses arquivos são, então, passados para o formato AVRO e ocupam um bucket chamado de Trusted. Nesse momento, eles já estão limpos, são confiáveis e podem, então, ser processados. Tanto Parquet quanto Avro não são formatos projetados para lidar diretamente com dados multimodais, mas podem ser utilizados para organizar metadados e estruturar referências a dados de naturezas distintas, permitindo a serialização de informações complexas em arquiteturas que integram múltiplas modalidades.

Após o resultado efetivo do processamento (transformação), as informações passam para o bucket Refined, onde os dados já estão aptos para serem consumidos pelas áreas de negócio e técnica. Um serviço na nuvem AWS, chamado Glue Data Catalog, é utilizado para catalogar os dados agora armazenados de forma logicamente estruturada.

Outro serviço, o Redshift, disponibiliza uma interface de consulta sobre os dados no Lakehouse utilizando a linguagem SQL.

 

4 – Carregamento

As informações já tratadas passam por uma etapa de mudança no formato para que sejam visíveis e aportadas em um dashboard em Power BI ou, se for necessário, em outros sistemas específicos a depender do negócio.

Na etapa de carregamento, todas as informações ainda se mantêm presentes na nuvem e podem ser consultadas diretamente da última camada da arquitetura de dados. Sendo assim, não é preciso fazer maiores transferências ou downloads. As informações estão seguras e têm seu acesso gerenciado.

Quais os resultados da implementação do painel de monitoramento?

O dashboard completo de monitoramento da re.green foi implementado em 2024, e trouxe resultados expressivos especialmente em relação ao tempo de realização de certas tarefas.

“Hoje temos uma camada de dados capaz de sustentar a ingestão, processamento, armazenamento e disponibilização dos dados do monitoramento em um só lugar, correlacionando os seus diferentes temas e fontes de informações utilizadas no monitoramento (coleta in loco por prestadores, sistema de gestão florestal, bases de dados externas, etc.)”, aponta Raphael.

Os resultados são significativos: mais facilidade no consumo das informações, atualização de dados em tempo real e capacidade de lidar com a ingestão de dados de diferentes fontes e em qualquer formato, entre outros.

“A estruturação de dados é a fundação sobre a qual se constroem informação e conhecimento. O trabalho da EloGroup nos proporciona os primeiros tijolos para a grande edificação do saber sobre a restauração que estamos realizando”, explica Sara Mortara, especialista de projetos da re.green.

Além disso, a flexibilidade da infraestrutura permite escalar o modelo para novas áreas e demandas, acompanhando o ritmo de crescimento da ambiciosa operação da re.green.

“Na re.green, lidamos com dados extremamente diversos, ambientais, sociais e de carbono, que precisam ser organizados de maneira estruturada para sustentar nossos processos de certificação. A arquitetura construída nos deu a capacidade de lidar com essas informações com precisão e garantir a rastreabilidade exigida para a validação dos nossos projetos”, reforça Arthur Lisboa, coordenador de tecnologia da re.green.

Conclusão

A restauração ecológica de alta qualidade, com potencial para gerar benefícios concretos para o clima, a biodiversidade e as pessoas, é um dos maiores desafios ambientais da atualidade. Ela exige a recuperação de ecossistemas degradados e a reativação de seus processos socioecológicos essenciais, desempenhando um papel crucial no enfrentamento das mudanças climáticas. A restauração ecológica em larga escala exige não apenas conhecimento técnico e científico, mas também infraestrutura tecnológica robusta e capacidade de decisão orientada por dados confiáveis.

O modelo de negócio inovador criado pela re.green torna essa missão mais palpável, planejada, segura e escalável, com alto grau técnico e científico de conhecimento e operação.

Organizar uma arquitetura de dados efetiva para atender às demandas relacionadas ao monitoramento, com indicadores e informações extremamente variáveis e diversas, se mostrou um caminho que exigiu muito estudo e um conhecimento profundo das atividades da empresa.

“Estabelecer um olhar de negócio no consumo foi (e continua sendo) fundamental para a geração de valor. Para isso foi necessário desenvolver um trabalho a 4 mãos com o time re.green na definição dos indicadores chave, levantamento de perguntas de negócio e construção dos dashboards de gestão do monitoramento”, diz Raphael.

Com uma estrutura pensada para melhoria contínua, os dashboards e toda a arquitetura de dados foram criados para que sejam eficientes e possam abranger não só a operação atual, mas também demandas e escala ainda maiores de negócio, sustentando o crescimento das operações da re.green com base em inteligência de dados.

“O monitoramento de longo prazo é um pilar fundamental da estratégia da re.green para restaurar ecossistemas em larga escala. Com o apoio da EloGroup, estruturamos uma arquitetura de dados robusta e escalável, capaz de garantir a rastreabilidade, a credibilidade e o sucesso dos nossos projetos ao longo de décadas”, finaliza Arthur.

LUCAS DE VIVO é Redator de EloInsights

ODAIR TANES é Principal Engineer na EloGroup

FABIO CATEIN é Especialista Sênior em Engenharia de Dados na EloGroup

RAPHAEL SÁ é Gerente na EloGroup

Enviar por email