CMTNet Redefines Precision Agriculture By Outperforming Traditional Crop Classification

A classificação precisa das culturas é essencial para a agricultura de precisão moderna, permitindo que os agricultores monitorem a saúde das culturas, prevejam a produtividade e aloquem recursos de forma eficiente. Os métodos tradicionais, no entanto, muitas vezes têm dificuldades para lidar com a complexidade dos ambientes agrícolas, onde as culturas variam muito em termos de tipo, estágios de crescimento e assinaturas espectrais.

O que é a estrutura de imagens hiperespectrais e CMTNet?

O imageamento hiperespectral (HSI), uma tecnologia que captura dados em centenas de bandas estreitas e contíguas de comprimento de onda, surgiu como um divisor de águas nesse campo. Diferentemente das câmeras RGB padrão ou dos sensores multiespectrais, que coletam dados em algumas bandas amplas, a HSI fornece uma “impressão digital espectral” detalhada para cada pixel.

Por exemplo, a vegetação saudável reflete fortemente a luz infravermelha próxima devido à atividade da clorofila, enquanto as culturas estressadas apresentam padrões de absorção distintos. Ao registrar essas variações sutis (de 400 a 1.000 nanômetros) em altas resoluções espaciais (tão finas quanto 0,043 metros), o HSI permite a diferenciação precisa de espécies de culturas, a detecção de doenças e a análise do solo.

Apesar dessas vantagens, as técnicas existentes enfrentam desafios para equilibrar detalhes locais, como a textura das folhas ou os padrões do solo, com padrões globais, como a distribuição de culturas em grande escala. Essa limitação torna-se especialmente evidente em conjuntos de dados ruidosos ou desequilibrados, em que diferenças espectrais sutis entre as culturas podem levar a classificações incorretas.

Para enfrentar esses desafios, os pesquisadores desenvolveram CMTNet (Convolutional Meets Transformer Network), uma nova estrutura de aprendizagem profunda que combina os pontos fortes das redes neurais convolucionais (CNNs) e dos Transformers. As CNNs são uma classe de redes neurais projetadas para processar dados em forma de grade, como imagens, usando camadas de filtros que detectam hierarquias espaciais (por exemplo, bordas, texturas).

Os transformadores, originalmente desenvolvidos para o processamento de linguagem natural, usam mecanismos de autoatenção para modelar dependências de longo alcance nos dados, o que os torna hábeis na captura de padrões globais. Diferentemente dos modelos anteriores que processam recursos locais e globais sequencialmente, o CMTNet usa uma arquitetura paralela para extrair os dois tipos de informações simultaneamente.

Essa abordagem se mostrou altamente eficaz, alcançando a precisão mais avançada em três grandes conjuntos de dados HSI baseados em UAV. Por exemplo, no conjunto de dados WHU-Hi-LongKou, o CMTNet atingiu uma precisão geral (OA) de 99,58%, superando o melhor modelo anterior em 0,19%.

Desafios da imagem hiperespectral tradicional na classificação agrícola

Os primeiros métodos de análise de dados hiperespectrais geralmente se concentravam em recursos espectrais ou espaciais, o que levava a resultados incompletos. As técnicas espectrais, como a análise de componentes principais (PCA), reduziram a complexidade dos dados ao se concentrarem nas informações de comprimento de onda, mas ignoraram as relações espaciais entre os pixels.

A PCA, por exemplo, transforma dados espectrais de alta dimensão em um número menor de componentes que explicam a maior variação, simplificando a análise. No entanto, essa abordagem descarta o contexto espacial, como a disposição das culturas em um campo. Por outro lado, os métodos espaciais, como os operadores de morfologia matemática, destacaram padrões no layout físico das plantações, mas ignoraram detalhes espectrais essenciais.

A morfologia matemática usa operações como dilatação e erosão para extrair formas e estruturas de imagens, como os limites entre campos. Com o passar do tempo, as redes neurais convolucionais (CNNs) melhoraram a classificação ao processar os dois tipos de dados.

Entretanto, seus campos receptivos fixos - a área de uma imagem que uma rede pode “ver” de uma só vez - limitaram sua capacidade de capturar dependências de longo alcance. Por exemplo, uma CNN 3D pode ter dificuldade para distinguir duas variedades de soja com perfis espectrais semelhantes, mas com padrões de crescimento diferentes em um campo grande.

Os Transformers, um tipo de rede neural originalmente projetado para o processamento de linguagem natural, ofereceram uma solução para esse problema. Ao usar mecanismos de autoatenção, os Transformers são excelentes na modelagem de relações globais nos dados. A autoatenção permite que o modelo pondere a importância de diferentes partes de uma sequência de entrada, possibilitando que ele se concentre em regiões relevantes (por exemplo, um grupo de plantas doentes) e ignore o ruído (por exemplo, sombras de nuvens).

Relacionado: Otimização das práticas de proteína de soja para maior eficiência de nutrientes nas cadeias de suprimento de aves

No entanto, muitas vezes eles perdem detalhes locais de granulação fina, como as bordas das folhas ou rachaduras no solo. Modelos híbridos, como o CTMixer, tentaram combinar CNNs e Transformers, mas o fizeram sequencialmente, processando os recursos locais primeiro e os globais depois. Essa abordagem levou a uma fusão ineficiente de informações e a um desempenho abaixo do ideal em ambientes agrícolas complexos.

Como funciona a CMTNet: Unindo recursos locais e globais

O CMTNet supera essas limitações por meio de uma arquitetura exclusiva de três partes projetada para extrair e fundir recursos espectro-espaciais, locais e globais de forma eficaz.

1. O primeiro componente, o módulo de extração de recursos espectro-espaciais, processa dados HSI brutos usando camadas convolucionais 3D e 2D.

As camadas convolucionais em 3D analisam simultaneamente as dimensões espaciais (altura × largura) e espectrais (comprimento de onda), capturando padrões como a refletância de comprimentos de onda específicos em um dossel de cultura. Por exemplo, um kernel 3D pode detectar que o milho saudável reflete mais luz infravermelha próxima em suas folhas superiores em comparação com as inferiores.

Em seguida, as camadas 2D refinam esses recursos, concentrando-se em detalhes espaciais, como a disposição das plantas em um campo. Esse processo de duas etapas garante que a diversidade espectral (por exemplo, conteúdo de clorofila) e o contexto espacial (por exemplo, espaçamento entre linhas) sejam preservados.

2. O segundo componente, o Módulo de extração de características local-global, opera em paralelo. Um ramo usa CNNs para se concentrar em detalhes locais, como a textura de folhas individuais ou a forma de manchas de solo. Esses recursos são essenciais para identificar espécies com perfis espectrais semelhantes, como diferentes variedades de soja.

O outro ramo emprega Transformers para modelar relações globais, como, por exemplo, a forma como as culturas são distribuídas em grandes áreas ou como as sombras das árvores próximas afetam as leituras espectrais. Ao processar esses recursos simultaneamente, em vez de sequencialmente, o CMTNet evita a perda de informações que afeta os modelos híbridos anteriores.

Por exemplo, enquanto a ramificação CNN identifica as bordas irregulares das folhas de algodão, a ramificação Transformer reconhece que essas folhas fazem parte de um campo de algodão maior, cercado por plantas de gergelim.

3. O terceiro componente, o módulo de restrição de múltiplas saídas, O treinamento com a função de perda, que garante um aprendizado equilibrado entre os recursos locais, globais e fundidos. Durante o treinamento, funções de perda separadas são aplicadas a cada tipo de recurso, forçando a rede a refinar todos os aspectos de sua compreensão.

Uma função de perda quantifica a diferença entre os valores previstos e os reais, orientando os ajustes do modelo. Por exemplo, a perda de recursos locais pode penalizar o modelo por classificar incorretamente as bordas das folhas, enquanto a perda global corrige erros na distribuição de culturas em larga escala.

Essas perdas são combinadas usando pesos otimizados por meio de uma busca aleatória - uma técnica que testa várias combinações de pesos para maximizar a precisão. Esse processo resulta em um modelo robusto e adaptável capaz de lidar com diversos cenários agrícolas.

Avaliação do desempenho do CMTNet em conjuntos de dados hiperespectrais de UAV

Para avaliar o CMTNet, os pesquisadores o testaram em três conjuntos de dados hiperespectrais adquiridos por UAV da Universidade de Wuhan. Esses conjuntos de dados são referências amplamente usadas em sensoriamento remoto devido à sua alta qualidade e diversidade:

WHU-Hi-LongKou: Esse conjunto de dados abrange 550 × 400 pixels com 270 bandas espectrais e uma resolução espacial de 0,463 metros. Uma resolução espacial de 0,463 metros significa que cada pixel representa uma área de 0,463m × 0,463m no solo, permitindo a identificação de plantas individuais. Ele inclui nove tipos de culturas, como milho, algodão e arroz, com 1.019 amostras de treinamento e 203.523 amostras de teste.
WHU-Hi-HanChuan: Capturando 1.217 × 303 pixels com resolução de 0,109 metro, esse conjunto de dados apresenta 16 tipos de cobertura de terra, incluindo morangos, soja e folhas de plástico. A resolução mais alta (0,109 m) permite detalhes mais finos, como a distinção entre plantas de soja jovens e maduras. As amostras de treinamento e teste totalizaram 1.289 e 256.241, respectivamente.
WHU-Hi-HongHu: Com 940 × 475 pixels e 270 bandas, esse conjunto de dados de alta resolução (0,043 metros) inclui 22 classes, como algodão, colza e brotos de alho. Na resolução de 0,043 m, as folhas individuais e as rachaduras no solo são visíveis, o que o torna ideal para a classificação de granulação fina. Ele contém 1.925 amostras de treinamento e 384.678 amostras de teste.

Relacionado: Agricultura Sustentável, Biocombustíveis e o Papel da Agricultura de Precisão: Uma Perspectiva da GeoPard

O modelo foi treinado em GPUs NVIDIA TITAN Xp usando o PyTorch, com uma taxa de aprendizado de 0,001 e um tamanho de lote de 100. Uma taxa de aprendizado determina o quanto o modelo ajusta seus parâmetros durante o treinamento - muito alta, e ele pode ultrapassar os valores ideais; muito baixa, e o treinamento se torna lento.

Cada experimento foi repetido dez vezes para garantir a confiabilidade, e os patches de entrada - pequenos segmentos da imagem completa - foram otimizados para 13 × 13 pixels por meio da pesquisa de grade, um método que testa diferentes tamanhos de patches para encontrar o mais eficaz.

CMTNet atinge precisão de última geração na classificação de culturas

O CMTNet obteve resultados notáveis em todos os conjuntos de dados, superando os métodos existentes tanto na precisão geral (OA) quanto no desempenho específico da classe. A OA mede a porcentagem de pixels classificados corretamente em todas as classes, enquanto a precisão média (AA) calcula a precisão média por classe, abordando desequilíbrios.

No conjunto de dados WHU-Hi-LongKou, o CMTNet obteve um OA de 99,58%, superando o CTMixer em 0,19%. Para classes desafiadoras com dados de treinamento limitados, como algodão (41 amostras), o CMTNet ainda atingiu a precisão de 99,53%. Da mesma forma, no conjunto de dados WHU-Hi-HanChuan, ele melhorou a precisão para melancia (22 amostras) de 82,42% para 96,11%, demonstrando sua capacidade de lidar com dados desequilibrados por meio da fusão eficaz de recursos.

As comparações visuais dos mapas de classificação revelaram menos manchas fragmentadas e limites mais suaves entre os campos em comparação com modelos como 3D-CNN e Vision Transformer (ViT). Por exemplo, no conjunto de dados WHU-Hi-HanChuan, propenso a sombras, o CMTNet minimizou os erros causados pelos baixos ângulos do sol, enquanto o ResNet classificou erroneamente os grãos de soja como telhados cinzentos.

As sombras representam um desafio único, pois alteram as assinaturas espectrais - uma planta de soja na sombra pode refletir menos luz infravermelha próxima, assemelhando-se a uma não-vegetação. Ao aproveitar o contexto global, o CMTNet reconheceu que essas plantas sombreadas faziam parte de um campo de soja maior, reduzindo os erros.

No conjunto de dados WHU-Hi-HongHu, o modelo se destacou na distinção de culturas espectralmente semelhantes, como diferentes variedades de brassica, alcançando uma precisão de 96,54% para Brassica parachinensis.

Estudos de ablação - experimentos que removem componentes para avaliar seu impacto - confirmaram a importância de cada módulo. A adição do módulo de restrição de várias saídas aumentou o OA em 1,52% no WHU-Hi-HongHu, destacando sua função de refinar a fusão de recursos. Sem esse módulo, os recursos locais e globais foram combinados de forma aleatória, levando a classificações inconsistentes.

Compensações computacionais e considerações práticas

Embora a precisão do CMTNet seja inigualável, seu custo computacional é maior do que o dos métodos tradicionais. O treinamento no conjunto de dados WHU-Hi-HongHu levou 1.885 segundos, em comparação com 74 segundos para o Random Forest (RF), um algoritmo de aprendizado de máquina que cria árvores de decisão durante o treinamento.

No entanto, essa compensação é justificada na agricultura de precisão, em que a precisão afeta diretamente as previsões de rendimento e a alocação de recursos. Por exemplo, classificar erroneamente uma cultura doente como saudável pode levar a surtos de pragas sem controle, devastando campos inteiros.

Relacionado: Mesclar e Dividir Zonas para gerenciamento em Agricultura

Para aplicativos em tempo real, trabalhos futuros poderão explorar técnicas de compactação de modelos, como a poda de neurônios redundantes ou a quantização de pesos (redução da precisão numérica), para reduzir o tempo de execução sem sacrificar o desempenho. A poda remove conexões menos importantes da rede neural, semelhante a cortar galhos de uma árvore para melhorar sua forma, enquanto a quantização simplifica os cálculos numéricos, acelerando o processamento.

Futuro da classificação hiperespectral de culturas com CMTNet

Apesar de seu sucesso, o CMTNet enfrenta limitações. O desempenho cai um pouco em regiões com muitas sombras, conforme observado no conjunto de dados WHU-Hi-HanChuan (97,29% OA vs. 99,58% em LongKou bem iluminado). As sombras complicam a classificação porque reduzem a intensidade da luz refletida, alterando os perfis espectrais.

Além disso, as classes com amostras de treinamento extremamente pequenas, como a soja de folhas estreitas (20 amostras), ficam atrás daquelas com dados abundantes. As amostras pequenas limitam a capacidade do modelo de aprender variações diversas, como diferenças no formato das folhas devido à qualidade do solo.

Pesquisas futuras poderiam integrar dados multimodais, como mapas de elevação LiDAR ou imagens térmicas, para melhorar a resistência a sombras e oclusões. O LiDAR (Light Detection and Ranging) usa pulsos de laser para criar modelos de terreno em 3D, o que poderia ajudar a distinguir as culturas das sombras analisando as diferenças de altura.

Além disso, as imagens térmicas capturam assinaturas de calor, fornecendo pistas adicionais sobre a saúde das plantas - as culturas estressadas geralmente apresentam temperaturas mais altas no dossel devido à redução da transpiração. As técnicas de aprendizado semissupervisionado, que aproveitam dados não rotulados (por exemplo, imagens de VANT sem anotações manuais), também podem melhorar o desempenho de tipos raros de culturas.

Ao usar a regularização da consistência - treinando o modelo para produzir previsões estáveis em versões ligeiramente alteradas da mesma imagem - os pesquisadores podem explorar dados não rotulados para melhorar a generalização.

Por fim, a implantação do CMTNet em dispositivos de ponta, como drones equipados com GPUs integradas, poderia permitir o monitoramento em tempo real em campos remotos. A implantação de borda reduz a dependência da computação em nuvem, minimizando a latência e os custos de transmissão de dados. No entanto, isso requer a otimização do modelo para memória e capacidade de processamento limitadas, possivelmente por meio de arquiteturas leves como a MobileNet ou a destilação de conhecimento, em que um modelo menor de “aluno” imita um modelo maior de “professor”.

Conclusão

O CMTNet representa um avanço significativo na classificação hiperespectral de culturas. Ao harmonizar CNNs e Transformers, ele aborda desafios de longa data na extração e fusão de recursos, oferecendo aos agricultores e agrônomos uma ferramenta poderosa para a agricultura de precisão.

As aplicações vão desde a detecção de doenças em tempo real até a otimização dos cronogramas de irrigação, todos eles essenciais para a agricultura sustentável em meio às mudanças climáticas e ao crescimento populacional. À medida que a tecnologia UAV se torna mais acessível, modelos como o CMTNet desempenharão um papel fundamental na segurança alimentar global.

Futuros avanços, como arquiteturas mais leves e fusão de dados multimodais, poderão aumentar ainda mais sua praticidade. Com a inovação contínua, a CMTNet pode se tornar a base dos sistemas agrícolas inteligentes em todo o mundo, garantindo o uso eficiente da terra e a produção resiliente de alimentos para as próximas gerações.

Referência: Guo, X., Feng, Q. & Guo, F. CMTNet: uma rede híbrida CNN-transformador para classificação de culturas hiperespectrais baseadas em UAV na agricultura de precisão. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w