Une classification précise des cultures est essentielle pour l'agriculture de précision moderne, car elle permet aux agriculteurs de surveiller la santé des cultures, de prévoir les rendements et d'allouer les ressources de manière efficace. Cependant, les méthodes traditionnelles sont souvent confrontées à la complexité des environnements agricoles, où les cultures varient considérablement en termes de type, de stade de croissance et de signatures spectrales.
Qu'est-ce que l'imagerie hyperspectrale et le cadre CMTNet ?
L'imagerie hyperspectrale (HSI), une technologie qui capture des données sur des centaines de bandes de longueur d'onde étroites et contiguës, a changé la donne dans ce domaine. Contrairement aux caméras RVB standard ou aux capteurs multispectraux, qui recueillent des données dans quelques bandes larges, l'IHV fournit une “empreinte spectrale” détaillée pour chaque pixel.
Par exemple, une végétation saine réfléchit fortement la lumière infrarouge proche en raison de l'activité de la chlorophylle, tandis que les cultures stressées présentent des modèles d'absorption distincts. En enregistrant ces variations subtiles (de 400 à 1 000 nanomètres) à des résolutions spatiales élevées (jusqu'à 0,043 mètre), l'IHV permet de différencier avec précision les espèces cultivées, de détecter les maladies et d'analyser les sols.
Malgré ces avantages, les techniques existantes sont confrontées à la difficulté d'équilibrer les détails locaux, tels que la texture des feuilles ou les motifs du sol, avec les motifs globaux, tels que la répartition des cultures à grande échelle. Cette limitation devient particulièrement évidente dans les ensembles de données bruyants ou déséquilibrés, où les différences spectrales subtiles entre les cultures peuvent conduire à des erreurs de classification.
Pour relever ces défis, les chercheurs ont développé CMTNet (Convolutional Meets Transformer Network), un nouveau cadre d'apprentissage profond qui combine les forces des réseaux neuronaux convolutifs (CNN) et des transformateurs. Les CNN sont une classe de réseaux neuronaux conçus pour traiter des données en grille, telles que des images, à l'aide de couches de filtres qui détectent les hiérarchies spatiales (par exemple, les bords, les textures).
Les transformateurs, développés à l'origine pour le traitement du langage naturel, utilisent des mécanismes d'auto-attention pour modéliser les dépendances à long terme dans les données, ce qui les rend aptes à capturer les modèles globaux. Contrairement aux modèles antérieurs qui traitent les caractéristiques locales et globales de manière séquentielle, CMTNet utilise une architecture parallèle pour extraire les deux types d'informations simultanément.
Cette approche s'est avérée très efficace, atteignant une précision de pointe sur trois grands ensembles de données HSI basées sur des drones. Par exemple, sur l'ensemble de données WHU-Hi-LongKou, CMTNet a atteint une précision globale (OA) de 99,58%, dépassant le meilleur modèle précédent de 0,19%.
Défis de l'imagerie hyperspectrale traditionnelle dans la classification agricole
Les premières méthodes d'analyse des données hyperspectrales se concentraient souvent sur les caractéristiques spectrales ou spatiales, ce qui conduisait à des résultats incomplets. Les techniques spectrales, telles que l'analyse en composantes principales (ACP), réduisaient la complexité des données en se concentrant sur les informations relatives à la longueur d'onde, mais ignoraient les relations spatiales entre les pixels.
L'ACP, par exemple, transforme les données spectrales à haute dimension en un nombre réduit de composantes qui expliquent la plus grande variance, ce qui simplifie l'analyse. Toutefois, cette approche ne tient pas compte du contexte spatial, tel que la disposition des cultures dans un champ. À l'inverse, les méthodes spatiales, comme les opérateurs de morphologie mathématique, ont mis en évidence des schémas dans la disposition physique des cultures, mais ont négligé des détails spectraux essentiels.
La morphologie mathématique utilise des opérations telles que la dilatation et l'érosion pour extraire des formes et des structures des images, telles que les limites entre les champs. Au fil du temps, les réseaux neuronaux convolutifs (CNN) ont amélioré la classification en traitant les deux types de données.
Cependant, leurs champs réceptifs fixes - la zone d'une image qu'un réseau peut “voir” à la fois - limitent leur capacité à saisir les dépendances à longue distance. Par exemple, un réseau 3D-CNN pourrait avoir du mal à faire la distinction entre deux variétés de soja présentant des profils spectraux similaires mais des schémas de croissance différents dans un grand champ.
Les transformateurs, un type de réseau neuronal conçu à l'origine pour le traitement du langage naturel, offrent une solution à ce problème. En utilisant des mécanismes d'auto-attention, les transformateurs excellent dans la modélisation des relations globales dans les données. L'auto-attention permet au modèle d'évaluer l'importance des différentes parties d'une séquence d'entrée, ce qui lui permet de se concentrer sur les régions pertinentes (par exemple, une grappe de plantes malades) tout en ignorant le bruit (par exemple, les ombres des nuages).
Cependant, ils manquent souvent des détails locaux à grain fin, tels que les bords des feuilles ou les fissures du sol. Les modèles hybrides tels que CTMixer ont tenté de combiner les CNN et les transformateurs, mais ils l'ont fait de manière séquentielle, en traitant d'abord les caractéristiques locales et ensuite les caractéristiques globales. Cette approche a conduit à une fusion inefficace des informations et à des performances sous-optimales dans des environnements agricoles complexes.
Comment fonctionne CMTNet : Des liens entre les caractéristiques locales et mondiales
CMTNet surmonte ces limitations grâce à une architecture unique en trois parties conçue pour extraire et fusionner efficacement les caractéristiques spectrales-spatiales, locales et globales.
1. Le premier élément, le module d'extraction de caractéristiques spectrales et spatiales, Il traite les données HSI brutes à l'aide de couches convolutives 3D et 2D.
Les couches convolutives 3D analysent simultanément les dimensions spatiales (hauteur × largeur) et spectrales (longueur d'onde), capturant des modèles tels que la réflectance de longueurs d'onde spécifiques à travers un couvert végétal. Par exemple, un noyau 3D peut détecter qu'un maïs sain réfléchit plus de lumière proche infrarouge dans ses feuilles supérieures que dans ses feuilles inférieures.
Les couches 2D affinent ensuite ces caractéristiques, en se concentrant sur des détails spatiaux tels que la disposition des plantes dans un champ. Ce processus en deux étapes permet de préserver à la fois la diversité spectrale (par exemple, la teneur en chlorophylle) et le contexte spatial (par exemple, l'espacement des rangées).
2. La deuxième composante, le module d'extraction de caractéristiques locales et globales, fonctionne en parallèle. Une branche utilise les CNN pour se concentrer sur les détails locaux, tels que la texture des feuilles individuelles ou la forme des taches de sol. Ces caractéristiques sont essentielles pour identifier les espèces présentant des profils spectraux similaires, comme les différentes variétés de soja.
L'autre branche utilise des transformateurs pour modéliser des relations globales, telles que la répartition des cultures sur de vastes zones ou l'influence des ombres des arbres voisins sur les relevés spectraux. En traitant ces caractéristiques simultanément plutôt que séquentiellement, CMTNet évite la perte d'informations qui affecte les modèles hybrides antérieurs.
Par exemple, alors que la branche CNN identifie les bords déchiquetés des feuilles de coton, la branche Transformer reconnaît que ces feuilles font partie d'un champ de coton plus vaste bordé de plantes de sésame.
3. La troisième composante, le module de contrainte multi-sorties, Cette méthode garantit un apprentissage équilibré entre les caractéristiques locales, globales et fusionnées. Au cours de la formation, des fonctions de perte distinctes sont appliquées à chaque type de caractéristique, ce qui oblige le réseau à affiner tous les aspects de sa compréhension.
Une fonction de perte quantifie la différence entre les valeurs prédites et les valeurs réelles, guidant ainsi les ajustements du modèle. Par exemple, la perte pour les caractéristiques locales peut pénaliser le modèle pour avoir mal classifié les bords des feuilles, tandis que la perte globale corrige les erreurs dans la distribution des cultures à grande échelle.
Ces pertes sont combinées à l'aide de poids optimisés par une recherche aléatoire - une technique qui teste différentes combinaisons de poids pour maximiser la précision. Ce processus aboutit à un modèle robuste et adaptable, capable de gérer divers scénarios agricoles.
Évaluation des performances de CMTNet sur des ensembles de données hyperspectrales de drones
Pour évaluer CMTNet, les chercheurs l'ont testé sur trois ensembles de données hyperspectrales acquises par drone à l'université de Wuhan. Ces ensembles de données sont des références largement utilisées dans le domaine de la télédétection en raison de leur grande qualité et de leur diversité :
- WHU-Hi-LongKou: Ce jeu de données couvre 550 × 400 pixels avec 270 bandes spectrales et une résolution spatiale de 0,463 mètre. Une résolution spatiale de 0,463 mètre signifie que chaque pixel représente une zone de 0,463 m × 0,463 m sur le sol, ce qui permet l'identification de plantes individuelles. Il comprend neuf types de cultures, telles que le maïs, le coton et le riz, avec 1 019 échantillons d'entraînement et 203 523 échantillons de test.
- WHU-Hi-HanChuan: Capturant 1 217 × 303 pixels à une résolution de 0,109 mètre, ce jeu de données présente 16 types d'occupation du sol, dont des fraises, du soja et des bâches en plastique. La résolution élevée (0,109 m) permet d'obtenir des détails plus fins, tels que la distinction entre les jeunes plants de soja et les plants matures. Les échantillons de formation et de test s'élèvent respectivement à 1 289 et 256 241.
- WHU-Hi-HongHu: Avec 940 × 475 pixels et 270 bandes, ce jeu de données à haute résolution (0,043 mètre) comprend 22 classes, telles que le coton, le colza et les pousses d'ail. À une résolution de 0,043 m, les feuilles individuelles et les fissures du sol sont visibles, ce qui en fait un outil idéal pour une classification fine. Il contient 1 925 échantillons de formation et 384 678 échantillons de test.
Le modèle a été entraîné sur les GPU NVIDIA TITAN Xp à l'aide de PyTorch, avec un taux d'apprentissage de 0,001 et une taille de lot de 100. Un taux d'apprentissage détermine dans quelle mesure le modèle ajuste ses paramètres au cours de l'apprentissage. S'il est trop élevé, il risque de dépasser les valeurs optimales ; s'il est trop faible, l'apprentissage devient plus lent.
Chaque expérience a été répétée dix fois pour garantir sa fiabilité, et les patchs d'entrée - de petits segments de l'image complète - ont été optimisés à 13 × 13 pixels grâce à la recherche de grille, une méthode qui teste différentes tailles de patchs pour trouver la plus efficace.
CMTNet atteint une précision de pointe dans la classification des cultures
CMTNet a obtenu des résultats remarquables dans tous les ensembles de données, surpassant les méthodes existantes à la fois en termes de précision globale (OA) et de performance par classe. L'OA mesure le pourcentage de pixels correctement classés dans toutes les classes, tandis que la précision moyenne (AA) calcule la précision moyenne par classe, en tenant compte des déséquilibres.
Sur l'ensemble de données WHU-Hi-LongKou, CMTNet a obtenu une OA de 99,58%, dépassant CTMixer de 0,19%. Pour les classes difficiles avec des données de formation limitées, telles que le coton (41 échantillons), CMTNet a tout de même atteint une précision de 99,53%. De même, sur l'ensemble de données WHU-Hi-HanChuan, il a amélioré la précision pour la pastèque (22 échantillons) de 82,42% à 96,11%, démontrant ainsi sa capacité à traiter des données déséquilibrées grâce à une fusion efficace des caractéristiques.
Les comparaisons visuelles des cartes de classification ont révélé moins de parcelles fragmentées et des frontières plus lisses entre les champs par rapport à des modèles tels que 3D-CNN et Vision Transformer (ViT). Par exemple, dans l'ensemble de données WHU-Hi-HanChuan sujettes à l'ombre, CMTNet a minimisé les erreurs causées par les faibles angles d'ensoleillement, alors que ResNet a mal classifié les graines de soja en les faisant passer pour des toits gris.
Les ombres constituent un défi unique car elles modifient les signatures spectrales - un plant de soja dans l'ombre peut refléter moins de lumière dans le proche infrarouge, ressemblant ainsi à de la non-végétation. En tirant parti du contexte global, CMTNet a reconnu que ces plantes ombragées faisaient partie d'un champ de soja plus vaste, ce qui a permis de réduire les erreurs.
Sur le jeu de données WHU-Hi-HongHu, le modèle a excellé dans la distinction de cultures spectralement similaires, telles que différentes variétés de brassicacées, atteignant une précision de 96,54% pour les variétés de brassicacées. Brassica parachinensis.
Les études d'ablation (expériences consistant à supprimer des composants pour évaluer leur impact) ont confirmé l'importance de chaque module. L'ajout du module de contrainte multi-sorties a permis à lui seul d'augmenter l'OA de 1,52% sur WHU-Hi-HongHu, soulignant son rôle dans l'affinement de la fusion des caractéristiques. Sans ce module, les caractéristiques locales et globales ont été combinées au hasard, ce qui a conduit à des classifications incohérentes.
Compromis informatiques et considérations pratiques
Si la précision de CMTNet est inégalée, son coût de calcul est plus élevé que celui des méthodes traditionnelles. La formation sur l'ensemble de données WHU-Hi-HongHu a pris 1 885 secondes, contre 74 secondes pour Random Forest (RF), un algorithme d'apprentissage automatique qui construit des arbres de décision pendant la formation.
Toutefois, ce compromis est justifié dans l'agriculture de précision, où la précision a un impact direct sur les prévisions de rendement et l'affectation des ressources. Par exemple, la classification erronée d'une culture malade comme étant saine pourrait conduire à des épidémies de parasites non contrôlées, dévastant des champs entiers.
Pour les applications en temps réel, les travaux futurs pourraient explorer des techniques de compression de modèles, telles que l'élagage des neurones redondants ou la quantification des poids (réduction de la précision numérique), afin de réduire la durée d'exécution sans sacrifier les performances. L'élagage supprime les connexions les moins importantes du réseau neuronal, un peu comme si l'on coupait les branches d'un arbre pour en améliorer la forme, tandis que la quantification simplifie les calculs numériques, ce qui accélère le traitement.
L'avenir de la classification hyperspectrale des cultures avec CMTNet
Malgré son succès, CMTNet est confronté à des limites. Les performances diminuent légèrement dans les régions fortement ombragées, comme le montre l'ensemble de données WHU-Hi-HanChuan (97,29% OA contre 99,58% dans la région bien éclairée de LongKou). Les ombres compliquent la classification car elles réduisent l'intensité de la lumière réfléchie, ce qui modifie les profils spectraux.
En outre, les classes ayant des échantillons d'entraînement extrêmement petits, comme le soja à feuilles étroites (20 échantillons), sont à la traîne par rapport à celles qui disposent de données abondantes. La petite taille des échantillons limite la capacité du modèle à apprendre diverses variations, telles que les différences de forme des feuilles dues à la qualité du sol.
Les recherches futures pourraient intégrer des données multimodales, telles que des cartes d'élévation LiDAR ou des images thermiques, afin d'améliorer la résistance aux ombres et aux occlusions. Le LiDAR (Light Detection and Ranging) utilise des impulsions laser pour créer des modèles de terrain en 3D, qui pourraient aider à distinguer les cultures des ombres en analysant les différences de hauteur.
En outre, l'imagerie thermique capture les signatures thermiques, ce qui fournit des indices supplémentaires sur la santé des plantes - les cultures stressées ont souvent des températures de canopée plus élevées en raison d'une transpiration réduite. Les techniques d'apprentissage semi-supervisé, qui exploitent des données non étiquetées (par exemple, des images de drones sans annotations manuelles), pourraient également améliorer les performances pour les types de cultures rares.
En utilisant la régularisation de la cohérence, c'est-à-dire en entraînant le modèle à produire des prédictions stables pour des versions légèrement modifiées de la même image, les chercheurs peuvent exploiter des données non étiquetées pour améliorer la généralisation.
Enfin, le déploiement de CMTNet sur des appareils périphériques, tels que des drones équipés de GPU embarqués, pourrait permettre une surveillance en temps réel dans des champs éloignés. Le déploiement en périphérie réduit la dépendance à l'égard de l'informatique en nuage, en minimisant la latence et les coûts de transmission des données. Toutefois, il faut pour cela optimiser le modèle pour une mémoire et une puissance de traitement limitées, éventuellement grâce à des architectures légères comme MobileNet ou à la distillation des connaissances, où un modèle “étudiant” plus petit imite un modèle “enseignant” plus grand.
Conclusion
CMTNet représente une avancée significative dans la classification hyperspectrale des cultures. En harmonisant les CNN et les transformateurs, il relève des défis de longue date en matière d'extraction et de fusion des caractéristiques, offrant aux agriculteurs et aux agronomes un outil puissant pour l'agriculture de précision.
Les applications vont de la détection des maladies en temps réel à l'optimisation des programmes d'irrigation, autant d'éléments essentiels pour une agriculture durable dans un contexte de changement climatique et de croissance démographique. À mesure que la technologie des drones devient plus accessible, des modèles comme CMTNet joueront un rôle essentiel dans la sécurité alimentaire mondiale.
Les progrès futurs, tels que les architectures plus légères et la fusion de données multimodales, pourraient encore améliorer leur praticité. Grâce à une innovation continue, CMTNet pourrait devenir une pierre angulaire des systèmes agricoles intelligents dans le monde entier, garantissant une utilisation efficace des terres et une production alimentaire résiliente pour les générations à venir.
Référence : Guo, X., Feng, Q. & Guo, F. CMTNet : a hybrid CNN-transformer network for UAV-based hyperspectral crop classification in precision agriculture. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w
Agriculture de précision







