L'orge de montagne, une céréale résistante cultivée dans les régions de haute altitude du plateau Qinghai-Tibet en Chine, joue un rôle essentiel dans la sécurité alimentaire et la stabilité économique locales. Connue scientifiquement sous le nom de Hordeum vulgare L., cette culture prospère dans des conditions extrêmes - air raréfié, faibles niveaux d'oxygène et température annuelle moyenne de 6,3°C - ce qui la rend indispensable pour les communautés vivant dans des environnements difficiles.
Avec plus de 270 000 hectares consacrés à sa culture en Chine, principalement dans la région autonome du Xizang, l'orge de montagne représente plus de la moitié de la superficie plantée de la région et plus de 70% de sa production totale de céréales. Un suivi précis de la densité de l'orge - le nombre de plantes ou d'épis par unité de surface - est essentiel pour optimiser les pratiques agricoles, telles que l'irrigation et la fertilisation, et pour prévoir les rendements.
Cependant, les méthodes traditionnelles telles que l'échantillonnage manuel ou l'imagerie satellite se sont révélées inefficaces, laborieuses ou insuffisamment détaillées. Pour relever ces défis, des chercheurs de l'université d'agriculture et de sylviculture de Fujian et de l'université de technologie de Chengdu ont développé un modèle d'IA innovant basé sur YOLOv5, un algorithme de détection d'objets à la pointe de la technologie.
Leurs travaux, publiés dans Méthodes pour les plantes (2025), a obtenu des résultats remarquables, notamment une précision moyenne de 93,1% (mAP) - une mesure de l'exactitude globale de la détection - et une réduction de 75,6% des coûts de calcul, ce qui le rend adapté aux déploiements de drones en temps réel.
Défis et innovations en matière de surveillance des cultures
L'importance de l'orge des hauts plateaux va au-delà de son rôle de source alimentaire. Rien qu'en 2022, la ville de Rikaze, une importante région productrice d'orge, a récolté 408 900 tonnes d'orge sur 60 000 hectares, contribuant ainsi à près de la moitié de la production totale de céréales du Tibet.
Malgré son importance culturelle et économique, l'estimation des rendements de l'orge a longtemps été un défi. Les méthodes traditionnelles, telles que le comptage manuel ou l'imagerie par satellite, nécessitent trop de travail ou n'ont pas la résolution nécessaire pour détecter les épis d'orge individuels - la partie de la plante qui porte le grain - qui ne mesurent souvent que 2 à 3 centimètres de large.
L'échantillonnage manuel exige des agriculteurs qu'ils inspectent physiquement des sections d'un champ - un processus lent, subjectif et peu pratique pour les exploitations à grande échelle. L'imagerie satellitaire, bien qu'utile pour des observations générales, est confrontée à une faible résolution (souvent de 10 à 30 mètres par pixel) et à des perturbations météorologiques fréquentes, telles que la couverture nuageuse dans les régions montagneuses comme le Tibet.
Pour surmonter ces limites, les chercheurs se sont tournés vers des véhicules aériens sans pilote (UAV), ou drones, équipés d'appareils photo de 20 mégapixels. Ces drones ont capturé 501 images haute résolution de champs d'orge à Rikaze City à deux stades de croissance critiques : le stade de croissance en août 2022, caractérisé par des épis verts en développement, et le stade de maturation en août 2023, marqué par des épis jaune d'or prêts à être récoltés.
Cependant, l'analyse de ces images a posé des problèmes, notamment les bords flous causés par les mouvements du drone, la petite taille des épis d'orge dans les vues aériennes et le chevauchement des épis dans les champs densément plantés.
Pour résoudre ces problèmes, les chercheurs ont prétraité les images en divisant chaque image haute résolution en 35 sous-images plus petites et en filtrant les bords flous, ce qui a permis d'obtenir 2 970 sous-images de haute qualité pour l'entraînement. Cette étape de prétraitement a permis au modèle de se concentrer sur des données claires et exploitables, en évitant les distractions dues aux régions de faible qualité.
Progrès techniques dans la détection d'objets
L'algorithme YOLOv5 (You Only Look Once version 5), un modèle de détection d'objets en une seule étape connu pour sa rapidité et sa conception modulaire, est au cœur de cette recherche. Contrairement aux anciens modèles en deux étapes, tels que Faster R-CNN, qui identifient d'abord les régions d'intérêt et classent ensuite les objets, YOLOv5 effectue la détection en un seul passage, ce qui le rend nettement plus rapide.
Le modèle de base YOLOv5n, avec 1,76 million de paramètres (composants configurables du modèle d'IA) et 4,1 milliards de FLOP (opérations en virgule flottante, une mesure de la complexité de calcul), était déjà efficace. Cependant, la détection de minuscules épis d'orge se chevauchant a nécessité une optimisation supplémentaire.
L'équipe de recherche a apporté trois améliorations essentielles au modèle : la convolution séparable en profondeur (DSConv), la convolution fantôme (GhostConv) et un module d'attention par bloc convolutif (CBAM).
La convolution séparable en profondeur (DSConv) réduit les coûts de calcul en divisant le processus de convolution standard - une opération mathématique qui permet d'extraire des caractéristiques des images - en deux étapes. Tout d'abord, la convolution en profondeur applique des filtres aux différents canaux de couleur (rouge, vert, bleu, par exemple), en analysant chaque canal séparément.
Vient ensuite la convolution ponctuelle, qui combine les résultats entre les canaux à l'aide de noyaux 1×1. Cette approche permet de réduire le nombre de paramètres jusqu'à 75%.
Par exemple, une convolution 3×3 traditionnelle avec 64 canaux d'entrée et 128 canaux de sortie nécessite 73 728 paramètres, alors que DSConv les réduit à seulement 8 768, soit une réduction de 88%. Cette efficacité est essentielle pour le déploiement de modèles sur des drones ou des appareils mobiles dotés d'une puissance de traitement limitée.
La convolution fantôme (GhostConv) allège encore le modèle en générant des cartes de caractéristiques supplémentaires - des représentations simplifiées de motifs d'images - par le biais d'opérations linéaires simples, telles que la rotation ou la mise à l'échelle, au lieu de convolutions lourdes en ressources.
Les couches de convolution traditionnelles produisent des caractéristiques redondantes, ce qui entraîne un gaspillage des ressources informatiques. GhostConv résout ce problème en créant des caractéristiques “fantômes” à partir des caractéristiques existantes, ce qui permet de diviser par deux les paramètres de certaines couches.
Par exemple, une couche avec 64 canaux d'entrée et 128 canaux de sortie nécessiterait traditionnellement 73 728 paramètres, mais GhostConv le réduit à 36,864 tout en maintenant la précision. Cette technique est particulièrement utile pour la détection de petits objets tels que les épis d'orge, où l'efficacité des calculs est primordiale.
Le module d'attention par blocs convolutifs (CBAM) a été intégré pour aider le modèle à se concentrer sur les caractéristiques essentielles, même dans les environnements encombrés. Les mécanismes d'attention, inspirés des systèmes visuels humains, permettent aux modèles d'IA de donner la priorité aux parties importantes d'une image.
CBAM fait appel à deux types d'attention : l'attention sur les canaux, qui identifie les canaux de couleur importants (par exemple, le vert pour les pointes en croissance), et l'attention spatiale, qui met en évidence les régions clés au sein d'une image (par exemple, les grappes de pointes). En remplaçant les modules standard par DSConv et GhostConv et en incorporant CBAM, les chercheurs ont créé un modèle plus léger et plus précis, adapté à la détection de l'orge.
Mise en œuvre et résultats
Pour entraîner le modèle, les chercheurs ont étiqueté manuellement 135 images originales à l'aide de boîtes de délimitation (cadres rectangulaires marquant l'emplacement des épis d'orge), en classant les épis en fonction des stades de croissance et de maturation. Des techniques d'enrichissement des données - notamment la rotation, l'injection de bruit, l'occlusion et l'amélioration de la netteté - ont permis d'étendre l'ensemble de données à 2 970 images, améliorant ainsi la capacité du modèle à s'adapter à diverses conditions de terrain.
Par exemple, la rotation des images de 90°, 180° ou 270° a aidé le modèle à reconnaître les pics sous différents angles, tandis que l'ajout de bruit a simulé les imperfections du monde réel, comme la poussière ou les ombres. L'ensemble de données a été divisé en un ensemble de formation (80%) et un ensemble de validation (20%), ce qui a permis de garantir une évaluation solide.
L'entraînement s'est déroulé sur un système haute performance équipé d'un CPU AMD Ryzen 7, d'un GPU NVIDIA RTX 4060 et de 64 Go de RAM, en utilisant le cadre PyTorch, un outil populaire pour l'apprentissage profond. Sur 300 époques d'entraînement (passages complets dans l'ensemble de données), la précision du modèle (exactitude des détections correctes), le rappel (capacité à trouver tous les pics pertinents) et la perte (taux d'erreur) ont été méticuleusement suivis.
Les résultats sont frappants. Le modèle YOLOv5 amélioré a atteint une précision de 92,2% (contre 89,1% pour le modèle de base) et un rappel de 86,2% (contre 83,1%), surpassant le modèle de base YOLOv5n de 3,1% dans les deux cas. Sa précision moyenne (mAP) - une mesure globale faisant la moyenne de la précision de détection dans toutes les catégories - a atteint 93,1%, avec des scores individuels de 92,7% pour les pics en phase de croissance et de 93,5% pour les pics en phase de maturation.
Son efficacité de calcul est tout aussi impressionnante : les paramètres du modèle ont diminué de 70,6% pour atteindre 1,2 million, et les FLOP ont diminué de 75,6% pour atteindre 3,1 milliards. Des analyses comparatives avec des modèles de premier plan tels que Faster R-CNN et YOLOv8n ont mis en évidence sa supériorité.
Si YOLOv8n a obtenu un mAP légèrement supérieur (93,8%), ses paramètres (3,0 millions) et ses FLOP (8,1 milliards) étaient respectivement 2,5 et 2,6 fois plus élevés, ce qui rend le modèle proposé beaucoup plus efficace pour les applications en temps réel.
Les comparaisons visuelles ont mis en évidence ces progrès. Dans les images en phase de croissance, le modèle amélioré a détecté 41 pointes contre 28 pour le modèle de base. Au cours de la maturation, il a identifié 3 pointes contre 2 pour le modèle de base, avec moins de détections manquées (marquées par des flèches orange) et de faux positifs (marqués par des flèches violettes).
Ces améliorations sont vitales pour les agriculteurs qui dépendent de données précises pour prévoir les rendements et optimiser les ressources. Par exemple, le dénombrement précis des épis permet de mieux estimer la production de céréales et d'éclairer les décisions relatives au calendrier des récoltes, au stockage et à la planification des marchés.
Orientations futures et implications pratiques
Malgré son succès, l'étude a reconnu ses limites. Les performances ont chuté dans des conditions d'éclairage extrêmes, telles que l'éblouissement de midi ou les ombres lourdes, qui peuvent masquer les détails des épis. En outre, les boîtes de délimitation rectangulaires ne s'adaptaient pas toujours aux pointes de forme irrégulière, ce qui entraînait des imprécisions mineures.
Le modèle exclut également les bords flous des images de drones, ce qui nécessite un prétraitement manuel - une étape qui ajoute du temps et de la complexité.
Les travaux futurs visent à résoudre ces problèmes en élargissant l'ensemble de données pour inclure des images capturées à l'aube, à midi et au crépuscule, en expérimentant des annotations en forme de polygone (des formes flexibles qui s'adaptent mieux aux objets irréguliers) et en développant des algorithmes pour mieux gérer les régions floues sans intervention manuelle.
Les implications de cette recherche sont considérables. Pour les agriculteurs de régions comme le Tibet, le modèle permet d'estimer le rendement en temps réel, en remplaçant les comptages manuels à forte intensité de main-d'œuvre par une automatisation basée sur les drones. La distinction entre les différents stades de croissance permet une planification précise de la récolte, réduisant ainsi les pertes dues à une récolte prématurée ou retardée.
Des données détaillées sur la densité des épis - telles que l'identification des zones sous-peuplées ou surpeuplées - peuvent guider les stratégies d'irrigation et de fertilisation, réduisant ainsi le gaspillage d'eau et de produits chimiques. Au-delà de l'orge, l'architecture légère est prometteuse pour d'autres cultures, telles que le blé, le riz ou les fruits, ce qui ouvre la voie à des applications plus larges dans le domaine de l'agriculture de précision.
Conclusion
En conclusion, cette étude illustre le potentiel de transformation de l'IA pour relever les défis de l'agriculture. En affinant YOLOv5 à l'aide de techniques légères innovantes, les chercheurs ont créé un outil qui concilie précision et efficacité, ce qui est essentiel pour un déploiement réel dans des environnements où les ressources sont limitées.
Des termes tels que mAP, FLOP et mécanismes d'attention peuvent sembler techniques, mais leur impact est profondément pratique : ils permettent aux agriculteurs de prendre des décisions fondées sur des données, de préserver les ressources et de maximiser les rendements. À l'heure où le changement climatique et la croissance démographique intensifient la pression sur les systèmes alimentaires mondiaux, de telles avancées seront indispensables.
Pour les agriculteurs du Tibet et d'ailleurs, cette technologie ne représente pas seulement un saut dans l'efficacité agricole, mais aussi une lueur d'espoir pour une sécurité alimentaire durable dans un avenir incertain.
Référence : Cai, M., Deng, H., Cai, J. et al. Lightweight highland barley detection based on improved YOLOv5. Plant Methods 21, 42 (2025). https://doi.org/10.1186/s13007-025-01353-0
Agriculture de précision







