CMTNet definiert die Präzisionslandwirtschaft neu, indem es die herkömmliche Klassifizierung von Kulturpflanzen übertrifft

Eine genaue Pflanzenklassifizierung ist für die moderne Präzisionslandwirtschaft unerlässlich, da sie den Landwirten die Überwachung der Pflanzengesundheit, die Vorhersage von Erträgen und die effiziente Zuweisung von Ressourcen ermöglicht. Herkömmliche Methoden haben jedoch oft mit der Komplexität landwirtschaftlicher Umgebungen zu kämpfen, in denen sich die Arten, Wachstumsstadien und Spektralsignaturen von Nutzpflanzen stark unterscheiden.

Was ist Hyperspectral Imaging und CMTNet Framework?

Die hyperspektrale Bildgebung (HSI), eine Technologie, die Daten in Hunderten von schmalen, zusammenhängenden Wellenlängenbändern erfasst, hat sich in diesem Bereich als bahnbrechende Neuerung erwiesen. Im Gegensatz zu herkömmlichen RGB-Kameras oder multispektralen Sensoren, die Daten in einigen wenigen breiten Bändern erfassen, liefert HSI einen detaillierten “spektralen Fingerabdruck” für jedes Pixel.

So reflektiert beispielsweise eine gesunde Vegetation aufgrund der Chlorophyllaktivität stark Licht im nahen Infrarotbereich, während gestresste Pflanzen deutliche Absorptionsmuster aufweisen. Durch die Aufzeichnung dieser subtilen Variationen (von 400 bis 1.000 Nanometern) bei hoher räumlicher Auflösung (bis zu 0,043 Meter) ermöglicht HSI eine präzise Unterscheidung von Pflanzenarten, die Erkennung von Krankheiten und die Bodenanalyse.

Trotz dieser Vorteile stehen die bestehenden Verfahren vor der Herausforderung, lokale Details, wie Blatttextur oder Bodenmuster, mit globalen Mustern, wie z. B. der großflächigen Verteilung von Pflanzen, in Einklang zu bringen. Diese Einschränkung wird besonders bei verrauschten oder unausgewogenen Datensätzen deutlich, bei denen subtile spektrale Unterschiede zwischen Pflanzen zu Fehlklassifizierungen führen können.

Um diese Herausforderungen zu bewältigen, entwickelten die Forscher CMTNet (Convolutional Meets Transformer Network), ein neuartiges Deep Learning Framework, das die Stärken von Convolutional Neural Networks (CNNs) und Transformers kombiniert. CNNs sind eine Klasse neuronaler Netze, die für die Verarbeitung gitterartiger Daten, wie z. B. Bilder, entwickelt wurden. Dabei werden Filterschichten verwendet, die räumliche Hierarchien (z. B. Kanten, Texturen) erkennen.

Transformatoren, die ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurden, nutzen Mechanismen der Selbstbeobachtung, um weitreichende Abhängigkeiten in Daten zu modellieren, und sind somit in der Lage, globale Muster zu erfassen. Im Gegensatz zu früheren Modellen, die lokale und globale Merkmale sequentiell verarbeiten, nutzt CMTNet eine parallele Architektur, um beide Arten von Informationen gleichzeitig zu extrahieren.

Dieser Ansatz hat sich als äußerst effektiv erwiesen, da er bei drei großen UAV-basierten HSI-Datensätzen die höchste Genauigkeit erreichte. Im WHU-Hi-LongKou-Datensatz erreichte CMTNet beispielsweise eine Gesamtgenauigkeit (OA) von 99,58% und übertraf damit das bisher beste Modell um 0,19%.

Herausforderungen der traditionellen hyperspektralen Bildgebung in der landwirtschaftlichen Klassifizierung

Frühe Methoden zur Analyse von Hyperspektraldaten konzentrierten sich häufig entweder auf spektrale oder räumliche Merkmale, was zu unvollständigen Ergebnissen führte. Spektrale Verfahren wie die Hauptkomponentenanalyse (PCA) reduzierten die Komplexität der Daten, indem sie sich auf die Wellenlängeninformationen konzentrierten, aber die räumlichen Beziehungen zwischen den Pixeln ignorierten.

Die PCA zum Beispiel wandelt hochdimensionale Spektraldaten in weniger Komponenten um, die die meiste Varianz erklären, und vereinfacht so die Analyse. Dieser Ansatz lässt jedoch den räumlichen Kontext außer Acht, etwa die Anordnung der Pflanzen auf einem Feld. Umgekehrt heben räumliche Methoden wie mathematische Morphologieoperatoren Muster in der physischen Anordnung der Pflanzen hervor, übersehen aber kritische spektrale Details.

Die mathematische Morphologie verwendet Operationen wie Dilatation und Erosion, um Formen und Strukturen aus Bildern zu extrahieren, z. B. die Grenzen zwischen Feldern. Im Laufe der Zeit verbesserten Faltungsneuronale Netze (CNN) die Klassifizierung, indem sie beide Arten von Daten verarbeiteten.

Ihre begrenzten rezeptiven Felder - der Bereich eines Bildes, den ein Netzwerk auf einmal “sehen” kann - schränken jedoch ihre Fähigkeit ein, weitreichende Abhängigkeiten zu erfassen. So könnte ein 3D-CNN beispielsweise Schwierigkeiten haben, zwischen zwei Sojabohnensorten mit ähnlichen Spektralprofilen, aber unterschiedlichen Wachstumsmustern auf einem großen Feld zu unterscheiden.

Transformers, eine Art neuronales Netz, das ursprünglich für die Verarbeitung natürlicher Sprache entwickelt wurde, bot eine Lösung für dieses Problem. Durch den Einsatz von Mechanismen der Selbstaufmerksamkeit zeichnen sich Transformers durch die Modellierung globaler Beziehungen in Daten aus. Die Selbstaufmerksamkeit ermöglicht es dem Modell, die Bedeutung verschiedener Teile einer Eingabesequenz abzuwägen, so dass es sich auf relevante Regionen konzentrieren kann (z. B. eine Gruppe kranker Pflanzen), während es Störungen (z. B. Wolkenschatten) ignoriert.

Verwandt: Wie hilft hyperspektrale Satellitenbildgebung der Präzisionslandwirtschaft?

Allerdings entgehen ihnen oft feinkörnige lokale Details, wie z. B. die Ränder von Blättern oder Bodenrisse. Hybride Modelle wie CTMixer versuchten, CNNs und Transformers zu kombinieren, verarbeiteten dabei aber zuerst lokale und erst später globale Merkmale. Dieser Ansatz führte zu einer ineffizienten Fusion von Informationen und einer suboptimalen Leistung in komplexen landwirtschaftlichen Umgebungen.

Wie CMTNet funktioniert: Eine Brücke zwischen lokalen und globalen Funktionen

CMTNet überwindet diese Einschränkungen durch eine einzigartige dreiteilige Architektur, die darauf ausgelegt ist, spektral-räumliche, lokale und globale Merkmale effektiv zu extrahieren und zu verschmelzen.

1. Die erste Komponente, der Modul zur Extraktion spektral-räumlicher Merkmale, verarbeitet HSI-Rohdaten mit 3D- und 2D-Faltungsschichten.

Die 3D-Faltungsschichten analysieren sowohl die räumliche (Höhe × Breite) als auch die spektrale (Wellenlänge) Dimension gleichzeitig und erfassen so Muster wie die Reflexion bestimmter Wellenlängen in einem Pflanzendach. Ein 3D-Kernel könnte zum Beispiel erkennen, dass gesunder Mais in den oberen Blättern mehr Nahinfrarotlicht reflektiert als in den unteren.

Die 2D-Ebenen verfeinern dann diese Merkmale und konzentrieren sich auf räumliche Details wie die Anordnung der Pflanzen in einem Feld. Dieser zweistufige Prozess stellt sicher, dass sowohl die spektrale Vielfalt (z. B. der Chlorophyllgehalt) als auch der räumliche Kontext (z. B. die Reihenabstände) erhalten bleiben.

2. Die zweite Komponente, der Modul für die lokal-globale Merkmalsextraktion, arbeitet parallel. Ein Zweig verwendet CNNs, um sich auf lokale Details zu konzentrieren, wie die Textur einzelner Blätter oder die Form von Bodenflecken. Diese Merkmale sind entscheidend für die Identifizierung von Arten mit ähnlichen Spektralprofilen, wie z. B. verschiedene Sojabohnensorten.

Der andere Zweig verwendet Transformers, um globale Beziehungen zu modellieren, z. B. wie Pflanzen über große Flächen verteilt sind oder wie Schatten von nahe gelegenen Bäumen die Spektralmessungen beeinflussen. Durch die gleichzeitige und nicht sequentielle Verarbeitung dieser Merkmale vermeidet CMTNet den Informationsverlust, der bei früheren Hybridmodellen auftritt.

Während der CNN-Zweig beispielsweise die gezackten Ränder von Baumwollblättern identifiziert, erkennt der Transformer-Zweig, dass diese Blätter Teil eines größeren Baumwollfeldes sind, das von Sesampflanzen umgeben ist.

3. Die dritte Komponente, der Multi-Ausgangsbeschränkungsmodul, gewährleistet ein ausgewogenes Lernen über lokale, globale und fusionierte Merkmale. Während des Trainings werden separate Verlustfunktionen auf jede Art von Merkmal angewandt, wodurch das Netz gezwungen wird, alle Aspekte seines Verständnisses zu verfeinern.

Eine Verlustfunktion quantifiziert die Differenz zwischen den vorhergesagten und den tatsächlichen Werten und leitet die Anpassungen des Modells. Beispielsweise könnte der Verlust für lokale Merkmale das Modell für die falsche Klassifizierung von Blatträndern bestrafen, während der globale Verlust Fehler in der großräumigen Pflanzenverteilung korrigiert.

Diese Verluste werden mit Hilfe von Gewichten kombiniert, die durch eine Zufallssuche optimiert werden - eine Technik, die verschiedene Gewichtskombinationen testet, um die Genauigkeit zu maximieren. Das Ergebnis dieses Prozesses ist ein robustes und anpassungsfähiges Modell, das sich für verschiedene landwirtschaftliche Szenarien eignet.

Bewertung der CMTNet-Leistung bei UAV-Hyperspektraldatensätzen

Um CMTNet zu bewerten, testeten die Forscher es mit drei per UAV aufgenommenen Hyperspektraldatensätzen der Universität Wuhan. Diese Datensätze sind aufgrund ihrer hohen Qualität und Vielfalt weit verbreitete Benchmarks in der Fernerkundung:

WHU-Hi-LongKou: Dieser Datensatz umfasst 550 × 400 Pixel mit 270 Spektralbändern und einer räumlichen Auflösung von 0,463 Metern. Eine räumliche Auflösung von 0,463 m bedeutet, dass jedes Pixel eine Fläche von 0,463 m × 0,463 m auf dem Boden darstellt und die Identifizierung einzelner Pflanzen ermöglicht. Es umfasst neun Kulturpflanzenarten, wie Mais, Baumwolle und Reis, mit 1.019 Trainingsproben und 203.523 Testproben.
WHU-Hi-HanChuan: Mit 1.217 × 303 Pixeln bei einer Auflösung von 0,109 Metern enthält dieser Datensatz 16 Bodenbedeckungstypen, darunter Erdbeeren, Sojabohnen und Plastikplanen. Die höhere Auflösung (0,109 m) ermöglicht feinere Details, wie die Unterscheidung zwischen jungen und reifen Sojapflanzen. Die Trainings- und Testproben umfassten insgesamt 1.289 bzw. 256.241.
WHU-Hi-HongHu: Mit 940 × 475 Pixeln und 270 Bändern umfasst dieser hochauflösende (0,043 m) Datensatz 22 Klassen, wie Baumwolle, Raps und Knoblauchsprossen. Bei einer Auflösung von 0,043 m sind einzelne Blätter und Bodenrisse sichtbar, was ihn ideal für eine feinkörnige Klassifizierung macht. Er enthält 1.925 Trainingsmuster und 384.678 Testmuster.

Verwandt: Satellitenlandwirtschaft revolutioniert die globale Ernährungssicherheit mit Weltraumdaten

Das Modell wurde auf NVIDIA TITAN Xp GPUs mit PyTorch trainiert, mit einer Lernrate von 0,001 und einer Stapelgröße von 100. Die Lernrate bestimmt, wie stark das Modell seine Parameter während des Trainings anpasst - ist sie zu hoch, kann es zu einer Überschreitung der optimalen Werte kommen, ist sie zu niedrig, wird das Training träge.

Jedes Experiment wurde zehnmal wiederholt, um die Zuverlässigkeit zu gewährleisten, und die Eingabefelder - kleine Segmente des gesamten Bildes - wurden durch Rastersuche auf 13 × 13 Pixel optimiert, eine Methode, bei der verschiedene Feldgrößen getestet werden, um die effektivste zu finden.

CMTNet erreicht modernste Genauigkeit bei der Klassifizierung von Kulturpflanzen

CMTNet erzielte in allen Datensätzen bemerkenswerte Ergebnisse und übertraf die bestehenden Methoden sowohl bei der Gesamtgenauigkeit (OA) als auch bei der klassenspezifischen Leistung. OA misst den Prozentsatz der korrekt klassifizierten Pixel über alle Klassen hinweg, während die durchschnittliche Genauigkeit (AA) die durchschnittliche Genauigkeit pro Klasse berechnet und Ungleichgewichte berücksichtigt.

Auf dem WHU-Hi-LongKou-Datensatz erreichte CMTNet eine OA von 99,58% und übertraf damit CTMixer um 0,19%. Bei schwierigen Klassen mit begrenzten Trainingsdaten, wie Baumwolle (41 Proben), erreichte CMTNet immer noch eine Genauigkeit von 99,53%. In ähnlicher Weise verbesserte CMTNet im WHU-Hi-HanChuan-Datensatz die Genauigkeit für Wassermelone (22 Proben) von 82,42% auf 96,11% und bewies damit seine Fähigkeit, unausgewogene Daten durch effektive Merkmalsfusion zu verarbeiten.

Visuelle Vergleiche der Klassifizierungskarten zeigten, dass im Vergleich zu Modellen wie 3D-CNN und Vision Transformer (ViT) weniger fragmentierte Flecken und glattere Grenzen zwischen Feldern zu finden waren. Im schattenanfälligen WHU-Hi-HanChuan-Datensatz minimierte CMTNet beispielsweise die durch niedrige Sonnenwinkel verursachten Fehler, während ResNet Sojabohnen als graue Dächer falsch klassifizierte.

Schatten stellen eine besondere Herausforderung dar, da sie die spektralen Signaturen verändern - Sojapflanzen im Schatten reflektieren möglicherweise weniger Nahinfrarotlicht und ähneln damit einer Nichtvegetation. Durch die Nutzung des globalen Kontexts erkannte CMTNet, dass diese schattigen Pflanzen Teil eines größeren Sojabohnenfeldes waren, wodurch Fehler reduziert wurden.

Im WHU-Hi-HongHu-Datensatz zeichnete sich das Modell bei der Unterscheidung spektral ähnlicher Pflanzen, wie z. B. verschiedener Brassica-Sorten, aus und erreichte eine Genauigkeit von 96,54% für Brassica parachinensis.

Ablationsstudien - Experimente, bei denen Komponenten entfernt werden, um ihre Auswirkungen zu bewerten - bestätigten die Bedeutung der einzelnen Module. Allein die Hinzufügung des Moduls "Multi-Output Constraint" steigerte die OA bei WHU-Hi-HongHu um 1,52%, was seine Rolle bei der Verfeinerung der Merkmalsfusion unterstreicht. Ohne dieses Modul wurden lokale und globale Merkmale willkürlich kombiniert, was zu inkonsistenten Klassifizierungen führte.

Rechnerische Abwägungen und praktische Überlegungen

Während die Genauigkeit von CMTNet unübertroffen ist, ist der Rechenaufwand höher als bei herkömmlichen Methoden. Das Training auf dem WHU-Hi-HongHu-Datensatz dauerte 1.885 Sekunden, verglichen mit 74 Sekunden für Random Forest (RF), einem Algorithmus für maschinelles Lernen, der während des Trainings Entscheidungsbäume erstellt.

Dieser Kompromiss ist jedoch in der Präzisionslandwirtschaft gerechtfertigt, wo sich die Genauigkeit direkt auf die Ertragsvorhersage und die Ressourcenzuweisung auswirkt. Wird beispielsweise eine kranke Pflanze fälschlicherweise als gesund eingestuft, kann dies zu einem unkontrollierten Ausbruch von Schädlingen führen und ganze Felder verwüsten.

Verwandt: Agrarzonenverwaltung für datengesteuerte Entscheidungen

Für Echtzeitanwendungen könnten in Zukunft Techniken zur Modellkomprimierung erforscht werden, z. B. das Beschneiden überflüssiger Neuronen oder die Quantisierung von Gewichten (Verringerung der numerischen Präzision), um die Laufzeit ohne Leistungseinbußen zu verkürzen. Beim Pruning werden weniger wichtige Verbindungen aus dem neuronalen Netz entfernt, ähnlich wie beim Beschneiden von Ästen eines Baumes, um dessen Form zu verbessern, während die Quantisierung numerische Berechnungen vereinfacht und die Verarbeitung beschleunigt.

Zukunft der hyperspektralen Klassifizierung von Kulturpflanzen mit CMTNet

Trotz seines Erfolgs stößt CMTNet an Grenzen. Die Leistung sinkt leicht in stark schattigen Regionen, wie im WHU-Hi-HanChuan-Datensatz zu sehen ist (97,29% OA vs. 99,58% im gut beleuchteten LongKou). Schatten erschweren die Klassifizierung, da sie die Intensität des reflektierten Lichts verringern und die Spektralprofile verändern.

Darüber hinaus bleiben Klassen mit extrem kleinen Trainingsstichproben, wie z. B. schmalblättrige Sojabohnen (20 Stichproben), hinter denen mit reichlich Daten zurück. Kleine Stichprobengrößen schränken die Fähigkeit des Modells ein, verschiedene Variationen zu erlernen, wie z. B. Unterschiede in der Blattform aufgrund der Bodenqualität.

Künftige Forschungsarbeiten könnten multimodale Daten wie LiDAR-Höhenkarten oder Wärmebilder integrieren, um die Widerstandsfähigkeit gegenüber Schatten und Verdeckungen zu verbessern. LiDAR (Light Detection and Ranging) verwendet Laserimpulse zur Erstellung von 3D-Geländemodellen, die durch die Analyse von Höhenunterschieden helfen könnten, Pflanzen von Schatten zu unterscheiden.

Darüber hinaus erfasst die Wärmebildtechnik Wärmesignaturen, die zusätzliche Hinweise auf den Gesundheitszustand der Pflanzen liefern - gestresste Pflanzen haben aufgrund der verringerten Transpiration oft höhere Temperaturen in der Baumkrone. Semi-überwachte Lerntechniken, die unmarkierte Daten nutzen (z. B. UAV-Bilder ohne manuelle Anmerkungen), könnten die Leistung bei seltenen Pflanzenarten ebenfalls verbessern.

Durch den Einsatz von Konsistenzregulierung - Training des Modells, um stabile Vorhersagen über leicht veränderte Versionen desselben Bildes hinweg zu erzeugen - können Forscher unbeschriftete Daten nutzen, um die Generalisierung zu verbessern.

Schließlich könnte der Einsatz von CMTNet auf Edge-Geräten wie Drohnen, die mit integrierten Grafikprozessoren ausgestattet sind, eine Echtzeitüberwachung in abgelegenen Gebieten ermöglichen. Durch den Edge-Einsatz wird die Abhängigkeit vom Cloud-Computing verringert, wodurch Latenzzeiten und Datenübertragungskosten minimiert werden. Dies erfordert jedoch eine Optimierung des Modells für begrenzten Speicher und begrenzte Verarbeitungsleistung, möglicherweise durch leichtgewichtige Architekturen wie MobileNet oder Wissensdestillation, bei der ein kleineres “Schüler”-Modell ein größeres “Lehrermodell” nachahmt.

Schlussfolgerung

CMTNet stellt einen bedeutenden Fortschritt bei der Klassifizierung hyperspektraler Pflanzen dar. Durch die Harmonisierung von CNNs und Transformatoren löst es seit langem bestehende Herausforderungen bei der Merkmalsextraktion und -fusion und bietet Landwirten und Agronomen ein leistungsstarkes Werkzeug für die Präzisionslandwirtschaft.

Die Anwendungen reichen von der Erkennung von Krankheiten in Echtzeit bis hin zur Optimierung von Bewässerungsplänen, die angesichts des Klimawandels und des Bevölkerungswachstums für eine nachhaltige Landwirtschaft von entscheidender Bedeutung sind. In dem Maße, in dem die UAV-Technologie zugänglicher wird, werden Modelle wie CMTNet eine entscheidende Rolle für die globale Ernährungssicherheit spielen.

Künftige Fortschritte, wie leichtere Architekturen und multimodale Datenfusion, könnten ihre Praxistauglichkeit weiter erhöhen. Bei fortgesetzter Innovation könnte CMTNet zu einem Eckpfeiler intelligenter Landwirtschaftssysteme weltweit werden, die eine effiziente Landnutzung und eine widerstandsfähige Nahrungsmittelproduktion für künftige Generationen gewährleisten.

Referenz: Guo, X., Feng, Q. & Guo, F. CMTNet: a hybrid CNN-transformer network for UAV-based hyperspectral crop classification in precision agriculture. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w