CMTNet Redefines Precision Agriculture By Outperforming Traditional Crop Classification

Presná klasifikácia plodín je nevyhnutná pre moderné presné poľnohospodárstvo, pretože umožňuje poľnohospodárom monitorovať zdravotný stav plodín, predpovedať výnosy a efektívne rozdeľovať zdroje. Tradičné metódy však často zápasia so zložitosťou poľnohospodárskeho prostredia, v ktorom sa plodiny značne líšia typom, rastovými štádiami a spektrálnymi znakmi.

Čo je to hyperspektrálne zobrazovanie a rámec CMTNet?

Hyperspektrálne zobrazovanie (HSI), technológia, ktorá zachytáva údaje v stovkách úzkych, susediacich pásiem vlnovej dĺžky, sa v tejto oblasti stala prelomovou. Na rozdiel od štandardných kamier RGB alebo multispektrálnych senzorov, ktoré zbierajú údaje v niekoľkých širokých pásmach, HSI poskytuje podrobný “spektrálny odtlačok” pre každý pixel.

Napríklad zdravá vegetácia silne odráža blízke infračervené svetlo v dôsledku aktivity chlorofylu, zatiaľ čo stresované plodiny vykazujú výrazné absorpčné vzory. Zaznamenávaním týchto jemných zmien (od 400 do 1 000 nanometrov) s vysokým priestorovým rozlíšením (až 0,043 metra) umožňuje HSI presné rozlišovanie druhov plodín, zisťovanie chorôb a analýzu pôdy.

Napriek týmto výhodám sa existujúce techniky stretávajú s výzvami, ktoré spočívajú vo vyvažovaní lokálnych detailov, ako je štruktúra listov alebo pôdne vzory, s globálnymi vzormi, ako je napríklad veľkoplošné rozloženie plodín. Toto obmedzenie sa prejavuje najmä v zašumených alebo nevyvážených súboroch údajov, kde jemné spektrálne rozdiely medzi plodinami môžu viesť k nesprávnej klasifikácii.

Na riešenie týchto výziev výskumníci vyvinuli CMTNet (Convolutional Meets Transformer Network), nový rámec hlbokého učenia, ktorý kombinuje silné stránky konvolučných neurónových sietí (CNN) a transformátorov. CNN sú triedou neurónových sietí navrhnutých na spracovanie údajov podobných mriežke, ako sú obrázky, pomocou vrstiev filtrov, ktoré zisťujú priestorové hierarchie (napr. hrany, textúry).

Transformátory, pôvodne vyvinuté na spracovanie prirodzeného jazyka, využívajú mechanizmy vlastnej pozornosti na modelovanie závislostí v údajoch s dlhým dosahom, vďaka čomu sú schopné zachytiť globálne vzory. Na rozdiel od predchádzajúcich modelov, ktoré spracovávali lokálne a globálne znaky postupne, CMTNet využíva paralelnú architektúru na extrakciu oboch typov informácií súčasne.

Tento prístup sa ukázal ako veľmi účinný a dosiahol špičkovú presnosť na troch hlavných súboroch údajov HSI založených na UAV. Napríklad v súbore údajov WHU-Hi-LongKou dosiahol CMTNet celkovú presnosť (OA) 99,58%, čím prekonal predchádzajúci najlepší model o 0,19%.

Výzvy tradičného hyperspektrálneho zobrazovania v poľnohospodárskej klasifikácii

Prvé metódy analýzy hyperspektrálnych údajov sa často zameriavali buď na spektrálne, alebo priestorové vlastnosti, čo viedlo k neúplným výsledkom. Spektrálne techniky, ako napríklad analýza hlavných komponentov (PCA), znížili zložitosť údajov tým, že sa zamerali na informácie o vlnovej dĺžke, ale ignorovali priestorové vzťahy medzi pixelmi.

PCA napríklad transformuje vysokorozmerné spektrálne údaje do menšieho počtu zložiek, ktoré vysvetľujú najväčší rozptyl, čím zjednodušuje analýzu. Pri tomto prístupe sa však vynecháva priestorový kontext, ako napríklad usporiadanie plodín na poli. Naopak, priestorové metódy, ako napríklad operátory matematickej morfológie, zvýraznili vzory vo fyzickom usporiadaní plodín, ale prehliadli kritické spektrálne detaily.

Matematická morfológia využíva operácie ako dilatácia a erózia na extrakciu tvarov a štruktúr z obrázkov, napríklad hraníc medzi poľami. Konvolučné neurónové siete (CNN) časom zlepšili klasifikáciu spracovaním oboch typov údajov.

Ich pevné recepčné polia - oblasť obrazu, ktorú sieť “vidí” naraz - však obmedzovali ich schopnosť zachytiť závislosti na dlhé vzdialenosti. Napríklad 3D-CNN by mohla mať problém rozlíšiť dve odrody sóje s podobnými spektrálnymi profilmi, ale s odlišnými vzormi rastu na veľkom poli.

Transformátory, typ neurónovej siete pôvodne navrhnutý na spracovanie prirodzeného jazyka, ponúkli riešenie tohto problému. Vďaka použitiu mechanizmov vlastnej pozornosti sú transformátory vynikajúce pri modelovaní globálnych vzťahov v údajoch. Sebapozornosť umožňuje modelu zvážiť dôležitosť rôznych častí vstupnej sekvencie, čo mu umožňuje zamerať sa na relevantné oblasti (napr. zhluk chorých rastlín) a zároveň ignorovať šum (napr. tiene mrakov).

Súvisiace: Predstavujeme ziskové mapy GeoPard: Krok vpred v presnom poľnohospodárstve

Často im však chýbajú jemné lokálne detaily, ako sú okraje listov alebo pukliny v pôde. Hybridné modely, ako napríklad CTMixer, sa pokúšali kombinovať CNN a transformátory, ale robili to postupne, pričom najprv spracovávali lokálne prvky a až potom globálne prvky. Tento prístup viedol k neefektívnemu spájaniu informácií a neoptimálnemu výkonu v komplexných poľnohospodárskych prostrediach.

Ako funguje sieť CMTNet: Prepojenie miestnych a globálnych funkcií

CMTNet prekonáva tieto obmedzenia prostredníctvom jedinečnej trojdielnej architektúry navrhnutej na efektívne získavanie a spájanie spektrálno-priestorových, lokálnych a globálnych funkcií.

1. Prvá zložka, tzv. modul extrakcie spektrálno-priestorových prvkov, spracováva nespracované údaje HSI pomocou 3D a 2D konvolučných vrstiev.

3D konvolučné vrstvy analyzujú súčasne priestorovú (výška × šírka) aj spektrálnu (vlnová dĺžka) dimenziu a zachytávajú vzory, ako je odrazivosť špecifických vlnových dĺžok v korunách plodín. 3D jadro môže napríklad zistiť, že zdravá kukurica odráža viac blízkeho infračerveného svetla v horných listoch v porovnaní s dolnými.

2D vrstvy potom tieto prvky spresňujú a zameriavajú sa na priestorové detaily, ako je napríklad usporiadanie rastlín na poli. Tento dvojstupňový proces zabezpečuje zachovanie spektrálnej rozmanitosti (napr. obsah chlorofylu) aj priestorového kontextu (napr. rozmiestnenie riadkov).

2. Druhá zložka, tzv. modul lokálno-globálnej extrakcie príznakov, pracuje paralelne. Jedna vetva využíva CNN na zameranie sa na lokálne detaily, ako je štruktúra jednotlivých listov alebo tvar pôdnych škvŕn. Tieto vlastnosti sú rozhodujúce pre identifikáciu druhov s podobnými spektrálnymi profilmi, ako sú napríklad rôzne odrody sóje.

Druhá vetva využíva transformátory na modelovanie globálnych vzťahov, napríklad ako sú plodiny rozložené na veľkých plochách alebo ako tiene z blízkych stromov ovplyvňujú spektrálne údaje. Tým, že CMTNet spracúva tieto funkcie súčasne, a nie postupne, zabraňuje strate informácií, ktorá trápi predchádzajúce hybridné modely.

Napríklad, zatiaľ čo vetva CNN identifikuje zubaté okraje listov bavlny, vetva Transformer rozpozná, že tieto listy sú súčasťou väčšieho bavlníkového poľa ohraničeného sezamovými rastlinami.

3. Tretia zložka, tzv. modul s viacerými výstupnými obmedzeniami, zabezpečuje vyvážené učenie lokálnych, globálnych a zlúčených funkcií. Počas trénovania sa na každý typ funkcie aplikujú samostatné stratové funkcie, čo núti sieť zdokonaľovať všetky aspekty jej porozumenia.

Stratová funkcia kvantifikuje rozdiel medzi predpovedanými a skutočnými hodnotami a usmerňuje úpravy modelu. Napríklad strata pre lokálne prvky môže penalizovať model za nesprávnu klasifikáciu okrajov listov, zatiaľ čo globálna strata koriguje chyby v rozsiahlom rozložení plodín.

Tieto straty sa kombinujú pomocou váh optimalizovaných pomocou náhodného vyhľadávania - techniky, ktorá testuje rôzne kombinácie váh s cieľom maximalizovať presnosť. Výsledkom tohto procesu je robustný a prispôsobivý model, ktorý je schopný zvládnuť rôzne poľnohospodárske scenáre.

Hodnotenie výkonu CMTNet na súboroch hyperspektrálnych údajov z UAV

Na vyhodnotenie systému CMTNet ho výskumníci testovali na troch súboroch hyperspektrálnych údajov získaných bezpilotným lietadlom z Wuhanskej univerzity. Tieto súbory údajov sú vďaka svojej vysokej kvalite a rozmanitosti široko používanými referenčnými hodnotami v diaľkovom prieskume Zeme:

WHU-Hi-LongKou: Tento súbor údajov pokrýva 550 × 400 pixelov s 270 spektrálnymi pásmi a priestorovým rozlíšením 0,463 metra. Priestorové rozlíšenie 0,463 metra znamená, že každý pixel predstavuje plochu 0,463 × 0,463 metra na zemi, čo umožňuje identifikáciu jednotlivých rastlín. Zahŕňa deväť typov plodín, napríklad kukuricu, bavlnu a ryžu, s 1 019 tréningovými vzorkami a 203 523 testovacími vzorkami.
WHU-Hi-HanChuan: Tento súbor údajov s rozlíšením 1 217 × 303 pixelov pri rozlíšení 0,109 metra obsahuje 16 typov pôdnej pokrývky vrátane jahôd, sóje a plastových fólií. Vyššie rozlíšenie (0,109 m) umožňuje získať jemnejšie detaily, napríklad rozlíšenie medzi mladými a zrelými rastlinami sóje. Tréningové a testovacie vzorky predstavovali spolu 1 289 a 256 241 vzoriek.
WHU-Hi-HongHu: Tento súbor údajov s vysokým rozlíšením (0,043 metra) s rozlíšením 940 × 475 pixelov a 270 pásmi obsahuje 22 tried, napríklad bavlnu, repku a cesnakové výhonky. Pri rozlíšení 0,043 m sú viditeľné jednotlivé listy a pukliny pôdy, čo je ideálne na jemnú klasifikáciu. Obsahuje 1 925 cvičných vzoriek a 384 678 testovacích vzoriek.

Súvisiace: Evolúcia presného poľnohospodárstva: Ako minulosť formuje zajtrajšok

Model bol natrénovaný na grafických procesoroch NVIDIA TITAN Xp pomocou programu PyTorch s mierou učenia 0,001 a veľkosťou dávky 100. Miera učenia určuje, ako veľmi model upravuje svoje parametre počas trénovania - príliš vysoká, a môže prekročiť optimálne hodnoty; príliš nízka, a trénovanie sa stáva pomalým.

Každý experiment sa opakoval desaťkrát, aby sa zabezpečila spoľahlivosť, a vstupné políčka - malé segmenty celého obrazu - sa optimalizovali na 13 × 13 pixelov pomocou vyhľadávania v mriežke, čo je metóda, ktorá testuje rôzne veľkosti políčok s cieľom nájsť najúčinnejšie.

CMTNet dosahuje špičkovú presnosť v klasifikácii plodín

CMTNet dosiahol pozoruhodné výsledky vo všetkých súboroch údajov, pričom prekonal existujúce metódy v celkovej presnosti (OA) aj vo výkonnosti špecifickej pre jednotlivé triedy. OA meria percento správne klasifikovaných pixelov vo všetkých triedach, zatiaľ čo priemerná presnosť (AA) vypočítava priemernú presnosť na triedu a rieši nerovnováhu.

Na súbore údajov WHU-Hi-LongKou dosiahol CMTNet OA 99,58%, čím prekonal CTMixer o 0,19%. V prípade náročných tried s obmedzeným počtom trénovaných údajov, ako je bavlna (41 vzoriek), CMTNet stále dosiahol presnosť 99,53%. Podobne na súbore údajov WHU-Hi-HanChuan zlepšil presnosť pre melón (22 vzoriek) z 82,42% na 96,11%, čo dokazuje jeho schopnosť zvládnuť nevyvážené údaje prostredníctvom účinného zlúčenia príznakov.

Vizuálne porovnanie klasifikačných máp odhalilo menej fragmentovaných políčok a hladšie hranice medzi poľami v porovnaní s modelmi ako 3D-CNN a Vision Transformer (ViT). Napríklad v súbore údajov WHU-Hi-HanChuan, ktorý je náchylný na tiene, CMTNet minimalizoval chyby spôsobené nízkymi uhlami slnka, zatiaľ čo ResNet nesprávne klasifikoval sójové bôby ako sivé strechy.

Tiene predstavujú jedinečnú výzvu, pretože menia spektrálnu signatúru - rastlina sóje v tieni môže odrážať menej blízkeho infračerveného svetla, čím sa podobá na nevegetáciu. Využitím globálneho kontextu systém CMTNet rozpoznal, že tieto rastliny v tieni sú súčasťou väčšieho sójového poľa, čím sa znížili chyby.

V súbore údajov WHU-Hi-HongHu model exceloval pri rozlišovaní spektrálne podobných plodín, ako sú rôzne odrody kapusty, pričom dosiahol presnosť 96,54% pre Brassica parachinensis.

Ablačné štúdie - experimenty, pri ktorých sa odstraňujú komponenty s cieľom posúdiť ich vplyv - potvrdili význam každého modulu. Samotné pridanie modulu obmedzenia viacerých výstupov zvýšilo OA o 1,52% na WHU-Hi-HongHu, čím sa zdôraznila jeho úloha pri spresňovaní fúzie funkcií. Bez tohto modulu sa lokálne a globálne funkcie kombinovali náhodne, čo viedlo k nekonzistentným klasifikáciám.

Výpočtové kompromisy a praktické úvahy

Hoci je presnosť CMTNet bezkonkurenčná, jej výpočtové náklady sú vyššie ako pri tradičných metódach. Trénovanie na súbore údajov WHU-Hi-HongHu trvalo 1 885 sekúnd v porovnaní so 74 sekundami pre algoritmus strojového učenia Random Forest (RF), ktorý počas trénovania vytvára rozhodovacie stromy.

Tento kompromis je však opodstatnený v presnom poľnohospodárstve, kde presnosť priamo ovplyvňuje predpovede výnosov a prideľovanie zdrojov. Napríklad nesprávne klasifikovanie chorej plodiny ako zdravej by mohlo viesť k nekontrolovanému výskytu škodcov, ktorí by zničili celé polia.

Súvisiace: Viacročné zóny

V prípade aplikácií v reálnom čase by sa v budúcnosti mohli preskúmať techniky kompresie modelu, ako napríklad orezávanie nadbytočných neurónov alebo kvantizácia váh (zníženie numerickej presnosti), aby sa skrátil čas behu bez straty výkonu. Prerezávanie odstraňuje menej dôležité spojenia z neurónovej siete, podobne ako sa orezávajú vetvy stromu, aby sa zlepšil jeho tvar, zatiaľ čo kvantizácia zjednodušuje numerické výpočty, čím sa zrýchľuje spracovanie.

Budúcnosť hyperspektrálnej klasifikácie plodín pomocou siete CMTNet

Napriek svojmu úspechu sa sieť CMTNet stretáva s obmedzeniami. Výkon mierne klesá v silne zatienených oblastiach, ako je vidieť v súbore údajov WHU-Hi-HanChuan (97,29% OA oproti 99,58% v dobre osvetlenom LongKou). Tiene komplikujú klasifikáciu, pretože znižujú intenzitu odrazeného svetla, čím menia spektrálne profily.

Okrem toho triedy s extrémne malými tréningovými vzorkami, ako napríklad sója úzkolistá (20 vzoriek), zaostávajú za triedami s veľkým množstvom údajov. Malá veľkosť vzoriek obmedzuje schopnosť modelu naučiť sa rôznorodé variácie, napríklad rozdiely v tvare listov spôsobené kvalitou pôdy.

Budúci výskum by mohol integrovať multimodálne údaje, napríklad výškové mapy LiDAR alebo termovízne snímky, aby sa zlepšila odolnosť voči tieňom a zákrytom. LiDAR (Light Detection and Ranging) využíva laserové impulzy na vytvorenie 3D modelov terénu, ktoré by mohli pomôcť rozlíšiť plodiny od tieňov analýzou výškových rozdielov.

Okrem toho termálne zobrazovanie zachytáva tepelné stopy, ktoré poskytujú ďalšie informácie o zdravotnom stave rastlín - stresované plodiny majú často vyššiu teplotu korún v dôsledku zníženej transpirácie. Techniky poloprevádzkového učenia, ktoré využívajú neoznačené údaje (napr. snímky z bezpilotných lietadiel bez manuálnych anotácií), by tiež mohli zvýšiť výkonnosť v prípade vzácnych typov plodín.

Pomocou regularizácie konzistencie - trénovaním modelu na vytváranie stabilných predpovedí v mierne zmenených verziách toho istého obrázka - môžu výskumníci využiť neoznačené údaje na zlepšenie zovšeobecnenia.

Napokon, nasadenie siete CMTNet na okrajových zariadeniach, ako sú drony vybavené vstavanými grafickými procesormi, by mohlo umožniť monitorovanie v reálnom čase na vzdialených poliach. Nasadenie na okraji siete znižuje závislosť od cloud computingu, minimalizuje latenciu a náklady na prenos údajov. To si však vyžaduje optimalizáciu modelu pre obmedzenú pamäť a výpočtový výkon, potenciálne prostredníctvom odľahčených architektúr, ako je MobileNet, alebo destilácie znalostí, kde menší “študentský” model napodobňuje väčší “učiteľský” model.

Záver

CMTNet predstavuje významný krok vpred v hyperspektrálnej klasifikácii plodín. Zosúladením CNN a transformátorov rieši dlhodobé výzvy v oblasti extrakcie a fúzie príznakov a ponúka poľnohospodárom a agronómom výkonný nástroj pre presné poľnohospodárstvo.

Aplikácie siahajú od zisťovania chorôb v reálnom čase až po optimalizáciu zavlažovacích plánov, ktoré sú dôležité pre udržateľné poľnohospodárstvo v súvislosti so zmenou klímy a rastom populácie. Keďže technológia bezpilotných lietadiel sa stáva dostupnejšou, modely ako CMTNet budú zohrávať kľúčovú úlohu v globálnej potravinovej bezpečnosti.

Budúci pokrok, ako napríklad ľahšie architektúry a multimodálna fúzia údajov, by mohol ďalej zvýšiť ich praktickosť. Vďaka pokračujúcim inováciám by sa sieť CMTNet mohla stať základným kameňom inteligentných poľnohospodárskych systémov na celom svete a zabezpečiť efektívne využívanie pôdy a odolnú produkciu potravín pre ďalšie generácie.

Odkaz: Guo, X., Feng, Q. & Guo, F. CMTNet: hybridná CNN-transformátorová sieť na hyperspektrálnu klasifikáciu plodín na báze UAV v presnom poľnohospodárstve. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w