Točna klasifikacija usjeva ključna je za modernu preciznu poljoprivredu, omogućujući poljoprivrednicima praćenje zdravlja usjeva, predviđanje prinosa i učinkovitu raspodjelu resursa. Međutim, tradicionalne metode često se bore sa složenošću poljoprivrednih okruženja, gdje se usjevi uvelike razlikuju po vrsti, fazama rasta i spektralnim potpisima.
Što je hiperspektralno snimanje i CMTNet okvir?
Hiperspektralno snimanje (HSI), tehnologija koja prikuplja podatke u stotinama uskih, susjednih valnih duljina, pojavila se kao revolucionarna tehnologija u ovom području. Za razliku od standardnih RGB kamera ili multispektralnih senzora, koji prikupljaju podatke u nekoliko širokih pojaseva, HSI pruža detaljan "spektralni otisak prsta" za svaki piksel.
Na primjer, zdrava vegetacija snažno reflektira svjetlost bliskog infracrvenog zračenja zbog aktivnosti klorofila, dok usjevi pod stresom pokazuju različite obrasce apsorpcije. Bilježenjem ovih suptilnih varijacija (od 400 do 1000 nanometara) pri visokim prostornim rezolucijama (i do 0,043 metra), HSI omogućuje precizno razlikovanje vrsta usjeva, otkrivanje bolesti i analizu tla.
Unatoč tim prednostima, postojeće tehnike suočavaju se s izazovima u balansiranju lokalnih detalja, poput teksture lišća ili uzoraka tla, s globalnim uzorcima, kao što je rasprostranjenost usjeva velikih razmjera. Ovo ograničenje postaje posebno očito u skupovima podataka s bučnim ili neuravnoteženim skupovima podataka, gdje suptilne spektralne razlike između usjeva mogu dovesti do pogrešnih klasifikacija.
Kako bi se suočili s tim izazovima, istraživači su razvili CMTNet (Konvolucijska susreće transformatorsku mrežu), novi okvir za duboko učenje koji kombinira snage konvolucijskih neuronskih mreža (CNN) i transformatora. CNN su klasa neuronskih mreža dizajniranih za obradu podataka nalik mreži, poput slika, korištenjem slojeva filtera koji detektiraju prostorne hijerarhije (npr. rubove, teksture).
Transformatori, izvorno razvijeni za obradu prirodnog jezika, koriste mehanizme samopažnje za modeliranje dugoročnih ovisnosti u podacima, što ih čini vještima u hvatanju globalnih obrazaca. Za razliku od ranijih modela koji sekvencijalno obrađuju lokalne i globalne značajke, CMTNet koristi paralelnu arhitekturu za istovremeno izdvajanje obje vrste informacija.
Ovaj pristup pokazao se vrlo učinkovitim, postižući vrhunsku točnost na tri glavna skupa podataka HSI temeljena na bespilotnim letjelicama. Na primjer, na skupu podataka WHU-Hi-LongKou, CMTNet je postigao ukupnu točnost (OA) od 99.58%, nadmašivši prethodni najbolji model za 0.19%.
Izazovi tradicionalnog hiperspektralnog snimanja u poljoprivrednoj klasifikaciji
Rane metode za analizu hiperspektralnih podataka često su se usredotočivale na spektralne ili prostorne značajke, što je dovodilo do nepotpunih rezultata. Spektralne tehnike, poput analize glavnih komponenti (PCA), smanjile su složenost podataka fokusirajući se na informacije o valnim duljinama, ali su zanemarivale prostorne odnose između piksela.
PCA, na primjer, transformira visokodimenzionalne spektralne podatke u manji broj komponenti koje objašnjavaju najviše varijance, pojednostavljujući analizu. Međutim, ovaj pristup odbacuje prostorni kontekst, poput rasporeda usjeva u polju. Suprotno tome, prostorne metode, poput matematičkih morfoloških operatora, isticale su obrasce u fizičkom rasporedu usjeva, ali su previdjele kritične spektralne detalje.
Matematička morfologija koristi operacije poput dilatacije i erozije za izdvajanje oblika i struktura iz slika, poput granica između polja. Tijekom vremena, konvolucijske neuronske mreže (CNN) poboljšale su klasifikaciju obradom obje vrste podataka.
Međutim, njihova fiksna receptivna polja - područje slike koje mreža može "vidjeti" odjednom - ograničavala su njihovu sposobnost hvatanja dugoročnih ovisnosti. Na primjer, 3D-CNN bi mogao imati poteškoća s razlikovanjem dvije sorte soje sa sličnim spektralnim profilima, ali različitim obrascima rasta na velikom polju.
Transformatori, vrsta neuronske mreže izvorno dizajnirane za obradu prirodnog jezika, ponudili su rješenje za ovaj problem. Korištenjem mehanizama samopažnje, Transformatori se ističu u modeliranju globalnih odnosa u podacima. Samopažnja omogućuje modelu da procijeni važnost različitih dijelova ulaznog niza, omogućujući mu da se usredotoči na relevantna područja (npr. skupinu bolesnih biljaka) dok ignorira šum (npr. sjene oblaka).
Ipak, često propuštaju sitne lokalne detalje, poput rubova lišća ili pukotina u tlu. Hibridni modeli poput CTMixera pokušali su kombinirati CNN-ove i Transformere, ali su to činili sekvencijalno, prvo obrađujući lokalne značajke, a kasnije globalne značajke. Ovaj pristup doveo je do neučinkovite fuzije informacija i neoptimalnih performansi u složenim poljoprivrednim okruženjima.
Kako CMTNet funkcionira: Premošćivanje lokalnih i globalnih značajki
CMTNet prevladava ta ograničenja jedinstvenom trodijelnom arhitekturom dizajniranom za učinkovito izdvajanje i spajanje spektralno-prostornih, lokalnih i globalnih značajki.
1. Prva komponenta, tj. modul za ekstrakciju spektralno-prostornih značajki, obrađuje sirove HSI podatke koristeći 3D i 2D konvolucijske slojeve.
3D konvolucijski slojevi istovremeno analiziraju prostorne (visina × širina) i spektralne (valna duljina) dimenzije, bilježeći uzorke poput refleksije specifičnih valnih duljina preko krošnje usjeva. Na primjer, 3D zrno moglo bi otkriti da zdravi kukuruz reflektira više svjetlosti bliskog infracrvenog zračenja u svojim gornjim listovima u usporedbi s donjim.
2D slojevi zatim pročišćavaju te značajke, fokusirajući se na prostorne detalje poput rasporeda biljaka u polju. Ovaj dvostupanjski proces osigurava očuvanje i spektralne raznolikosti (npr. sadržaja klorofila) i prostornog konteksta (npr. razmaka između redova).
2. Druga komponenta, tj. modul za ekstrakciju lokalnih i globalnih značajki, djeluje paralelno. Jedna grana koristi CNN-ove kako bi se usredotočila na lokalne detalje, poput teksture pojedinačnih listova ili oblika mrlja tla. Ove značajke su ključne za identifikaciju vrsta sa sličnim spektralnim profilima, poput različitih sorti soje.
Druga grana koristi Transformere za modeliranje globalnih odnosa, poput načina na koji su usjevi raspoređeni po velikim područjima ili kako sjene obližnjih stabala utječu na spektralna očitanja. Obradom ovih značajki istovremeno, a ne sekvencijalno, CMTNet izbjegava gubitak informacija koji muči ranije hibridne modele.
Na primjer, dok CNN grana identificira nazubljene rubove listova pamuka, Transformer grana prepoznaje da su ti listovi dio većeg polja pamuka omeđenog biljkama sezama.
3. Treća komponenta, tj. modul ograničenja s više izlaza, osigurava uravnoteženo učenje na lokalnim, globalnim i spojenim značajkama. Tijekom učenja, zasebne funkcije gubitka primjenjuju se na svaku vrstu značajke, prisiljavajući mrežu da pročisti sve aspekte svog razumijevanja.
Funkcija gubitka kvantificira razliku između predviđenih i stvarnih vrijednosti, usmjeravajući prilagodbe modela. Na primjer, gubitak zbog lokalnih značajki mogao bi kažnjavati model zbog pogrešne klasifikacije rubova listova, dok globalni gubitak ispravlja pogreške u raspodjeli usjeva velikih razmjera.
Ti se gubici kombiniraju pomoću težina optimiziranih slučajnim pretraživanjem - tehnikom koja testira različite kombinacije težina kako bi se maksimizirala točnost. Ovaj proces rezultira robusnim i prilagodljivim modelom sposobnim za rukovanje različitim poljoprivrednim scenarijima.
Procjena performansi CMTNet-a na hiperspektralnim skupovima podataka bespilotnih letjelica
Kako bi procijenili CMTNet, istraživači su ga testirali na tri hiperspektralna skupa podataka prikupljena bespilotnim letjelicama sa Sveučilišta u Wuhanu. Ovi skupovi podataka široko su korišteni kao referentni u daljinskom istraživanju zbog svoje visoke kvalitete i raznolikosti:
- WHU-Hi-LongKouOvaj skup podataka pokriva 550 × 400 piksela s 270 spektralnih pojaseva i prostornom rezolucijom od 0,463 metra. Prostorna rezolucija od 0,463 metra znači da svaki piksel predstavlja područje na tlu veličine 0,463 m × 0,463 m, što omogućuje identifikaciju pojedinačnih biljaka. Uključuje devet vrsta usjeva, kao što su kukuruz, pamuk i riža, s 1019 uzoraka za obuku i 203 523 testnih uzoraka.
- WHU-Hi-HanChuanS rezolucijom od 0,109 metara, ovaj skup podataka obuhvaća 16 vrsta pokrova zemljišta, uključujući jagode, soju i plastične folije. Viša rezolucija (0,109 m) omogućuje finije detalje, poput razlikovanja mladih i zrelih biljaka soje. Uzorci za obuku i testiranje ukupno su iznosili 1289 odnosno 256 241.
- WHU-Hi-HongHuS 940 × 475 piksela i 270 pojaseva, ovaj skup podataka visoke rezolucije (0,043 metra) uključuje 22 klase, kao što su klice pamuka, uljane repice i češnjaka. Pri rezoluciji od 0,043 m vidljivi su pojedinačni listovi i pukotine u tlu, što ga čini idealnim za fino granuliranu klasifikaciju. Sadrži 1925 uzoraka za obuku i 384 678 testnih uzoraka.
Model je treniran na NVIDIA TITAN Xp GPU-ima pomoću PyTorcha, sa stopom učenja od 0,001 i veličinom serije od 100. Stopa učenja određuje koliko model prilagođava svoje parametre tijekom treniranja - previsoka je i može premašiti optimalne vrijednosti; preniska je i treniranje postaje sporo.
Svaki je eksperiment ponovljen deset puta kako bi se osigurala pouzdanost, a ulazni dijelovi - mali segmenti cijele slike - optimizirani su na 13 × 13 piksela putem pretraživanja mreže, metode koja testira različite veličine dijelova kako bi se pronašla najučinkovitija.
CMTNet postiže najsuvremeniju točnost u klasifikaciji usjeva
CMTNet je postigao izvanredne rezultate u svim skupovima podataka, nadmašivši postojeće metode i u ukupnoj točnosti (OA) i u performansama specifičnim za klasu. OA mjeri postotak ispravno klasificiranih piksela u svim klasama, dok prosječna točnost (AA) izračunava srednju točnost po klasi, rješavajući neravnoteže.
Na skupu podataka WHU-Hi-LongKou, CMTNet je postigao OA od 99.58%, nadmašivši CTMixer za 0.19%. Za zahtjevne klase s ograničenim podacima za obuku, poput pamuka (41 uzorak), CMTNet je i dalje postigao točnost od 99.53%. Slično tome, na skupu podataka WHU-Hi-HanChuan, poboljšao je točnost za lubenicu (22 uzorka) s 82.42% na 96.11%, pokazujući svoju sposobnost rukovanja neuravnoteženim podacima putem učinkovite fuzije značajki.
Vizualne usporedbe klasifikacijskih karata otkrile su manje fragmentiranih područja i glatkije granice između polja u usporedbi s modelima poput 3D-CNN i Vision Transformer (ViT). Na primjer, u skupu podataka WHU-Hi-HanChuan sklonom sjeni, CMTNet je minimizirao pogreške uzrokovane niskim kutovima sunca, dok je ResNet pogrešno klasificirao soju kao sive krovove.
Sjene predstavljaju jedinstven izazov jer mijenjaju spektralne potpise - biljka soje u sjeni mogla bi reflektirati manje bliske infracrvene svjetlosti, nalikujući nevegetaciji. Iskorištavanjem globalnog konteksta, CMTNet je prepoznao da su te biljke u sjeni dio većeg polja soje, smanjujući pogreške.
Na skupu podataka WHU-Hi-HongHu, model se istaknuo u razlikovanju spektralno sličnih usjeva, poput različitih sorti kupusnjača, postižući točnost od 96.54% za Brassica parachinensis.
Studije ablacije – eksperimenti koji uklanjaju komponente kako bi se procijenio njihov utjecaj – potvrdili su važnost svakog modula. Dodavanje samog modula ograničenja s više izlaza povećalo je OA za 1.52% na WHU-Hi-HongHu, ističući njegovu ulogu u poboljšanju fuzije značajki. Bez ovog modula, lokalne i globalne značajke kombinirale su se nasumično, što je dovelo do nedosljednih klasifikacija.
Računalni kompromisi i praktična razmatranja
Iako je točnost CMTNet-a neusporediva, njegovi računalni troškovi su veći od tradicionalnih metoda. Trening na skupu podataka WHU-Hi-HongHu trajao je 1885 sekundi, u usporedbi sa 74 sekunde za Random Forest (RF), algoritam strojnog učenja koji gradi stabla odlučivanja tijekom treninga.
Međutim, ovaj kompromis je opravdan u preciznoj poljoprivredi, gdje točnost izravno utječe na predviđanja prinosa i raspodjelu resursa. Na primjer, pogrešna klasifikacija oboljelog usjeva kao zdravog mogla bi dovesti do nekontroliranih pojava štetnika, što bi uništilo cijela polja.
Za primjene u stvarnom vremenu, budući rad mogao bi istražiti tehnike kompresije modela, poput obrezivanja redundantnih neurona ili kvantizacije težina (smanjenje numeričke preciznosti), kako bi se smanjilo vrijeme izvođenja bez žrtvovanja performansi. Obrezivanje uklanja manje važne veze iz neuronske mreže, slično obrezivanju grana sa stabla radi poboljšanja njegovog oblika, dok kvantizacija pojednostavljuje numeričke izračune, ubrzavajući obradu.
Budućnost hiperspektralne klasifikacije usjeva s CMTNet-om
Unatoč uspjehu, CMTNet se suočava s ograničenjima. Performanse se neznatno smanjuju u jako zasjenjenim područjima, kao što se vidi u skupu podataka WHU-Hi-HanChuan (97.29% OA u odnosu na 99.58% u dobro osvijetljenom LongKouu). Sjene kompliciraju klasifikaciju jer smanjuju intenzitet reflektirane svjetlosti, mijenjajući spektralne profile.
Osim toga, klase s izuzetno malim uzorcima za učenje, poput uskolisne soje (20 uzoraka), zaostaju za onima s obiljem podataka. Male veličine uzoraka ograničavaju sposobnost modela da uči različite varijacije, poput razlika u obliku lista zbog kvalitete tla.
Buduća istraživanja mogla bi integrirati multimodalne podatke, poput LiDAR karata elevacije ili termalnog snimanja, kako bi se poboljšala otpornost na sjene i okluzije. LiDAR (Light Detection and Ranging - detekcija i određivanje udaljenosti svjetlosti) koristi laserske impulse za stvaranje 3D modela terena, što bi moglo pomoći u razlikovanju usjeva od sjena analizom visinskih razlika.
Štoviše, termalno snimanje bilježi toplinske potpise, pružajući dodatne tragove o zdravlju biljaka - usjevi pod stresom često imaju više temperature krošnje zbog smanjene transpiracije. Tehnike polunadziranog učenja, koje koriste neoznačene podatke (npr. slike bespilotnih letjelica bez ručnih napomena), također bi mogle poboljšati performanse rijetkih vrsta usjeva.
Korištenjem regularizacije konzistentnosti – treniranja modela za stvaranje stabilnih predviđanja na neznatno izmijenjenim verzijama iste slike – istraživači mogu iskoristiti neoznačene podatke kako bi poboljšali generalizaciju.
Konačno, implementacija CMTNet-a na rubnim uređajima, poput dronova opremljenih ugrađenim GPU-ima, mogla bi omogućiti praćenje u stvarnom vremenu na udaljenim poljima. Implementacija na rubu mreže smanjuje ovisnost o računarstvu u oblaku, minimizirajući latenciju i troškove prijenosa podataka. Međutim, to zahtijeva optimizaciju modela za ograničenu memoriju i procesorsku snagu, potencijalno putem laganih arhitektura poput MobileNet-a ili destilacije znanja, gdje manji model "učenika" oponaša veći model "učitelja".
Zaključak
CMTNet predstavlja značajan korak naprijed u hiperspektralnoj klasifikaciji usjeva. Harmonizacijom CNN-ova i Transformera, rješava dugogodišnje izazove u ekstrakciji i fuziji značajki, nudeći poljoprivrednicima i agronomima moćan alat za preciznu poljoprivredu.
Primjene se kreću od otkrivanja bolesti u stvarnom vremenu do optimizacije rasporeda navodnjavanja, a sve je to ključno za održivu poljoprivredu usred klimatskih promjena i rasta stanovništva. Kako tehnologija bespilotnih letjelica postaje sve dostupnija, modeli poput CMTNet-a igrat će ključnu ulogu u globalnoj sigurnosti hrane.
Budući napredak, poput lakših arhitektura i multimodalne fuzije podataka, mogao bi dodatno poboljšati njihovu praktičnost. Uz kontinuirane inovacije, CMTNet bi mogao postati temelj pametnih poljoprivrednih sustava diljem svijeta, osiguravajući učinkovito korištenje zemljišta i otpornu proizvodnju hrane za generacije koje dolaze.
Referenca: Guo, X., Feng, Q. i Guo, F. CMTNet: hibridna CNN-transformatorska mreža za hiperspektralnu klasifikaciju usjeva temeljenu na bespilotnim letjelicama u preciznoj poljoprivredi. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w
Precizna poljoprivreda







