CMTNet na novo opredeljuje precizno kmetijstvo s preseganjem tradicionalne klasifikacije poljščin

Natančna klasifikacija pridelkov je bistvenega pomena za sodobno precizno kmetijstvo, saj kmetom omogoča spremljanje zdravja pridelkov, napovedovanje pridelkov in učinkovito razporejanje virov. Vendar pa se tradicionalne metode pogosto spopadajo s kompleksnostjo kmetijskih okolij, kjer se pridelki zelo razlikujejo po vrsti, rastnih fazah in spektralnih podpisih.

Kaj je hiperspektralno slikanje in ogrodje CMTNet?

Hiperspektralno slikanje (HSI), tehnologija, ki zajema podatke v stotinah ozkih, sosednjih valovnih pasovih, je na tem področju spremenila pravila igre. Za razliko od standardnih RGB kamer ali multispektralnih senzorjev, ki zbirajo podatke v nekaj širokih pasovih, HSI zagotavlja podroben “spektralni prstni odtis” za vsak slikovni pik.

Na primer, zdrava vegetacija močno odbija svetlobo bližnjega infrardečega sevanja zaradi aktivnosti klorofila, medtem ko obremenjeni pridelki kažejo izrazite absorpcijske vzorce. Z beleženjem teh subtilnih variacij (od 400 do 1000 nanometrov) pri visokih prostorskih ločljivostih (do 0,043 metra) HSI omogoča natančno razlikovanje vrst pridelkov, odkrivanje bolezni in analizo tal.

Kljub tem prednostim se obstoječe tehnike soočajo z izzivi pri uravnoteženju lokalnih podrobnosti, kot so tekstura listov ali vzorci tal, z globalnimi vzorci, kot je porazdelitev poljščin v velikem obsegu. Ta omejitev postane še posebej očitna v šumnih ali neuravnoteženih naborih podatkov, kjer lahko subtilne spektralne razlike med poljščinami vodijo do napačnih klasifikacij.

Za reševanje teh izzivov so raziskovalci razvili CMTNet (Konvolucijsko sreča transformatorsko omrežje), nov okvir za globoko učenje, ki združuje prednosti konvolucijskih nevronskih mrež (CNN) in transformatorjev. CNN so razred nevronskih mrež, zasnovanih za obdelavo mrežnih podatkov, kot so slike, z uporabo plasti filtrov, ki zaznavajo prostorske hierarhije (npr. robove, teksture).

Transformatorji, prvotno razviti za obdelavo naravnega jezika, uporabljajo mehanizme samopozornosti za modeliranje dolgoročnih odvisnosti v podatkih, zaradi česar so spretni pri zajemanju globalnih vzorcev. Za razliko od prejšnjih modelov, ki so lokalne in globalne značilnosti obdelovali zaporedno, CMTNet uporablja vzporedno arhitekturo za hkratno pridobivanje obeh vrst informacij.

Ta pristop se je izkazal za zelo učinkovitega, saj je dosegel najsodobnejšo natančnost na treh glavnih naborih podatkov HSI, ki temeljijo na brezpilotnih letalnikih. Na primer, na naboru podatkov WHU-Hi-LongKou je CMTNet dosegel skupno natančnost (OA) 99,58%, kar je za 0,19% več od prejšnjega najboljšega modela.

Izzivi tradicionalnega hiperspektralnega slikanja v kmetijski klasifikaciji

Zgodnje metode za analizo hiperspektralnih podatkov so se pogosto osredotočale na spektralne ali prostorske značilnosti, kar je vodilo do nepopolnih rezultatov. Spektralne tehnike, kot je analiza glavnih komponent (PCA), so zmanjšale kompleksnost podatkov s poudarkom na informacijah o valovnih dolžinah, vendar so prezrle prostorske odnose med slikovnimi pikami.

PCA na primer pretvori visokodimenzionalne spektralne podatke v manj komponent, ki pojasnjujejo največ variance, kar poenostavi analizo. Vendar pa ta pristop zavrže prostorski kontekst, kot je razporeditev poljščin na polju. Nasprotno pa so prostorske metode, kot so operatorji matematične morfologije, izpostavile vzorce v fizični razporeditvi poljščin, vendar so spregledale kritične spektralne podrobnosti.

Matematična morfologija uporablja operacije, kot sta dilatacija in erozija, za ekstrakcijo oblik in struktur iz slik, kot so meje med polji. Sčasoma so konvolucijske nevronske mreže (CNN) izboljšale klasifikacijo z obdelavo obeh vrst podatkov.

Vendar pa so njihova fiksna receptivna polja – območje slike, ki ga omrežje lahko “vidi” hkrati – omejevala njihovo sposobnost zajemanja dolgoročnih odvisnosti. 3D-CNN bi lahko na primer imel težave z razlikovanjem med dvema sortama soje s podobnimi spektralnimi profili, vendar različnimi vzorci rasti na velikem polju.

Transformatorji, vrsta nevronske mreže, prvotno zasnovane za obdelavo naravnega jezika, so ponudili rešitev za ta problem. Z uporabo mehanizmov samopozornosti se transformatorji odlično znajdejo pri modeliranju globalnih odnosov v podatkih. Samopozornost omogoča modelu, da pretehta pomen različnih delov vhodnega zaporedja, kar mu omogoča, da se osredotoči na ustrezna območja (npr. skupino obolelih rastlin), hkrati pa ignorira šum (npr. sence oblakov).

Sorodno: Uporaba obrezanih rastrskih podatkov za agroživilsko dejavnost

Vendar pogosto spregledajo drobne lokalne podrobnosti, kot so robovi listov ali razpoke v tleh. Hibridni modeli, kot je CTMixer, so poskušali združiti CNN in Transformerje, vendar so to storili zaporedno, najprej so obdelovali lokalne značilnosti, nato pa globalne. Ta pristop je privedel do neučinkovitega združevanja informacij in neoptimalne učinkovitosti v kompleksnih kmetijskih okoljih.

Kako deluje CMTNet: Premostitev lokalnih in globalnih funkcij

CMTNet premaga te omejitve z edinstveno tridelno arhitekturo, zasnovano za učinkovito ekstrakcijo in združevanje spektralno-prostorskih, lokalnih in globalnih značilnosti.

1. Prva komponenta, tj. modul za spektralno-prostorsko ekstrakcijo značilnosti, obdeluje surove HSI podatke z uporabo 3D in 2D konvolucijskih plasti.

3D konvolucijske plasti hkrati analizirajo prostorske (višina × širina) in spektralne (valovna dolžina) dimenzije ter zajamejo vzorce, kot je odbojnost določenih valovnih dolžin po krošnji poljščine. 3D zrno lahko na primer zazna, da zdrava koruza v zgornjih listih odbija več svetlobe bližnjega infrardečega sevanja v primerjavi s spodnjimi.

2D-plasti nato izpopolnijo te značilnosti, s poudarkom na prostorskih podrobnostih, kot je razporeditev rastlin na polju. Ta dvostopenjski postopek zagotavlja ohranitev tako spektralne raznolikosti (npr. vsebnosti klorofila) kot prostorskega konteksta (npr. razmika med vrstami).

2. Druga komponenta, tj. modul za lokalno-globalno ekstrakcijo značilnosti, deluje vzporedno. Ena veja uporablja CNN za osredotočanje na lokalne podrobnosti, kot so tekstura posameznih listov ali oblika talnih madežev. Te značilnosti so ključne za prepoznavanje vrst s podobnimi spektralnimi profili, kot so različne sorte soje.

Druga veja uporablja transformatorje za modeliranje globalnih odnosov, kot je na primer porazdelitev pridelkov po velikih območjih ali vpliv senc bližnjih dreves na spektralne odčitke. Z obdelavo teh značilnosti hkrati in ne zaporedno se CMTNet izogne izgubi informacij, ki pesti prejšnje hibridne modele.

Na primer, medtem ko veja CNN prepozna nazobčane robove bombažnih listov, veja Transformer prepozna, da so ti listi del večjega bombažnega polja, ki ga obrobljajo sezamove rastline.

3. Tretja komponenta, tj. modul za omejitve z več izhodi, zagotavlja uravnoteženo učenje med lokalnimi, globalnimi in združenimi značilkami. Med učenjem se za vsako vrsto značilke uporabijo ločene funkcije izgub, kar omrežje sili k izpopolnjevanju vseh vidikov svojega razumevanja.

Funkcija izgube kvantificira razliko med napovedanimi in dejanskimi vrednostmi ter usmerja prilagoditve modela. Na primer, izguba zaradi lokalnih značilnosti lahko kaznuje model zaradi napačne klasifikacije robov listov, medtem ko globalna izguba popravlja napake pri porazdelitvi pridelka v velikem obsegu.

Te izgube se združujejo z uporabo uteži, optimiziranih z naključnim iskanjem – tehniko, ki preizkuša različne kombinacije uteži za povečanje natančnosti. Ta postopek ima za posledico robusten in prilagodljiv model, ki je sposoben obravnavati različne kmetijske scenarije.

Vrednotenje delovanja CMTNet na hiperspektralnih naborih podatkov brezpilotnih letalnikov

Za oceno CMTNet so raziskovalci preizkusili tri hiperspektralne podatkovne nize, pridobljene z brezpilotnimi letalniki (UAV) z Univerze v Wuhanu. Ti podatkovni nizi so zaradi svoje visoke kakovosti in raznolikosti pogosto uporabljeni kot merila v daljinskem zaznavanju:

WHU-Hi-LongKouTa nabor podatkov zajema 550 × 400 slikovnih pik z 270 spektralnimi pasovi in prostorsko ločljivostjo 0,463 metra. Prostorska ločljivost 0,463 metra pomeni, da vsaka slikovna pika predstavlja površino na tleh velikosti 0,463 m × 0,463 m, kar omogoča identifikacijo posameznih rastlin. Vključuje devet vrst poljščin, kot so koruza, bombaž in riž, z 1019 učnimi vzorci in 203.523 testnimi vzorci.
WHU-Hi-HanChuanTa nabor podatkov, ki zajema 1.217 × 303 slikovnih pik pri ločljivosti 0,109 metra, vsebuje 16 tipov pokrovnosti tal, vključno z jagodami, sojo in plastičnimi ploščami. Višja ločljivost (0,109 m) omogoča natančnejše podrobnosti, kot je razlikovanje med mladimi in zrelimi rastlinami soje. Skupno število učnih in testnih vzorcev je znašalo 1.289 oziroma 256.241.
WHU-Hi-HongHuZ ločljivostjo 940 × 475 slikovnih pik in 270 pasovi ta nabor podatkov z visoko ločljivostjo (0,043 metra) vključuje 22 razredov, kot so kalčki bombaža, oljne repice in česna. Pri ločljivosti 0,043 m so vidni posamezni listi in razpoke v tleh, zaradi česar je idealen za drobnozrnato klasifikacijo. Vsebuje 1925 učnih vzorcev in 384.678 testnih vzorcev.

Sorodno: Primerjava slojev

Model je bil usposobljen na grafičnih procesorjih NVIDIA TITAN Xp z uporabo PyTorcha, s stopnjo učenja 0,001 in velikostjo serije 100. Stopnja učenja določa, koliko model med učenjem prilagodi svoje parametre – previsoka lahko preseže optimalne vrednosti, prenizka pa postane učenje počasno.

Vsak poskus je bil ponovljen desetkrat, da se zagotovi zanesljivost, vhodni deli – majhni segmenti celotne slike – pa so bili optimizirani na 13 × 13 slikovnih pik z iskanjem po mreži, metodo, ki preizkuša različne velikosti delov, da bi našla najučinkovitejšo.

CMTNet dosega najsodobnejšo natančnost pri razvrščanju poljščin

CMTNet je dosegel izjemne rezultate v vseh naborih podatkov in presegel obstoječe metode tako v splošni natančnosti (OA) kot v učinkovitosti, specifični za razred. OA meri odstotek pravilno razvrščenih slikovnih pik v vseh razredih, medtem ko povprečna natančnost (AA) izračuna povprečno natančnost na razred in tako odpravlja neravnovesja.

Na naboru podatkov WHU-Hi-LongKou je CMTNet dosegel OA 99,58%, s čimer je za 0,19% presegel CTMixer. Pri zahtevnih razredih z omejenimi učnimi podatki, kot je bombaž (41 vzorcev), je CMTNet še vedno dosegel natančnost 99,53%. Podobno je na naboru podatkov WHU-Hi-HanChuan izboljšal natančnost za lubenico (22 vzorcev) z 82,42% na 96,11%, kar dokazuje njegovo sposobnost obvladovanja neuravnoteženih podatkov z učinkovitim združevanjem značilnosti.

Vizualne primerjave klasifikacijskih zemljevidov so pokazale manj fragmentiranih zaplat in bolj gladke meje med polji v primerjavi z modeli, kot sta 3D-CNN in Vision Transformer (ViT). Na primer, v naboru podatkov WHU-Hi-HanChuan, ki je nagnjen k senci, je CMTNet zmanjšal napake, ki jih povzročajo nizki koti sonca, medtem ko je ResNet sojo napačno razvrstil kot sive strehe.

Sence predstavljajo edinstven izziv, saj spreminjajo spektralne podpise – rastlina soje v senci lahko odbija manj bližnje infrardeče svetlobe, kar spominja na nevegetacijo. Z izkoriščanjem globalnega konteksta je CMTNet prepoznal, da so te rastline v senci del večjega polja soje, kar je zmanjšalo napake.

Na naboru podatkov WHU-Hi-HongHu se je model odlično izkazal pri razlikovanju spektralno podobnih poljščin, kot so različne sorte križnic, in dosegel natančnost 96,54% za Brassica parachinensis.

Študije ablacije – poskusi, ki odstranijo komponente za oceno njihovega vpliva – so potrdile pomembnost vsakega modula. Že samo dodajanje modula z večizhodnimi omejitvami je povečalo OA za 1,52% na WHU-Hi-HongHu, kar je poudarilo njegovo vlogo pri izpopolnjevanju združevanja značilnosti. Brez tega modula so bile lokalne in globalne značilnosti kombinirane naključno, kar je vodilo do nedoslednih klasifikacij.

Računalniški kompromisi in praktični vidiki

Čeprav je natančnost CMTNet neprekosljiva, so njegovi računski stroški višji od tradicionalnih metod. Usposabljanje na naboru podatkov WHU-Hi-HongHu je trajalo 1885 sekund, v primerjavi s 74 sekundami za Random Forest (RF), algoritem strojnega učenja, ki med učenjem gradi odločitvena drevesa.

Vendar je ta kompromis upravičen v preciznem kmetijstvu, kjer natančnost neposredno vpliva na napovedi pridelka in dodelitev virov. Na primer, napačna razvrstitev obolelega pridelka kot zdravega lahko povzroči nenadzorovane izbruhe škodljivcev, ki opustošijo cela polja.

Sorodno: Natančno kmetijstvo - osnove, delovanje, prednosti

Za aplikacije v realnem času bi lahko v prihodnje raziskovali tehnike stiskanja modelov, kot sta obrezovanje odvečnih nevronov ali kvantizacija uteži (zmanjšanje numerične natančnosti), da bi skrajšali čas izvajanja brez žrtvovanja zmogljivosti. Obrezovanje odstrani manj pomembne povezave iz nevronske mreže, podobno kot obrezovanje vej z drevesa za izboljšanje njegove oblike, medtem ko kvantizacija poenostavi numerične izračune in pospeši obdelavo.

Prihodnost hiperspektralne klasifikacije poljščin s CMTNet

Kljub uspehu se CMTNet sooča z omejitvami. Zmogljivost se nekoliko zmanjša v močno zasenčenih območjih, kot je razvidno iz nabora podatkov WHU-Hi-HanChuan (97.29% OA v primerjavi z 99.58% v dobro osvetljenem LongKouu). Sence otežujejo klasifikacijo, ker zmanjšujejo intenzivnost odbite svetlobe in spreminjajo spektralne profile.

Poleg tega razredi z izjemno majhnimi vzorci za učenje, kot je ozkolistna soja (20 vzorcev), zaostajajo za tistimi z obilico podatkov. Majhne velikosti vzorcev omejujejo sposobnost modela, da se uči različnih variacij, kot so razlike v obliki listov zaradi kakovosti tal.

Prihodnje raziskave bi lahko vključile multimodalne podatke, kot so LiDAR-jevi zemljevidi višin ali termovizijsko slikanje, za izboljšanje odpornosti na sence in okluzije. LiDAR (Light Detection and Ranging) uporablja laserske impulze za ustvarjanje 3D-modelov terena, ki bi lahko pomagali razlikovati poljščine od senc z analizo višinskih razlik.

Poleg tega termovizijsko slikanje zajame toplotne podpise, kar zagotavlja dodatne namige o zdravju rastlin – posevki, ki so pod stresom, imajo pogosto višje temperature krošnje zaradi zmanjšane transpiracije. Tehnike delno nadzorovanega učenja, ki izkoriščajo neoznačene podatke (npr. slike brez ročnih opomb), lahko izboljšajo tudi učinkovitost pri redkih vrstah poljščin.

Z uporabo regularizacije konsistentnosti – usposabljanjem modela za ustvarjanje stabilnih napovedi na nekoliko spremenjenih različicah iste slike – lahko raziskovalci izkoristijo neoznačene podatke za izboljšanje posplošitve.

Končno bi lahko namestitev CMTNeta na robne naprave, kot so droni, opremljeni z vgrajenimi grafičnimi procesorji, omogočila spremljanje v realnem času na oddaljenih področjih. Uvedba na robu zmanjšuje odvisnost od računalništva v oblaku, kar zmanjšuje zakasnitev in stroške prenosa podatkov. Vendar pa to zahteva optimizacijo modela za omejen pomnilnik in procesorsko moč, potencialno z lahkimi arhitekturami, kot sta MobileNet ali destilacija znanja, kjer manjši model “učenca” posnema večji model “učitelja”.

Zaključek

CMTNet predstavlja pomemben korak naprej pri hiperspektralni klasifikaciji poljščin. Z uskladitvijo CNN in transformatorjev obravnava dolgotrajne izzive pri ekstrakciji in fuziji značilnosti ter kmetom in agronomom ponuja močno orodje za precizno kmetijstvo.

Uporaba segajo od odkrivanja bolezni v realnem času do optimizacije namakalnih urnikov, kar je vse ključnega pomena za trajnostno kmetijstvo sredi podnebnih sprememb in rasti prebivalstva. Ker bo tehnologija brezpilotnih letalnikov postala bolj dostopna, bodo modeli, kot je CMTNet, igrali ključno vlogo pri svetovni prehranski varnosti.

Prihodnji napredek, kot so lažje arhitekture in multimodalno združevanje podatkov, bi lahko še izboljšal njihovo praktičnost. Z nadaljnjimi inovacijami bi lahko CMTNet postal temelj pametnih kmetijskih sistemov po vsem svetu, kar bi zagotavljalo učinkovito rabo zemljišč in odporno proizvodnjo hrane za prihodnje generacije.

Referenca: Guo, X., Feng, Q. in Guo, F. CMTNet: hibridno omrežje CNN-transformator za hiperspektralno klasifikacijo poljščin na osnovi brezpilotnih letalnikov v preciznem kmetijstvu. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w