CMTNet annab täppispõllumajandusele uue tähenduse, edestades traditsioonilist põllukultuuride klassifikatsiooni

Täpne põllukultuuride klassifitseerimine on tänapäevase täppispõllumajanduse jaoks hädavajalik, võimaldades põllumeestel jälgida põllukultuuride tervist, prognoosida saagikust ja jaotada ressursse tõhusalt. Traditsioonilised meetodid on aga sageli keerulises põllumajanduskeskkonnas hädas, kus põllukultuurid on väga erinevad tüübi, kasvufaasi ja spektraalsete tunnuste poolest.

Mis on hüperspektraalne pildistamine ja CMTNet raamistik?

Hüperspektraalne pildistamine (HSI), tehnoloogia, mis jäädvustab andmeid sadades kitsastes, külgnevates lainepikkuste vahemikes, on selles valdkonnas muutunud. Erinevalt tavalistest RGB-kaameratest või multispektraalsetest anduritest, mis koguvad andmeid vähestes laiades vahemikes, pakub HSI iga piksli kohta detailset “spektraalset sõrmejälge”.

Näiteks peegeldab terve taimestik klorofülli aktiivsuse tõttu tugevalt lähiinfrapunavalgust, samas kui stressis põllukultuuridel on erinevad neeldumismustrid. Salvestades neid peeneid variatsioone (400 kuni 1000 nanomeetrit) kõrge ruumilise eraldusvõimega (kuni 0,043 meetrit), võimaldab HSI täpselt eristada põllukultuuride liike, tuvastada haigusi ja teha mullaanalüüse.

Vaatamata neile eelistele on olemasolevatel meetoditel keeruline tasakaalustada lokaalseid detaile, nagu lehtede tekstuur või mullamustrid, globaalsete mustritega, näiteks ulatusliku põllukultuuride jaotusega. See piirang ilmneb eriti selgelt mürarikastes või tasakaalustamata andmekogumites, kus põllukultuuride vahelised peened spektraalsed erinevused võivad viia valeklassifikatsioonini.

Nende probleemide lahendamiseks töötasid teadlased välja CMTNet (Convolutional Meets Transformer Network) on uudne süvaõppe raamistik, mis ühendab konvolutsiooniliste närvivõrkude (CNN) ja transformaatorite tugevused. CNN-id on närvivõrkude klass, mis on loodud ruudustikulaadsete andmete, näiteks piltide, töötlemiseks, kasutades filtrite kihte, mis tuvastavad ruumilisi hierarhiaid (nt servad, tekstuurid).

Algselt loomuliku keele töötlemiseks välja töötatud transformaatorid kasutavad andmete pikaajaliste sõltuvuste modelleerimiseks enesetähelepanu mehhanisme, mis muudab nad osavaks globaalsete mustrite jäädvustamisel. Erinevalt varasematest mudelitest, mis töötlevad kohalikke ja globaalseid tunnuseid järjestikku, kasutab CMTNet mõlemat tüüpi teabe samaaegseks ekstraheerimiseks paralleelset arhitektuuri.

See lähenemisviis on osutunud väga tõhusaks, saavutades tipptasemel täpsuse kolme peamise mehitamata õhusõidukitel põhineva HSI-andmestiku puhul. Näiteks WHU-Hi-LongKou andmestikus saavutas CMTNet üldise täpsuse (OA) 99,58%, edestades eelmist parimat mudelit 0,19% võrra.

Traditsioonilise hüperspektraalse pildistamise väljakutsed põllumajanduslikus klassifitseerimises

Varased hüperspektraalsete andmete analüüsimise meetodid keskendusid sageli kas spektraalsetele või ruumilistele tunnustele, mis viis mittetäielike tulemusteni. Spektraalsed tehnikad, näiteks peamine komponentide analüüs (PCA), vähendasid andmete keerukust, keskendudes lainepikkuse teabele, kuid ignoreerisid pikslite vahelisi ruumilisi seoseid.

Näiteks PCA teisendab kõrgmõõtmelised spektraalandmed vähemateks komponentideks, mis selgitavad kõige rohkem dispersiooni, lihtsustades analüüsi. See lähenemisviis aga jätab kõrvale ruumilise konteksti, näiteks põllukultuuride paigutuse. Seevastu ruumilised meetodid, nagu matemaatilised morfoloogiaoperaatorid, tõid esile põllukultuuride füüsilise paigutuse mustreid, kuid jätsid tähelepanuta olulised spektraaldetailid.

Matemaatiline morfoloogia kasutab kujundite ja struktuuride, näiteks väljade vaheliste piiride, eraldamiseks piltidelt selliseid operatsioone nagu dilatatsioon ja erosioon. Aja jooksul on konvolutsioonilised närvivõrgud (CNN-id) mõlemat tüüpi andmete töötlemise abil klassifikatsiooni parandanud.

Siiski piirasid nende fikseeritud retseptiivsed väljad – pildi pindala, mida võrk korraga “näeb” – nende võimet jäädvustada pikaajalisi sõltuvusi. Näiteks võib 3D-CNN-il olla raskusi kahe sojaoa sordi eristamisega, millel on sarnased spektraalprofiilid, kuid erinevad kasvumustrid suurel põllul.

Sellele probleemile pakkus lahenduse algselt loomuliku keele töötlemiseks loodud närvivõrgu tüüp Transformers. Kasutades enesetähelepanu mehhanisme, on Transformers suurepärased andmete globaalsete seoste modelleerimisel. Enesetähelepanu võimaldab mudelil kaaluda sisendjada eri osade olulisust, mis võimaldab tal keskenduda asjakohastele piirkondadele (nt haigete taimede klastritele), ignoreerides samal ajal müra (nt pilvede varjud).

Seotud: Siht-retseptiravimite ja vastavalt rakendatud kaartide erinevuse arvutamine

Siiski jäävad neil sageli märkamata peeneteralised lokaalsed detailid, näiteks lehtede servad või mullapraod. Hübriidmudelid, nagu CTMixer, püüdsid CNN-e ja Transformereid kombineerida, kuid tegid seda järjestikku, töödeldes esmalt lokaalseid tunnuseid ja hiljem globaalseid tunnuseid. See lähenemisviis viis teabe ebaefektiivse ühendamiseni ja optimaalsest madalama jõudluseni keerulistes põllumajanduskeskkondades.

Kuidas CMTNet töötab: kohalike ja globaalsete funktsioonide ühendamine

CMTNet ületab need piirangud ainulaadse kolmeosalise arhitektuuri abil, mis on loodud spektraal-ruumiliste, lokaalsete ja globaalsete tunnuste tõhusaks eraldamiseks ja ühendamiseks.

1. Esimene komponent, spektraal-ruumiliste tunnuste ekstraheerimise moodul, töötleb HSI toorandmeid 3D- ja 2D-konvolutsioonikihtide abil.

3D-konvolutsioonikihid analüüsivad samaaegselt nii ruumilisi (kõrgus × laius) kui ka spektraalseid (lainepikkus) mõõtmeid, jäädvustades mustreid, näiteks teatud lainepikkuste peegeldust põllukultuuri võrastiku kohal. Näiteks võib 3D-tera tuvastada, et terve mais peegeldab oma ülemistes lehtedes rohkem lähiinfrapunavalgust võrreldes alumiste lehtedega.

Seejärel täpsustavad 2D-kihid neid omadusi, keskendudes ruumilistele detailidele, näiteks taimede paigutusele põllul. See kaheastmeline protsess tagab nii spektraalse mitmekesisuse (nt klorofülli sisaldus) kui ka ruumilise konteksti (nt reavahe) säilimise.

2. Teine komponent, lokaalse-globaalse tunnuste ekstraheerimise moodul, töötab paralleelselt. Üks haru kasutab CNN-e, et keskenduda kohalikele detailidele, näiteks üksikute lehtede tekstuurile või mullalaikude kujule. Need tunnused on kriitilise tähtsusega sarnaste spektraalprofiilidega liikide, näiteks erinevate sojaoa sortide tuvastamiseks.

Teine haru kasutab transformaatoreid globaalsete suhete modelleerimiseks, näiteks kuidas põllukultuurid on suurtel aladel jaotunud või kuidas lähedalasuvate puude varjud mõjutavad spektraalnäiteid. Nende tunnuste samaaegse, mitte järjestikku töötlemise abil välditakse CMTNet infokadu, mis vaevas varasemaid hübriidmudeleid.

Näiteks kui CNN haru tuvastab puuvillalehtede sakilised servad, siis Transformeri haru tunnistab, et need lehed on osa suuremast puuvillapõllust, mida ääristavad seesamitaimed.

3. Kolmas komponent, mitme väljundiga piirangumoodul, tagab tasakaalustatud õppimise kohalike, globaalsete ja ühendatud tunnuste vahel. Treeningu ajal rakendatakse igale tunnusetüübile eraldi kadufunktsioone, sundides võrku oma arusaama kõiki aspekte täpsustama.

Kadumisfunktsioon kvantifitseerib ennustatud ja tegelike väärtuste erinevust, suunates mudeli kohandusi. Näiteks kohalike tunnuste kadu võib mudelit karistada lehtede servade vale klassifitseerimise eest, samas kui globaalne kadu korrigeerib vigu ulatuslikus saagi jaotuses.

Need kaod kombineeritakse, kasutades kaalusid, mis on optimeeritud juhusliku otsingu abil – see on tehnika, mis testib erinevaid kaalukombinatsioone täpsuse maksimeerimiseks. Selle protsessi tulemuseks on robustne ja kohandatav mudel, mis on võimeline toime tulema mitmesuguste põllumajanduslike stsenaariumidega.

CMTNeti jõudluse hindamine mehitamata õhusõidukite hüperspektraalsetes andmekogumites

CMTNeti hindamiseks testisid teadlased seda kolmel Wuhani ülikooli droonide abil saadud hüperspektraalsel andmekogumil. Need andmekogumid on oma kõrge kvaliteedi ja mitmekesisuse tõttu laialdaselt kasutatavad võrdlusalused kaugseires:

WHU-Tere-LongKouSee andmestik hõlmab 550 × 400 pikslit 270 spektraalribaga ja ruumilise eraldusvõimega 0,463 meetrit. Ruumiline eraldusvõime 0,463 meetrit tähendab, et iga piksel esindab maapinnal 0,463 m × 0,463 m suurust ala, mis võimaldab tuvastada üksikuid taimi. See hõlmab üheksat põllukultuuri tüüpi, näiteks maisi, puuvilla ja riisi, 1019 treeningvalimi ja 203 523 testvalimiga.
WHU-Tere-HanChuanSee andmestik, mis jäädvustab 1217 × 303 pikslit 0,109-meetrise resolutsiooniga, sisaldab 16 maakattetüüpi, sealhulgas maasikaid, sojaubasid ja plastlehti. Kõrgem resolutsioon (0,109 m) võimaldab peenemaid detaile, näiteks noorte ja küpsete sojaoataimede eristamist. Treening- ja testvalimit oli kokku vastavalt 1289 ja 256 241.
WHU-Tere-HongHu940 × 475 piksli ja 270 ribaga see kõrge eraldusvõimega (0,043 meetrit) andmestik sisaldab 22 klassi, näiteks puuvilla, rapsi ja küüslaugu võrseid. 0,043 m eraldusvõimega on nähtavad üksikud lehed ja mullapraod, mis teeb selle ideaalseks peeneteraliseks klassifitseerimiseks. See sisaldab 1925 treeningnäidist ja 384 678 testnäidist.

Seotud: Kuidas saab täppispõllumajanduse modelleerimine optimeerida tavasid?

Mudelit treeniti NVIDIA TITAN Xp GPU-del, kasutades PyTorchi, õppimiskiirusega 0,001 ja partii suurusega 100. Õppimiskiirus määrab, kui palju mudel oma parameetreid treeningu ajal kohandab – liiga kõrge ja see võib ületada optimaalseid väärtusi; liiga madal ja treenimine muutub aeglaseks.

Iga katset korrati usaldusväärsuse tagamiseks kümme korda ja sisendlaigud – väikesed segmendid kogu pildist – optimeeriti ruudustikuotsingu abil 13 × 13 pikslini, mis on meetod, mis testib erinevaid laigu suurusi, et leida kõige tõhusam.

CMTNet saavutab põllukultuuride klassifitseerimisel tipptasemel täpsuse

CMTNet saavutas kõigides andmekogumites märkimisväärseid tulemusi, edestades olemasolevaid meetodeid nii üldise täpsuse (OA) kui ka klassispetsiifilise jõudluse osas. OA mõõdab õigesti klassifitseeritud pikslite protsenti kõigis klassides, samas kui keskmine täpsus (AA) arvutab keskmise täpsuse klassi kohta, käsitledes tasakaalustamatust.

WHU-Hi-LongKou andmestikus saavutas CMTNet OA-ks 99,58%, edestades CTMixerit 0,19% võrra. Piiratud treeningandmetega keerukate klasside, näiteks puuvilla (41 näidist), puhul saavutas CMTNet siiski täpsuse 99,53%. Samamoodi parandas see WHU-Hi-HanChuani andmestikus arbuusi (22 näidist) täpsust 82,42%-lt 96,11%-le, näidates oma võimet käsitleda tasakaalustamata andmeid tõhusa tunnuste liitmise abil.

Klassifikatsioonikaartide visuaalsel võrdlemisel ilmnes vähem fragmenteeritud laike ja sujuvamad piirid põldude vahel võrreldes selliste mudelitega nagu 3D-CNN ja Vision Transformer (ViT). Näiteks varjudele kalduvas WHU-Hi-HanChuani andmestikus minimeeris CMTNet madala päikesenurga põhjustatud vigu, samas kui ResNet klassifitseeris sojaoad valesti hallideks katusteks.

Varjud kujutavad endast ainulaadset väljakutset, kuna need muudavad spektraalseid signatuure – varjus olev sojaoa taim võib peegeldada vähem lähiinfrapunavalgust, mis meenutab taimestikku mitte. Kasutades ära globaalset konteksti, tuvastas CMTNet, et need varjutatud taimed olid osa suuremast sojaoa põllust, vähendades vigu.

WHU-Hi-HongHu andmestikus eristus mudel spektraalselt sarnaste põllukultuuride, näiteks erinevate ristõieliste sortide, abil, saavutades täpsuse 96,54%. Brassica parachinensis.

Ablatsiooniuuringud – katsed, mille käigus eemaldatakse komponente nende mõju hindamiseks – kinnitasid iga mooduli olulisust. Ainult mitme väljundiga piirangumooduli lisamine suurendas OA-d WHU-Hi-HongHu-l 1,52% võrra, rõhutades selle rolli tunnuste liitmise täiustamisel. Ilma selle moodulita kombineeriti lokaalseid ja globaalseid tunnuseid juhuslikult, mis viis ebajärjekindlate klassifikatsioonideni.

Arvutuslikud kompromissid ja praktilised kaalutlused

Kuigi CMTNeti täpsus on võrratu, on selle arvutuskulud traditsiooniliste meetodite omadest suuremad. WHU-Hi-HongHu andmestiku treenimine võttis aega 1885 sekundit, võrreldes 74 sekundiga Random Foresti (RF) puhul, mis on masinõppe algoritm, mis loob treeningu ajal otsustuspuid.

See kompromiss on aga õigustatud täppispõllumajanduses, kus täpsus mõjutab otseselt saagikuse prognoose ja ressursside jaotust. Näiteks haige saagi vale liigitamine terveks võib viia kontrollimatute kahjurite puhanguteni, mis laastavad terveid põlde.

Seotud: Säästva põllumajanduse majandusliku mõju visualiseerimine GeoPardi abil täppispõllumajanduses

Reaalajas rakenduste puhul võiks tulevikus uurida mudeli tihendamise tehnikaid, näiteks redundantsete neuronite kärpimist või kaalude kvantimist (numbrilise täpsuse vähendamine), et vähendada käitusaega ilma jõudlust ohverdamata. Kärpimine eemaldab närvivõrgust vähem olulised ühendused, mis sarnaneb puu okste kärpimisega selle kuju parandamiseks, samas kui kvantimine lihtsustab numbrilisi arvutusi, kiirendades töötlemist.

Hüperspektraalse põllukultuuride klassifitseerimise tulevik CMTNetiga

Vaatamata edule on CMTNetil piiranguid. Jõudlus langeb veidi tugevalt varjutatud piirkondades, nagu on näha WHU-Hi-HanChuani andmestikus (97.29% OA vs. 99.58% hästi valgustatud LongKou piirkonnas). Varjud raskendavad klassifitseerimist, kuna need vähendavad peegeldunud valguse intensiivsust, muutes spektraalprofiile.

Lisaks jäävad äärmiselt väikeste treeningvalimistega klassid, näiteks kitsalehise sojauba (20 valimit), maha neist, millel on palju andmeid. Väikesed valimimahud piiravad mudeli võimet õppida tundma mitmesuguseid variatsioone, näiteks lehtede kuju erinevusi mulla kvaliteedi tõttu.

Edasised uuringud võiksid varjude ja varjatud alade vastupidavuse parandamiseks integreerida multimodaalseid andmeid, näiteks LiDAR-kõrguskaarte või termokaameraid. LiDAR (valguse tuvastamine ja kauguse määramine) kasutab laserimpulsse 3D-maastikumudelite loomiseks, mis aitavad kõrguste erinevuste analüüsimise abil eristada põllukultuure varjudest.

Lisaks jäädvustab termokaamera soojussignaale, mis annab täiendavaid vihjeid taimetervise kohta – stressis põllukultuuridel on sageli kõrgem võra temperatuur vähenenud aurustumise tõttu. Pooljärelevalvega õppemeetodid, mis kasutavad märgistamata andmeid (nt mehitamata õhusõidukite pildid ilma käsitsi märkusteta), võivad samuti haruldaste põllukultuuride puhul tulemusi parandada.

Järjepidevuse regulariseerimise abil – mudeli treenimisega stabiilsete ennustuste saamiseks sama pildi veidi muudetud versioonide puhul – saavad teadlased üldistamise parandamiseks kasutada märgistamata andmeid.

Lõpuks, CMTNeti juurutamine serval asuvatesse seadmetesse, näiteks sisseehitatud GPU-dega droonidesse, võiks võimaldada reaalajas jälgimist kaugtööplatsidel. Serval juurutamine vähendab sõltuvust pilvandmetöötlusest, minimeerides latentsust ja andmeedastuskulusid. See aga nõuab mudeli optimeerimist piiratud mälu ja töötlemisvõimsuse jaoks, potentsiaalselt kergete arhitektuuride, näiteks MobileNeti või teadmiste destilleerimise kaudu, kus väiksem “õpilase” mudel jäljendab suuremat “õpetaja” mudelit.

Kokkuvõte

CMTNet kujutab endast märkimisväärset edasiminekut hüperspektraalse põllukultuuride klassifitseerimises. CNN-ide ja Transformerite ühtlustamise abil lahendab see pikaajalised väljakutsed tunnuste eraldamise ja liitmisega, pakkudes põllumeestele ja agronoomidele võimsat tööriista täppispõllumajanduse jaoks.

Rakendused ulatuvad haiguste reaalajas tuvastamisest kuni niisutusgraafikute optimeerimiseni, mis kõik on kliimamuutuste ja rahvastiku kasvu tingimustes jätkusuutliku põllumajanduse jaoks kriitilise tähtsusega. Kuna mehitamata õhusõidukite tehnoloogia muutub kättesaadavamaks, mängivad sellised mudelid nagu CMTNet ülemaailmse toiduga kindlustatuse tagamisel keskset rolli.

Tulevased edusammud, näiteks kergemad arhitektuurid ja multimodaalne andmete fusioon, võiksid nende praktilisust veelgi suurendada. Jätkuva innovatsiooniga võiks CMTNetist saada nutikate põllumajandussüsteemide nurgakivi kogu maailmas, tagades tõhusa maakasutuse ja vastupidava toidutootmise tulevastele põlvedele.

Viide: Guo, X., Feng, Q. ja Guo, F. CMTNet: hübriidne CNN-transformaatorvõrk mehitamata õhusõidukite (UAV) baasil toimivaks hüperspektraalseks põllukultuuride klassifitseerimiseks täppispõllumajanduses. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w