Miežu audzēšana iegūst impulsu ar vieglo YOLOv5 noteikšanu

Kalnu mieži, izturīga labības kultūra, ko audzē Ķīnas Cjinhai-Tibetas plato augstkalnu reģionos, spēlē būtisku lomu vietējā pārtikas nodrošinājumā un ekonomiskajā stabilitātē. Zinātniski pazīstami kā Hordeum vulgare L., šī kultūra zeļ ekstremālos apstākļos — retinātā gaisā, zemā skābekļa līmenī un gada vidējā temperatūrā 6,3 °C —, padarot to neaizstājamu kopienām skarbos apstākļos.

Ķīnā, galvenokārt Sjidzanas autonomajā reģionā, audzēšanai atvēlēti vairāk nekā 270 000 hektāru, un augstienes mieži veido vairāk nekā pusi no reģiona sētās platības un vairāk nekā 701 TP3T no kopējās graudu produkcijas. Precīza miežu blīvuma — augu vai vārpu skaita uz platības vienību — uzraudzība ir būtiska, lai optimizētu lauksaimniecības praksi, piemēram, apūdeņošanu un mēslošanu, kā arī prognozētu ražu.

Tomēr tradicionālās metodes, piemēram, manuāla paraugu ņemšana vai satelītattēlu veidošana, ir izrādījušās neefektīvas, darbietilpīgas vai nepietiekami detalizētas. Lai risinātu šīs problēmas, Fudžianas Lauksaimniecības un mežsaimniecības universitātes un Čendu Tehnoloģiju universitātes pētnieki izstrādāja inovatīvu mākslīgā intelekta modeli, kura pamatā ir YOLOv5 — progresīvs objektu noteikšanas algoritms.

Viņu darbs, kas publicēts Augu metodes (2025) sasniedza ievērojamus rezultātus, tostarp vidējo precizitāti (mAP) par 93,1% — rādītāju, kas mēra kopējo noteikšanas precizitāti — un skaitļošanas izmaksu samazinājumu par 75,6%, padarot to piemērotu dronu izvietošanai reāllaikā.

Izaicinājumi un inovācijas kultūraugu uzraudzībā

Kalnu miežu nozīme sniedzas tālāk par to lomu kā pārtikas avotam. Vienīgi 2022. gadā Rikazes pilsētā, kas ir nozīmīgs miežu ražošanas reģions, 60 000 hektāru platībā tika novāktas 408 900 tonnas miežu, kas veidoja gandrīz pusi no Tibetas kopējās graudu produkcijas.

Neskatoties uz miežu kultūras un ekonomisko nozīmi, ražas novērtēšana jau sen ir bijusi sarežģīta. Tradicionālās metodes, piemēram, manuāla skaitīšana vai satelītattēli, ir vai nu pārāk darbietilpīgas, vai arī tām trūkst izšķirtspējas, kas nepieciešama, lai noteiktu atsevišķas miežu vārpas — auga graudus nesošo daļu, kas bieži vien ir tikai 2–3 centimetrus platas.

Manuāla paraugu ņemšana prasa lauksaimniekiem fiziski pārbaudīt lauka daļas — process, kas ir lēns, subjektīvs un nepraktisks liela mēroga saimniecībām. Satelītattēli, lai gan noderīgi plašiem novērojumiem, ir sarežģīti ar zemu izšķirtspēju (bieži vien 10–30 metri uz pikseli) un biežiem laikapstākļu traucējumiem, piemēram, mākoņu segu kalnu reģionos, piemēram, Tibetā.

Lai pārvarētu šos ierobežojumus, pētnieki pievērsās bezpilota lidaparātiem (UAV) jeb droniem, kas aprīkoti ar 20 megapikseļu kamerām. Šie droni uzņēma 501 augstas izšķirtspējas miežu lauku attēlu Rikazes pilsētā divos kritiskos augšanas posmos: augšanas posmā 2022. gada augustā, kam raksturīgas zaļas, augošas vārpas, un nobriešanas posmā 2023. gada augustā, ko iezīmē zeltaini dzeltenas, ražas novākšanai gatavas vārpas.

Saistītie: Kuru veģetācijas indeksu labāk izmantot precīzajā lauksaimniecībā?

Tomēr šo attēlu analīze radīja izaicinājumus, tostarp dronu kustības izraisītas izplūdušas malas, mazs miežu vārpu izmērs gaisa skatos un pārklājošās vārpas blīvi apstādītos laukos.

Lai risinātu šīs problēmas, pētnieki veica attēlu priekšapstrādi, sadalot katru augstas izšķirtspējas attēlu 35 mazākos apakšattēlos un izfiltrējot izplūdušās malas, iegūstot 2970 augstas kvalitātes apakšattēlus apmācībai. Šis priekšapstrādes solis nodrošināja, ka modelis koncentrējas uz skaidriem, praktiski izmantojamiem datiem, izvairoties no uzmanības novēršanas no zemas kvalitātes reģioniem.

Tehniskie sasniegumi objektu noteikšanā

Šī pētījuma centrālais elements ir YOLOv5 algoritms (You Only Look Once 5. versija) — vienpakāpes objektu noteikšanas modelis, kas pazīstams ar savu ātrumu un modulāro dizainu. Atšķirībā no vecākiem divpakāpju modeļiem, piemēram, Faster R-CNN, kas vispirms identificē interesējošos reģionus un pēc tam klasificē objektus, YOLOv5 veic noteikšanu vienā piegājienā, padarot to ievērojami ātrāku.

YOLOv5n bāzes modelis ar 1,76 miljoniem parametru (mākslīgā intelekta modeļa konfigurējamām sastāvdaļām) un 4,1 miljardu FLOP (peldošā komata operācijām, skaitļošanas sarežģītības mērvienību) jau bija efektīvs. Tomēr sīku, pārklājošu miežu tapas noteikšanai bija nepieciešama turpmāka optimizācija.

Pētnieku komanda ieviesa trīs galvenos modeļa uzlabojumus: dziļumā atdalāmu konvolūciju (DSConv), spoku konvolūciju (GhostConv) un konvolucionālu bloku uzmanības moduli (CBAM).

Dziļuma ziņā atdalāmā konvolūcija (DSConv) samazina skaitļošanas izmaksas, sadalot standarta konvolūcijas procesu — matemātisku darbību, kas no attēliem iegūst pazīmes — divos posmos. Pirmkārt, dziļuma ziņā konvolūcija piemēro filtrus atsevišķiem krāsu kanāliem (piemēram, sarkanai, zaļai, zilai), analizējot katru kanālu atsevišķi.

Tam seko punktu konvolūcija, kas apvieno rezultātus dažādos kanālos, izmantojot 1×1 kodolus. Šī pieeja samazina parametru skaitu līdz pat 75%.

Piemēram, tradicionālajai 3×3 konvolūcijai ar 64 ieejas un 128 izejas kanāliem ir nepieciešami 73 728 parametri, savukārt DSConv samazina to skaitu līdz tikai 8768, kas ir 88% samazinājums. Šī efektivitāte ir kritiski svarīga modeļu izvietošanai dronos vai mobilajās ierīcēs ar ierobežotu apstrādes jaudu.

Spoku konvolūcija (GhostConv) vēl vairāk atvieglo modeli, ģenerējot papildu iezīmju kartes — vienkāršotus attēlu modeļu attēlojumus —, izmantojot vienkāršas lineāras darbības, piemēram, rotāciju vai mērogošanu, nevis resursietilpīgas konvolūcijas.

Tradicionālie konvolūcijas slāņi rada liekas funkcijas, tādējādi izšķiežot skaitļošanas resursus. GhostConv risina šo problēmu, izveidojot "spoku" funkcijas no esošajām, faktiski samazinot parametrus noteiktos slāņos uz pusi.

Piemēram, slānim ar 64 ieejas un 128 izejas kanāliem tradicionāli būtu nepieciešams 73 728 parametri, bet GhostConv to samazina līdz 36,864 vienlaikus saglabājot precizitāti. Šī metode ir īpaši noderīga mazu objektu, piemēram, miežu vārpu, noteikšanai, kur skaitļošanas efektivitāte ir ārkārtīgi svarīga.

Lai palīdzētu modelim koncentrēties uz kritiski svarīgām funkcijām pat pārblīvētā vidē, tika integrēts konvolucionālā bloka uzmanības modulis (CBAM). Uzmanības mehānismi, kas iedvesmoti no cilvēka vizuālajām sistēmām, ļauj mākslīgā intelekta modeļiem noteikt prioritātes svarīgām attēla daļām.

Saistītie: Precīzās lauksaimniecības evolūcija: Kā pagātne veido rītdienu

CBAM izmanto divu veidu uzmanību: kanālu uzmanību, kas identificē svarīgus krāsu kanālus (piemēram, zaļu augošiem asiem), un telpisko uzmanību, kas izceļ galvenos attēla reģionus (piemēram, asiņu kopas). Aizstājot standarta moduļus ar DSConv un GhostConv un iekļaujot CBAM, pētnieki izveidoja vienkāršāku, precīzāku modeli, kas pielāgots miežu noteikšanai.

Īstenošana un rezultāti

Lai apmācītu modeli, pētnieki manuāli apzīmēja 135 oriģinālus attēlus, izmantojot ierobežojošos lodziņus — taisnstūrveida rāmjus, kas iezīmē miežu vārpu atrašanās vietu —, kategorizējot vārpas augšanas un nobriešanas stadijās. Datu papildināšanas metodes, tostarp rotācija, trokšņa injekcija, aizsegšana un asināšana, paplašināja datu kopu līdz 2970 attēliem, uzlabojot modeļa spēju vispārināt dažādos lauka apstākļos.

Piemēram, attēlu pagriešana par 90°, 180° vai 270° palīdzēja modelim atpazīt tapas no dažādiem leņķiem, vienlaikus pievienojot troksni, simulēja reālas pasaules nepilnības, piemēram, putekļus vai ēnas. Datu kopa tika sadalīta apmācības kopā (80%) un validācijas kopā (20%), nodrošinot stabilu novērtējumu.

Apmācība notika augstas veiktspējas sistēmā ar AMD Ryzen 7 centrālo procesoru, NVIDIA RTX 4060 grafisko karti un 64 GB RAM, izmantojot PyTorch ietvaru — populāru dziļās mācīšanās rīku. Tika rūpīgi izsekotas vairāk nekā 300 apmācības epohas (pilnīgas datu kopas caurlaides), modeļa precizitāte (pareizas noteikšanas precizitāte), atpazīstamība (spēja atrast visus atbilstošos impulsus) un zudumi (kļūdu līmenis).

Rezultāti bija pārsteidzoši. Uzlabotais YOLOv5 modelis sasniedza precizitāti 92,2% (salīdzinājumā ar 89,1% sākotnējā līmenī) un atpazīstamību 86,2% (salīdzinājumā ar 83,1%), pārspējot sākotnējo YOLOv5n par 3,1% abos rādītājos. Tā vidējā precizitāte (mAP) — visaptveroša metriskā vidējā noteikšanas precizitāte visās kategorijās — sasniedza 93,1%, individuāli sasniedzot 92,7% augšanas stadijas izaugumiem un 93,5% nobriešanas stadijas izaugumiem.

Tikpat iespaidīga bija tā skaitļošanas efektivitāte: modeļa parametri samazinājās par 70,6% līdz 1,2 miljoniem, un FLOP skaits samazinājās par 75,6% līdz 3,1 miljardam. Salīdzinošā analīze ar vadošajiem modeļiem, piemēram, Faster R-CNN un YOLOv8n, izcēla tā pārākumu.

Lai gan YOLOv8n sasniedza nedaudz augstāku mAP (93,8%), tā parametri (3,0 miljoni) un FLOP (8,1 miljards) bija attiecīgi 2,5x un 2,6x augstāki, padarot piedāvāto modeli daudz efektīvāku reāllaika lietojumprogrammām.

Vizuālie salīdzinājumi uzsvēra šos sasniegumus. Augšanas stadijas attēlos uzlabotais modelis noteica 41 smaili, salīdzinot ar bāzes līnijas 28. Nobriešanas laikā tas identificēja 3 smailes, salīdzinot ar bāzes līnijas 2, ar mazāku skaitu neidentificētu gadījumu (atzīmēti ar oranžām bultiņām) un viltus pozitīvu rezultātu (atzīmēti ar violetām bultiņām).

Šie uzlabojumi ir vitāli svarīgi lauksaimniekiem, kuri paļaujas uz precīziem datiem, lai prognozētu ražu un optimizētu resursus. Piemēram, precīza vārpu skaitīšana ļauj labāk novērtēt graudu ražu, tādējādi pieņemot lēmumus par ražas novākšanas laiku, uzglabāšanu un tirgus plānošanu.

Saistītie: Mākslīgā intelekta pielietojums precīzajā lauksaimniecībā

Nākotnes virzieni un praktiskā ietekme

Neskatoties uz panākumiem, pētījumā tika atzīti ierobežojumi. Veiktspēja pasliktinājās ekstremālos apgaismojuma apstākļos, piemēram, spilgtā pusdienas atspīdumā vai biezās ēnās, kas var aizsegt tapu detaļas. Turklāt taisnstūrveida ierobežojošie lodziņi dažreiz nespēja pielāgoties neregulāras formas tapām, radot nelielas neprecizitātes.

Modelis arī izslēdza izplūdušas malas no bezpilota lidaparātu attēliem, kam bija nepieciešama manuāla pirmapstrāde — solis, kas palielina laiku un sarežģītību.

Turpmākā darba mērķis ir risināt šīs problēmas, paplašinot datu kopu, iekļaujot attēlus, kas uzņemti rītausmā, pusdienlaikā un krēslā, eksperimentējot ar daudzstūra formas anotācijām (elastīgām formām, kas labāk atbilst neregulāriem objektiem) un izstrādājot algoritmus, lai labāk apstrādātu izplūdušus reģionus bez manuālas iejaukšanās.

Šī pētījuma ietekme ir dziļa. Lauksaimniekiem tādos reģionos kā Tibeta modelis piedāvā ražas novērtējumu reāllaikā, aizstājot darbietilpīgo manuālo skaitīšanu ar uz droniem balstītu automatizāciju. Augšanas stadiju nošķiršana ļauj precīzi plānot ražu, samazinot zaudējumus, kas radušies priekšlaicīgas vai aizkavētas ražas novākšanas dēļ.

Detalizēti dati par smailīšu blīvumu, piemēram, nepietiekami apdzīvotu vai pārapdzīvotu apgabalu identificēšana, var sniegt informāciju apūdeņošanas un mēslošanas stratēģijām, samazinot ūdens un ķīmisko atkritumus. Papildus miežiem, vieglā arhitektūra ir daudzsološa arī citām kultūrām, piemēram, kviešiem, rīsiem vai augļiem, paverot ceļu plašākiem pielietojumiem precīzajā lauksaimniecībā.

Secinājums

Noslēgumā šis pētījums ilustrē mākslīgā intelekta transformācijas potenciālu lauksaimniecības problēmu risināšanā. Pilnveidojot YOLOv5 ar inovatīvām vieglajām metodēm, pētnieki ir izveidojuši rīku, kas līdzsvaro precizitāti un efektivitāti, kas ir kritiski svarīgi reālai ieviešanai resursu ierobežotā vidē.

Tādi termini kā mAP, FLOP un uzmanības mehānismi var šķist tehniski, taču to ietekme ir dziļi praktiska: tie ļauj lauksaimniekiem pieņemt uz datiem balstītus lēmumus, taupīt resursus un maksimāli palielināt ražu. Tā kā klimata pārmaiņas un iedzīvotāju skaita pieaugums pastiprina spiedienu uz globālajām pārtikas sistēmām, šādi sasniegumi būs neaizstājami.

Tibetas un citu nozaru lauksaimniekiem šī tehnoloģija nozīmē ne tikai lēcienu lauksaimniecības efektivitātē, bet arī cerības staru uz ilgtspējīgu pārtikas nodrošinājumu nenoteiktā nākotnē.

Atsauce: Cai, M., Deng, H., Cai, J. u.c. Vieglo augstkalnu miežu noteikšana, pamatojoties uz uzlabotu YOLOv5. Plant Methods 21, 42 (2025). https://doi.org/10.1186/s13007-025-01353-0