Gojenje ječmena dobi spodbudo z lahkim zaznavanjem YOLOv5

Škotski ječmen, odporna žitna kultura, ki jo gojijo v visokogorskih območjih kitajske planote Qinghai-Tibet, igra ključno vlogo pri lokalni prehranski varnosti in gospodarski stabilnosti. Znanstveno znan kot Hordeum vulgare L., ta pridelek uspeva v ekstremnih razmerah – redkem zraku, nizki ravni kisika in povprečni letni temperaturi 6,3 °C – zaradi česar je nepogrešljiv za skupnosti v težkih okoljih.

Z več kot 270.000 hektarji, namenjenimi gojenju na Kitajskem, predvsem v avtonomni regiji Xizang, predstavlja visokogorski ječmen več kot polovico posejanih površin v regiji in več kot 70% celotne proizvodnje žita. Natančno spremljanje gostote ječmena – števila rastlin ali klasov na enoto površine – je bistvenega pomena za optimizacijo kmetijskih praks, kot sta namakanje in gnojenje, ter napovedovanje pridelkov.

Vendar so se tradicionalne metode, kot sta ročno vzorčenje ali satelitsko slikanje, izkazale za neučinkovite, delovno intenzivne ali premalo podrobne. Za reševanje teh izzivov so raziskovalci z Univerze za kmetijstvo in gozdarstvo Fujian in Tehnološke univerze Chengdu razvili inovativen model umetne inteligence, ki temelji na YOLOv5, vrhunskem algoritmu za zaznavanje objektov.

Njihovo delo, objavljeno v Metode rastlin (2025) je dosegel izjemne rezultate, vključno s povprečno natančnostjo (mAP) 93,1% – metriko, ki meri splošno natančnost zaznavanja – in zmanjšanjem računskih stroškov za 75,6%, zaradi česar je primeren za uporabo dronov v realnem času.

Izzivi in inovacije pri spremljanju pridelkov

Pomen visokogorskega ječmena sega dlje od njegove vloge kot vira hrane. Samo leta 2022 je mesto Rikaze, pomembna regija za pridelavo ječmena, poželo 408.900 ton ječmena na 60.000 hektarjih, kar je skoraj polovica celotne proizvodnje žita v Tibetu.

Kljub kulturnemu in gospodarskemu pomenu je ocenjevanje pridelka ječmena že dolgo izziv. Tradicionalne metode, kot sta ročno štetje ali satelitski posnetki, so bodisi preveč delovno intenzivne bodisi nimajo dovolj ločljivosti, da bi zaznali posamezne klasje ječmena – del rastline, ki nosi zrnje in je pogosto širok le 2–3 centimetre.

Ročno vzorčenje od kmetov zahteva fizični pregled delov polja – postopek, ki je počasen, subjektiven in nepraktičen za velike kmetije. Satelitski posnetki so sicer uporabni za obsežna opazovanja, vendar se soočajo z nizko ločljivostjo (pogosto 10–30 metrov na slikovno piko) in pogostimi vremenskimi motnjami, kot je oblačnost v gorskih regijah, kot je Tibet.

Da bi premagali te omejitve, so se raziskovalci obrnili na brezpilotna letala (UAV) oziroma drone, opremljene z 20-megapikselnimi kamerami. Ti droni so posneli 501 visokoločljivostno sliko ječmenovih polj v mestu Rikaze med dvema kritičnima fazama rasti: fazo rasti avgusta 2022, za katero so značilni zeleni, razvijajoči se trni, in fazo zorenja avgusta 2023, za katero so značilni zlato rumeni trni, pripravljeni za žetev.

Sorodno: LfL izkorišča platformo GeoPard za svoj projekt prihodnjega kmetovanja

Vendar pa je analiza teh slik predstavljala izzive, vključno z zamegljenimi robovi, ki jih povzroča gibanje drona, majhnostjo ječmenovih klasov na posnetkih iz zraka in prekrivajočimi se klasmi na gosto zasajenih poljih.

Da bi rešili te težave, so raziskovalci slike predhodno obdelali tako, da so vsako sliko visoke ločljivosti razdelili na 35 manjših podslik in filtrirali zamegljene robove, kar je privedlo do 2970 visokokakovostnih podslik za učenje. Ta korak predhodne obdelave je zagotovil, da se je model osredotočil na jasne in uporabne podatke, s čimer se je izognil motnjam zaradi območij nizke kakovosti.

Tehnični napredek pri zaznavanju objektov

Osrednji del te raziskave je algoritem YOLOv5 (You Only Look Once version 5), enostopenjski model zaznavanja objektov, znan po svoji hitrosti in modularni zasnovi. Za razliko od starejših dvostopenjskih modelov, kot je Faster R-CNN, ki najprej identificirajo območja zanimanja in nato razvrstijo objekte, YOLOv5 izvede zaznavanje v enem samem prehodu, zaradi česar je bistveno hitrejši.

Osnovni model YOLOv5n z 1,76 milijona parametrov (nastavljive komponente modela umetne inteligence) in 4,1 milijarde FLOP-ov (operacije s plavajočo vejico, mera računske kompleksnosti) je bil že učinkovit. Vendar pa je zaznavanje drobnih, prekrivajočih se konic ječmena zahtevalo nadaljnjo optimizacijo.

Raziskovalna ekipa je modelu predstavila tri ključne izboljšave: globinsko ločljivo konvolucijo (DSConv), duhovno konvolucijo (GhostConv) in modul za pozornost konvolucijskih blokov (CBAM).

Globinsko ločljiva konvolucija (DSConv) zmanjša računske stroške z razdelitvijo standardnega procesa konvolucije – matematične operacije, ki iz slik izlušči značilnosti – na dva koraka. Najprej globinska konvolucija uporabi filtre za posamezne barvne kanale (npr. rdečo, zeleno, modro) in analizira vsak kanal posebej.

Sledi točkovna konvolucija, ki združuje rezultate po kanalih z uporabo jeder 1×1. Ta pristop zmanjša število parametrov za do 75%.

Na primer, tradicionalna konvolucija 3×3 s 64 vhodnimi in 128 izhodnimi kanali zahteva 73.728 parametrov, medtem ko DSConv to zmanjša na le 8.768 – zmanjšanje za 88%. Ta učinkovitost je ključnega pomena za uporabo modelov na dronih ali mobilnih napravah z omejeno procesorsko močjo.

Ghostna konvolucija (GhostConv) dodatno olajša model z ustvarjanjem dodatnih zemljevidov značilnosti – poenostavljenih predstavitev vzorcev slik – z uporabo preprostih linearnih operacij, kot sta rotacija ali skaliranje, namesto konvolucij, ki zahtevajo veliko virov.

Tradicionalne konvolucijske plasti ustvarjajo odvečne funkcije, kar porablja računalniške vire. GhostConv to rešuje tako, da iz obstoječih funkcij ustvari “fantomske” funkcije in s tem učinkovito prepolovi parametre v določenih plasteh.

Na primer, plast s 64 vhodnimi in 128 izhodnimi kanali bi tradicionalno zahtevala 73.728 parametrov, vendar GhostConv to zmanjša na 36,864 hkrati pa ohranja natančnost. Ta tehnika je še posebej uporabna za zaznavanje majhnih predmetov, kot so ječmenovi klasji, kjer je računska učinkovitost izjemnega pomena.

Modul za konvolucijsko blokovno pozornost (CBAM) je bil integriran, da bi modelu pomagal osredotočiti se na kritične značilnosti, tudi v natrpanih okoljih. Mehanizmi pozornosti, ki jih navdihujejo človeški vidni sistemi, modelom umetne inteligence omogočajo, da prednostno obravnavajo pomembne dele slike.

Sorodno: Postopni prehod na precizno kmetijstvo

CBAM uporablja dve vrsti pozornosti: kanalsko pozornost, ki prepozna pomembne barvne kanale (npr. zeleno za rastoče klasje), in prostorsko pozornost, ki poudarja ključna območja znotraj slike (npr. skupine klasjev). Z zamenjavo standardnih modulov z DSConv in GhostConv ter vključitvijo CBAM so raziskovalci ustvarili vitkejši in natančnejši model, prilagojen za zaznavanje ječmena.

Izvajanje in rezultati

Za učenje modela so raziskovalci ročno označili 135 izvirnih slik z omejevalnimi okvirji – pravokotnimi okvirji, ki označujejo lokacijo klasov ječmena – in kategorizirali klasje v faze rasti in zorenja. Tehnike dopolnjevanja podatkov – vključno z rotacijo, vbrizgavanjem šuma, okluzijo in ostrenjem – so razširile nabor podatkov na 2970 slik, s čimer so izboljšale sposobnost modela za posploševanje v različnih terenskih pogojih.

Na primer, vrtenje slik za 90°, 180° ali 270° je modelu pomagalo prepoznati konice iz različnih kotov, hkrati pa je dodal šum, ki je simuliral nepopolnosti iz resničnega sveta, kot sta prah ali sence. Nabor podatkov je bil razdeljen na učni nabor (80%) in validacijski nabor (20%), kar je zagotovilo robustno vrednotenje.

Usposabljanje je potekalo na visokozmogljivem sistemu s procesorjem AMD Ryzen 7, grafično kartico NVIDIA RTX 4060 in 64 GB RAM-a, z uporabo ogrodja PyTorch – priljubljenega orodja za globoko učenje. Skrbno je bilo spremljanih več kot 300 učnih epoh (popolnih prehodov skozi nabor podatkov), natančnost modela (natančnost pravilnih zaznav), priklic (sposobnost najti vse relevantne konice) in izguba (stopnja napak).

Rezultati so bili osupljivi. Izboljšan model YOLOv5 je dosegel natančnost 92,2% (v primerjavi z 89,1% v izhodišču) in odpoklic 86,2% (v primerjavi z 83,1%), s čimer je v obeh metrikah presegel izhodiščni model YOLOv5n za 3,1%. Njegova povprečna natančnost (mAP) – celovita metrika, ki povpreči natančnost zaznavanja v vseh kategorijah – je dosegla 93,1%, s posameznimi rezultati 92,7% za skoke v fazi rasti in 93,5% za skoke v fazi zorenja.

Enako impresivna je bila njegova računska učinkovitost: parametri modela so se zmanjšali za 70,6% na 1,2 milijona, število FLOP-ov pa za 75,6% na 3,1 milijarde. Primerjalne analize z vodilnimi modeli, kot sta Faster R-CNN in YOLOv8n, so poudarile njegovo superiornost.

Medtem ko je YOLOv8n dosegel nekoliko višji mAP (93,8%), so bili njegovi parametri (3,0 milijona) in FLOP-i (8,1 milijarde) 2,5-krat oziroma 2,6-krat višji, zaradi česar je predlagani model veliko učinkovitejši za aplikacije v realnem času.

Vizualne primerjave so poudarile ta napredek. Na slikah v fazi rasti je izboljšani model zaznal 41 konic v primerjavi z 28 v osnovni fazi. Med zorenjem je prepoznal 3 konice v primerjavi z dvema v osnovni fazi, z manj zgrešenimi zaznavami (označenimi z oranžnimi puščicami) in lažno pozitivnimi rezultati (označenimi z vijoličnimi puščicami).

Te izboljšave so ključne za kmete, ki se zanašajo na natančne podatke za napovedovanje pridelkov in optimizacijo virov. Natančno štetje klasov na primer omogoča boljše ocene pridelave žita, kar omogoča sprejemanje odločitev o času žetve, skladiščenju in načrtovanju trga.

Sorodno: Upravljalne cone v preciznem kmetijstvu za optimizacijo pridelkov

Prihodnje smeri in praktične posledice

Kljub uspehu je študija priznala omejitve. Zmogljivost se je zmanjšala v ekstremnih svetlobnih pogojih, kot so ostro opoldansko bleščanje ali močne sence, ki lahko zakrijejo podrobnosti konic. Poleg tega pravokotni omejevalni okvirji včasih niso ustrezali nepravilno oblikovanim konicam, kar je povzročilo manjše netočnosti.

Model je iz slik brezpilotnih letalnikov izključil tudi zamegljene robove, kar je zahtevalo ročno predobdelavo – korak, ki povečuje čas in kompleksnost.

Prihodnje delo si prizadeva rešiti te težave z razširitvijo nabora podatkov, da bi vključeval slike, posnete ob zori, opoldne in mraku, eksperimentiranjem z opombami v obliki poligonov (prilagodljive oblike, ki se bolje prilegajo nepravilnim predmetom) in razvojem algoritmov za boljše obravnavo zamegljenih območij brez ročnega posredovanja.

Posledice te raziskave so obsežne. Za kmete v regijah, kot je Tibet, model ponuja oceno pridelka v realnem času in nadomešča delovno intenzivno ročno štetje z avtomatizacijo, ki temelji na dronih. Razlikovanje med fazami rasti omogoča natančno načrtovanje žetve in zmanjšuje izgube zaradi prezgodnje ali zapoznele žetve.

Podrobni podatki o gostoti klasov – kot je prepoznavanje premalo poseljenih ali prenaseljenih območij – lahko pomagajo pri oblikovanju strategij namakanja in gnojenja, s čimer se zmanjša poraba vode in kemikalij. Poleg ječmena je lahka arhitektura obetavna tudi za druge poljščine, kot so pšenica, riž ali sadje, kar utira pot širši uporabi v preciznem kmetijstvu.

Zaključek

Skratka, ta študija ponazarja transformativni potencial umetne inteligence pri reševanju kmetijskih izzivov. Z izpopolnjevanjem YOLOv5 z inovativnimi lahkimi tehnikami so raziskovalci ustvarili orodje, ki uravnoteži natančnost in učinkovitost – kar je ključnega pomena za uporabo v resničnem svetu v okoljih z omejenimi viri.

Izrazi, kot so mAP, FLOP in mehanizmi pozornosti, se morda zdijo tehnični, vendar je njihov vpliv zelo praktičen: kmetom omogočajo sprejemanje odločitev na podlagi podatkov, ohranjanje virov in maksimiranje donosov. Ker podnebne spremembe in rast prebivalstva povečujejo pritisk na svetovne prehranske sisteme, bodo takšni napredki nepogrešljivi.

Za kmete v Tibetu in drugod ta tehnologija ne predstavlja le skoka v kmetijski učinkovitosti, temveč tudi svetilnik upanja za trajnostno prehransko varnost v negotovi prihodnosti.

Referenca: Cai, M., Deng, H., Cai, J. et al. Zaznavanje lahkega višavskega ječmena na podlagi izboljšanega YOLOv5. Plant Methods 21, 42 (2025). https://doi.org/10.1186/s13007-025-01353-0