Ячмінь високогір'я, стійка зернова культура, що вирощується у високогірних районах китайського плато Цинхай-Тибет, відіграє вирішальну роль у місцевій продовольчій безпеці та економічній стабільності. Відомий у науці як Hordeum vulgare L., ця культура процвітає в екстремальних умовах - розріджене повітря, низький рівень кисню та середньорічна температура 6,3°C - що робить її незамінною для громад у суворих умовах.
Понад 270 000 гектарів, відведених під його вирощування в Китаї, в основному в автономному регіоні Сіцзян, складають більше половини посівних площ регіону і понад 70% від загального виробництва зерна. Точний моніторинг густоти посівів ячменю - кількості рослин або колосків на одиниці площі - має важливе значення для оптимізації сільськогосподарських практик, таких як зрошення та внесення добрив, а також для прогнозування врожайності.
Однак традиційні методи, такі як ручний відбір зразків або супутникові знімки, виявилися неефективними, трудомісткими або недостатньо детальними. Щоб вирішити ці проблеми, дослідники з Фуцзяньського університету сільського та лісового господарства та Чендуського технологічного університету розробили інноваційну модель штучного інтелекту на основі YOLOv5, передового алгоритму виявлення об'єктів.
Їхні роботи, опубліковані в Рослинні методи (2025), досягла чудових результатів, в тому числі 93,1% середньої точності (mAP) - показник, що вимірює загальну точність виявлення - і 75,6% зниження обчислювальних витрат, що робить її придатною для розгортання безпілотників в реальному часі.
Виклики та інновації в моніторингу сільськогосподарських культур
Важливість високогірного ячменю виходить за рамки його ролі як джерела продовольства. Лише у 2022 році місто Ріказе, основний регіон-виробник ячменю, зібрало 408 900 тонн ячменю з 60 000 гектарів, що становить майже половину від загального обсягу виробництва зерна в Тибеті.
Незважаючи на культурне та економічне значення ячменю, оцінка його врожайності довгий час була складним завданням. Традиційні методи, такі як ручний підрахунок або супутникові знімки, або занадто трудомісткі, або не мають достатньої роздільної здатності, необхідної для виявлення окремих колосків ячменю - зерноносної частини рослини, яка часто має лише 2-3 сантиметри завширшки.
Ручний відбір зразків вимагає від фермерів фізичного огляду ділянок поля - процес повільний, суб'єктивний і непрактичний для великих господарств. Супутникові знімки, хоча і корисні для широких спостережень, мають низьку роздільну здатність (часто 10-30 метрів на піксель) і часті погодні зміни, такі як хмарність у гірських регіонах, наприклад, у Тибеті.
Щоб подолати ці обмеження, дослідники звернулися до безпілотних літальних апаратів (БПЛА), або дронів, оснащених 20-мегапіксельними камерами. Ці дрони зробили 501 зображення з високою роздільною здатністю полів ячменю в місті Ріказе під час двох критичних стадій росту: стадії росту в серпні 2022 року, яка характеризується зеленими колосками, що розвиваються, і стадії дозрівання в серпні 2023 року, позначеної золотисто-жовтими колосками, готовими до збору врожаю.
Однак аналіз цих знімків викликав певні труднощі, зокрема розмиті краї, спричинені рухом дрону, малий розмір колосків ячменю на аерофотознімках та перекриття колосків на густо засаджених полях.
Щоб вирішити ці проблеми, дослідники попередньо обробили зображення, розділивши кожне зображення з високою роздільною здатністю на 35 менших субзображень і відфільтрувавши розмиті краї, в результаті чого отримали 2 970 високоякісних субзображень для навчання. Цей етап попередньої обробки забезпечив фокусування моделі на чітких, придатних для дії даних, уникаючи відволікання на неякісні регіони.
Технічний прогрес у виявленні об'єктів
Центральним елементом цього дослідження є алгоритм YOLOv5 (You Only Look Once, версія 5) - одноетапна модель виявлення об'єктів, відома своєю швидкістю та модульним дизайном. На відміну від старих двоетапних моделей, таких як Faster R-CNN, які спочатку визначають області інтересу, а потім класифікують об'єкти, YOLOv5 виконує виявлення за один прохід, що робить його значно швидшим.
Базова модель YOLOv5n з 1,76 мільйонами параметрів (конфігурованих компонентів моделі ШІ) і 4,1 мільярда FLOPs (операцій з плаваючою комою, міра обчислювальної складності) вже була ефективною. Однак виявлення крихітних колосків ячменю, що накладаються один на одного, потребувало подальшої оптимізації.
Дослідницька група впровадила три ключові вдосконалення в модель: згортку з поділом за глибиною (DSConv), згортку-привид (GhostConv) та модуль уваги до згортки блоків (CBAM).
Згортка з поділом за глибиною (DSConv) зменшує обчислювальні витрати, розбиваючи стандартний процес згортки - математичну операцію, яка виокремлює ознаки із зображень, - на два етапи. По-перше, глибинна згортка застосовує фільтри до окремих колірних каналів (наприклад, червоного, зеленого, синього), аналізуючи кожен канал окремо.
Після цього виконується точкова згортка, яка об'єднує результати по всіх каналах за допомогою ядер 1×1. Цей підхід скорочує кількість підрахунків параметрів до 75%.
Наприклад, традиційна згортка 3×3 з 64 вхідними та 128 вихідними каналами вимагає 73 728 параметрів, тоді як DSConv зменшує їх до 8 768 - скорочення на 88%. Така ефективність має вирішальне значення для розгортання моделей на дронах або мобільних пристроях з обмеженою обчислювальною потужністю.
Примарна згортка (GhostConv) ще більше полегшує модель, генеруючи додаткові карти особливостей - спрощені представлення шаблонів зображень - за допомогою простих лінійних операцій, таких як обертання або масштабування, замість ресурсоємних згорток.
Традиційні шари згортки створюють надлишкові об'єкти, марно витрачаючи обчислювальні ресурси. GhostConv вирішує цю проблему, створюючи “примарні” функції з існуючих, ефективно зменшуючи параметри вдвічі у певних шарах.
Наприклад, для рівня з 64 вхідними і 128 вихідними каналами традиційно потрібно 73 728 параметрів, але GhostConv зводить це до 36,864 зберігаючи при цьому точність. Цей метод особливо корисний для виявлення дрібних об'єктів, таких як колоски ячменю, де обчислювальна ефективність має першорядне значення.
Модуль згорткової блокової уваги (CBAM) був інтегрований, щоб допомогти моделі зосередитися на важливих особливостях навіть у захаращеному середовищі. Механізми уваги, натхненні людськими зоровими системами, дозволяють ШІ-моделям визначати пріоритети важливих частин зображення.
CBAM використовує два типи уваги: канальну увагу, яка визначає важливі кольорові канали (наприклад, зелений для зростаючих колосків), і просторову увагу, яка виділяє ключові регіони на зображенні (наприклад, скупчення колосків). Замінивши стандартні модулі на DSConv і GhostConv та включивши CBAM, дослідники створили більш компактну і точну модель, пристосовану для виявлення ячменю.
Впровадження та результати
Для навчання моделі дослідники вручну позначили 135 оригінальних зображень, використовуючи обмежувальні рамки - прямокутні рамки, що позначають розташування колосків ячменю, - класифікуючи їх за стадіями росту і дозрівання. Методи доповнення даних - включаючи обертання, введення шуму, оклюзію та підвищення різкості - розширили набір даних до 2 970 зображень, покращивши здатність моделі узагальнювати різні польові умови.
Наприклад, поворот зображень на 90°, 180° або 270° допоміг моделі розпізнавати шипи під різними кутами, а додавання шуму імітувало недосконалості реального світу, такі як пил або тіні. Набір даних було розділено на навчальний (80%) і перевірочний (20%), що забезпечило надійну оцінку.
Навчання проходило на високопродуктивній системі з процесором AMD Ryzen 7, графічним процесором NVIDIA RTX 4060 та 64 ГБ оперативної пам'яті з використанням фреймворку PyTorch - популярного інструменту для глибокого навчання. Понад 300 навчальних епох (повних проходів через набір даних) ретельно відстежувалися точність моделі (точність правильних розпізнавань), запам'ятовування (здатність знаходити всі релевантні піки) і втрати (рівень помилок).
Результати були вражаючими. Покращена модель YOLOv5 досягла точності 92,2% (порівняно з 89,1% у базовому варіанті), а показник пригадування - 86,2% (порівняно з 83,1%), перевершивши базовий варіант YOLOv5n на 3,1% за обома метриками. Його середня точність (mAP) - комплексний показник, що усереднює точність виявлення в усіх категоріях - досягла 93,1%, з індивідуальними показниками 92,7% для шипів на стадії росту та 93,5% для шипів на стадії дозрівання.
Не менш вражаючою виявилась і його обчислювальна ефективність: параметри моделі зменшились на 70.6% до 1.2 мільйона, а кількість FLOPs зменшилась на 75.6% до 3.1 мільярда. Порівняльний аналіз з провідними моделями, такими як Faster R-CNN та YOLOv8n, показав її перевагу.
Хоча YOLOv8n досягла дещо вищого mAP (93.8%), її параметри (3.0 млн.) та FLOPs (8.1 млрд.) були в 2.5 рази та 2.6 рази вищими, відповідно, що робить запропоновану модель набагато ефективнішою для додатків у реальному часі.
Візуальне порівняння підкреслило цей прогрес. На зображеннях на стадії росту вдосконалена модель виявила 41 пік порівняно з 28 у базовій моделі. Під час дозрівання вона ідентифікувала 3 піки проти 2 у базовій моделі, з меншою кількістю пропущених виявлень (позначені помаранчевими стрілками) і хибнопозитивних спрацьовувань (позначені фіолетовими стрілками).
Ці вдосконалення є життєво важливими для фермерів, які покладаються на точні дані для прогнозування врожайності та оптимізації ресурсів. Наприклад, точний підрахунок колосків дає змогу краще оцінити виробництво зерна, що дає змогу приймати рішення щодо термінів збору врожаю, зберігання та планування ринку.
Майбутні напрямки та практичні наслідки
Незважаючи на успіх, дослідження визнало обмеження. Ефективність знижувалася за екстремальних умов освітлення, таких як різке полуденне світло або густі тіні, які можуть затуляти деталі шипів. Крім того, прямокутні обмежувальні рамки іноді не підходили для шипів неправильної форми, що призводило до незначних неточностей.
Модель також виключає розмиті краї знімків з БПЛА, які вимагають ручної попередньої обробки - крок, який додає часу і складності.
Подальша робота спрямована на вирішення цих проблем шляхом розширення набору даних, включення зображень, знятих на світанку, опівдні та в сутінках, експериментів з полігональними анотаціями (гнучкими формами, які краще підходять для нерегулярних об'єктів), а також розробки алгоритмів для кращої обробки розмитих областей без ручного втручання.
Наслідки цього дослідження є глибокими. Для фермерів у таких регіонах, як Тибет, модель пропонує оцінку врожайності в режимі реального часу, замінюючи трудомісткі ручні підрахунки на автоматизацію за допомогою дронів. Розрізнення стадій росту дає змогу точно планувати врожай, зменшуючи втрати від передчасного чи запізнілого збору врожаю.
Детальні дані про щільність колосків - наприклад, виявлення малозаселених або перенаселених ділянок - можуть допомогти у розробці стратегій зрошення та внесення добрив, зменшуючи витрати води та хімікатів. Крім ячменю, легка архітектура має перспективи для інших культур, таких як пшениця, рис або фрукти, прокладаючи шлях до ширшого застосування в точному землеробстві.
Висновок
Отже, це дослідження демонструє трансформаційний потенціал штучного інтелекту у вирішенні сільськогосподарських проблем. Удосконаливши YOLOv5 за допомогою інноваційних легких методів, дослідники створили інструмент, який поєднує в собі точність і ефективність, що є критично важливим для реального застосування в умовах обмежених ресурсів.
Такі терміни, як mAP, FLOP та механізми уваги, можуть здатися технічними, але їхній вплив є глибоко практичним: вони дозволяють фермерам приймати рішення на основі даних, зберігати ресурси та максимізувати врожайність. Оскільки зміна клімату та зростання населення посилюють тиск на глобальні продовольчі системи, такі досягнення стануть незамінними.
Для фермерів Тибету і не тільки ця технологія є не просто стрибком в ефективності сільського господарства, але й променем надії на стійку продовольчу безпеку в невизначеному майбутньому.
Довідка: Cai, M., Deng, H., Cai, J. та ін. Легке виявлення високогірного ячменю на основі покращеного YOLOv5. Plant Methods 21, 42 (2025). https://doi.org/10.1186/s13007-025-01353-0
Картографування сільського господарства







