CMTNet переосмислює точне землеробство, перевершуючи традиційну класифікацію сільськогосподарських культур

Точна класифікація культур має важливе значення для сучасного точного землеробства, дозволяючи фермерам контролювати стан посівів, прогнозувати врожайність та ефективно розподіляти ресурси. Однак традиційні методи часто не можуть впоратися зі складністю сільськогосподарського середовища, де культури широко варіюються за типом, стадіями росту та спектральними характеристиками.

Що таке гіперспектральна візуалізація та фреймворк CMTNet?

Гіперспектральна візуалізація (HSI) - технологія, яка збирає дані в сотнях вузьких, суміжних діапазонах довжин хвиль, - змінила правила гри в цій галузі. На відміну від стандартних RGB-камер або мультиспектральних датчиків, які збирають дані в декількох широких діапазонах, HSI надає детальний “спектральний відбиток” для кожного пікселя.

Наприклад, здорова рослинність сильно відбиває ближнє інфрачервоне світло завдяки активності хлорофілу, в той час як посіви, що перебувають у стані стресу, демонструють відмінні патерни поглинання. Реєструючи ці тонкі варіації (від 400 до 1000 нанометрів) з високою просторовою роздільною здатністю (до 0,043 метра), HSI дозволяє точно диференціювати види культур, виявляти хвороби та проводити аналіз ґрунту.

Незважаючи на ці переваги, існуючі методи стикаються з проблемами балансування локальних деталей, таких як текстура листя або структура ґрунту, з глобальними моделями, такими як великомасштабний розподіл сільськогосподарських культур. Це обмеження стає особливо очевидним у зашумлених або незбалансованих наборах даних, де тонкі спектральні відмінності між культурами можуть призвести до помилкових класифікацій.

Для вирішення цих проблем дослідники розробили CMTNet (Convolutional Meets Transformer Network), нова платформа для глибокого навчання, яка поєднує в собі сильні сторони згорткових нейронних мереж (CNNs) і трансформаторів. CNN - це клас нейронних мереж, призначених для обробки сіткоподібних даних, таких як зображення, з використанням шарів фільтрів, які виявляють просторові ієрархії (наприклад, ребра, текстури).

Трансформатори, спочатку розроблені для обробки природної мови, використовують механізми самоуваги для моделювання довгострокових залежностей у даних, що робить їх вправними у виявленні глобальних закономірностей. На відміну від попередніх моделей, які обробляють локальні та глобальні особливості послідовно, CMTNet використовує паралельну архітектуру для вилучення обох типів інформації одночасно.

Цей підхід виявився високоефективним, досягнувши найсучаснішої точності на трьох основних наборах даних HSI, отриманих за допомогою БПЛА. Наприклад, на наборі даних WHU-Hi-LongKou CMTNet досягла загальної точності (OA) 99,58%, перевершивши попередню найкращу модель на 0,19%.

Проблеми традиційної гіперспектральної зйомки в сільськогосподарській класифікації

Ранні методи аналізу гіперспектральних даних часто зосереджувалися або на спектральних, або на просторових особливостях, що призводило до неповних результатів. Спектральні методи, такі як аналіз головних компонент (PCA), зменшували складність даних, зосереджуючись на інформації про довжину хвилі, але ігнорували просторові зв'язки між пікселями.

PCA, наприклад, перетворює багатовимірні спектральні дані на меншу кількість компонентів, які пояснюють найбільшу дисперсію, спрощуючи аналіз. Однак цей підхід не враховує просторовий контекст, наприклад, розташування культур на полі. І навпаки, просторові методи, такі як оператори математичної морфології, виділяють закономірності у фізичному розташуванні посівів, але залишають поза увагою критичні спектральні деталі.

Математична морфологія використовує такі операції, як розширення та ерозія, для вилучення форм і структур із зображень, таких як межі між полями. Згодом згорткові нейронні мережі (CNN) покращили класифікацію, обробляючи обидва типи даних.

Однак їхні фіксовані рецептивні поля - область зображення, яку мережа може “бачити” одночасно - обмежують їхню здатність фіксувати довгострокові залежності. Наприклад, 3D-CNN може не розрізнити два сорти сої зі схожими спектральними профілями, але різними моделями росту на великому полі.

Трансформери, тип нейронної мережі, спочатку розроблений для обробки природної мови, запропонував рішення цієї проблеми. Використовуючи механізми самоуваги, трансформери чудово моделюють глобальні взаємозв'язки в даних. Самоуважність дозволяє моделі зважувати важливість різних частин вхідної послідовності, що дозволяє їй зосередитися на відповідних регіонах (наприклад, скупчення хворих рослин), ігноруючи при цьому шум (наприклад, тіні від хмар).

Пов'язані: Багатошаровий (інтегрований) аналіз даних у точному землеробстві

Проте вони часто пропускають дрібні локальні деталі, такі як краї листя або тріщини в ґрунті. Гібридні моделі, такі як CTMixer, намагалися об'єднати CNN і трансформатори, але робили це послідовно, спочатку обробляючи локальні особливості, а потім глобальні. Такий підхід призводив до неефективного злиття інформації та неоптимальної продуктивності в складних сільськогосподарських умовах.

Як працює CMTNet: Поєднання локальних та глобальних можливостей

CMTNet долає ці обмеження завдяки унікальній трикомпонентній архітектурі, розробленій для ефективного вилучення та об'єднання спектрально-просторових, локальних та глобальних характеристик.

1. Перший компонент - це модуль виділення спектрально-просторових ознак, обробляє необроблені дані HSI за допомогою 3D та 2D згорточних шарів.

Згорткові шари 3D одночасно аналізують як просторові (висота × ширина), так і спектральні (довжина хвилі) виміри, фіксуючи такі закономірності, як відбиття певних довжин хвиль по всій поверхні посіву. Наприклад, 3D ядро може виявити, що здорова кукурудза відбиває більше ближнього інфрачервоного світла у верхніх листках порівняно з нижніми.

Потім 2D-шари уточнюють ці характеристики, зосереджуючись на просторових деталях, таких як розташування рослин на полі. Цей двоетапний процес гарантує збереження як спектрального різноманіття (наприклад, вмісту хлорофілу), так і просторового контексту (наприклад, відстані між рядами).

2. Другий компонент - це Локально-глобальний модуль вилучення функцій, працює паралельно. Одна гілка використовує CNN для фокусування на локальних деталях, таких як текстура окремих листків або форма ділянок ґрунту. Ці особливості мають вирішальне значення для ідентифікації видів зі схожими спектральними профілями, наприклад, різних сортів сої.

Інша гілка використовує трансформатори для моделювання глобальних взаємозв'язків, таких як розподіл посівів на великих площах або вплив тіней від сусідніх дерев на спектральні показники. Обробляючи ці характеристики одночасно, а не послідовно, CMTNet уникає втрати інформації, яка характерна для більш ранніх гібридних моделей.

Наприклад, у той час як філія CNN ідентифікує зазубрені краї бавовняного листя, філія Transformer визнає, що це листя є частиною більшого бавовняного поля, облямованого кунжутом.

3. Третій компонент - це модуль обмеження з декількома виходами, забезпечує збалансоване навчання на локальних, глобальних та злитих об'єктах. Під час навчання до кожного типу об'єктів застосовуються окремі функції втрат, що змушує мережу вдосконалювати всі аспекти свого розуміння.

Функція втрат кількісно визначає різницю між прогнозованими та фактичними значеннями, керуючи коригуванням моделі. Наприклад, втрати для локальних особливостей можуть покарати модель за неправильну класифікацію країв листків, тоді як глобальні втрати виправляють помилки у великомасштабному розподілі посівів.

Ці втрати об'єднуються за допомогою ваг, оптимізованих шляхом випадкового пошуку - методу, який тестує різні комбінації ваг для досягнення максимальної точності. Результатом цього процесу є надійна та адаптивна модель, здатна працювати з різними сільськогосподарськими сценаріями.

Оцінка продуктивності CMTNet на наборах гіперспектральних даних БПЛА

Щоб оцінити CMTNet, дослідники протестували його на трьох наборах гіперспектральних даних, отриманих за допомогою БПЛА з Уханьського університету. Ці набори даних є широко використовуваними еталонами в дистанційному зондуванні завдяки їхній високій якості та різноманітності:

ВУ-Хі-Лонгкоу: Цей набір даних охоплює 550 × 400 пікселів з 270 спектральними діапазонами і просторовою роздільною здатністю 0,463 метра. Просторова роздільна здатність 0,463 метра означає, що кожен піксель представляє ділянку землі розміром 0,463 м × 0,463 м, що дозволяє ідентифікувати окремі рослини. Вона включає дев'ять типів культур, таких як кукурудза, бавовна і рис, з 1 019 навчальними зразками і 203 523 тестовими зразками.
У-Хі-Ханчуань: Цей набір даних розміром 1 217 × 303 пікселів з роздільною здатністю 0,109 м містить 16 типів рослинного покриву, включаючи полуницю, сою та пластикові листи. Вища роздільна здатність (0,109 м) дозволяє розгледіти більш дрібні деталі, наприклад, різницю між молодими та зрілими рослинами сої. Навчальна та тестова вибірки склали 1 289 та 256 241 відповідно.
Ву-Хі-Хонг-Ху: Цей набір даних з високою роздільною здатністю (0,043 метра) розміром 940 × 475 пікселів і 270 смуг включає 22 класи, такі як бавовна, ріпак і паростки часнику. За роздільної здатності 0,043 м видно окремі листки і тріщини ґрунту, що робить його ідеальним для дрібнозернистої класифікації. Він містить 1 925 навчальних зразків і 384 678 тестових зразків.

Пов'язані: Як SDSU формує революцію точного землеробства в штаті?

Модель навчалася на графічних процесорах NVIDIA TITAN Xp за допомогою PyTorch зі швидкістю навчання 0,001 та розміром партії 100. Швидкість навчання визначає, наскільки сильно модель змінює свої параметри під час навчання - занадто висока, і вона може вийти за межі оптимальних значень; занадто низька, і навчання стає повільним.

Кожен експеримент повторювався десять разів для забезпечення надійності, а вхідні патчі - невеликі сегменти повного зображення - оптимізувалися до розміру 13 × 13 пікселів за допомогою сіткового пошуку - методу, який тестує різні розміри патчів, щоб знайти найефективніший.

CMTNet досягає найсучаснішої точності в класифікації сільськогосподарських культур

CMTNet досягнув чудових результатів на всіх наборах даних, перевершивши існуючі методи як за загальною точністю (OA), так і за продуктивністю для конкретних класів. OA вимірює відсоток правильно класифікованих пікселів у всіх класах, тоді як середня точність (AA) обчислює середню точність для кожного класу, усуваючи дисбаланс.

На наборі даних WHU-Hi-LongKou CMTNet досягнув OA 99,58%, перевершивши CTMixer на 0,19%. Для складних класів з обмеженою кількістю навчальних даних, таких як бавовна (41 зразок), CMTNet все ще досягла точності 99,53%. Аналогічно, на наборі даних WHU-Hi-HanChuan він покращив точність для кавуна (22 зразки) з 82,42% до 96,11%, продемонструвавши свою здатність обробляти незбалансовані дані за допомогою ефективного злиття ознак.

Візуальне порівняння карт класифікації виявило менше фрагментованих ділянок і більш плавні межі між полями порівняно з такими моделями, як 3D-CNN і Vision Transformer (ViT). Наприклад, у затіненому наборі даних WHU-Hi-HanChuan CMTNet мінімізував помилки, спричинені низькими кутами падіння сонця, тоді як ResNet помилково класифікував соєві боби як сірі дахи.

Тіні створюють унікальну проблему, оскільки вони змінюють спектральні характеристики - рослина сої в тіні може відбивати менше ближнього інфрачервоного світла, нагадуючи нерослинність. Використовуючи глобальний контекст, CMTNet визначив, що ці затінені рослини були частиною більшого соєвого поля, що зменшило помилки.

На наборі даних WHU-Hi-HongHu модель чудово розрізняла спектрально схожі культури, такі як різні сорти капусти, досягнувши точності 96.54% для Brassica parachinensis.

Абляційні дослідження - експерименти з видалення компонентів для оцінки їхнього впливу - підтвердили важливість кожного модуля. Одне лише додавання модуля обмеження з декількома виходами збільшило OA на 1.52% на WHU-Hi-HongHu, що підкреслює його роль у вдосконаленні злиття ознак. Без цього модуля локальні та глобальні ознаки поєднувалися безсистемно, що призводило до непослідовних класифікацій.

Обчислювальні компроміси та практичні міркування

Хоча точність CMTNet не має собі рівних, його обчислювальні витрати вищі, ніж у традиційних методів. Навчання на наборі даних WHU-Hi-HongHu зайняло 1 885 секунд порівняно з 74 секундами для Random Forest (RF), алгоритму машинного навчання, який будує дерева рішень під час навчання.

Однак такий компроміс виправданий у точному землеробстві, де точність безпосередньо впливає на прогнози врожайності та розподіл ресурсів. Наприклад, помилкова класифікація хворої культури як здорової може призвести до неконтрольованих спалахів шкідників, які знищать цілі поля.

Пов'язані: Як моделювання для точного землеробства може оптимізувати практики?

Для додатків, що працюють в реальному часі, в майбутньому можна дослідити методи стиснення моделі, такі як обрізання надлишкових нейронів або квантування ваг (зменшення числової точності), щоб зменшити час виконання без шкоди для продуктивності. Обрізка видаляє менш важливі зв'язки з нейронної мережі, подібно до обрізання гілок на дереві для покращення його форми, тоді як квантування спрощує чисельні розрахунки, прискорюючи обробку.

Майбутнє гіперспектральної класифікації сільськогосподарських культур за допомогою CMTNet

Незважаючи на свій успіх, CMTNet стикається з обмеженнями. Продуктивність дещо падає в сильно затінених регіонах, як видно з набору даних WHU-Hi-HanChuan (97,29% OA проти 99,58% в добре освітленому LongKou). Тіні ускладнюють класифікацію, оскільки вони зменшують інтенсивність відбитого світла, змінюючи спектральні профілі.

Крім того, класи з надзвичайно малими навчальними вибірками, наприклад, вузьколиста соя (20 зразків), відстають від класів з великою кількістю даних. Малі розміри вибірок обмежують здатність моделі вивчати різноманітні варіації, такі як відмінності у формі листків, зумовлені якістю ґрунту.

Майбутні дослідження можуть інтегрувати мультимодальні дані, такі як карти рельєфу LiDAR або тепловізійні зображення, щоб підвищити стійкість до тіней і перешкод. LiDAR (Light Detection and Ranging) використовує лазерні імпульси для створення 3D-моделей місцевості, які можуть допомогти відрізнити посіви від тіней, аналізуючи перепади висот.

Крім того, тепловізійні знімки фіксують теплові сигнатури, надаючи додаткові підказки про стан здоров'я рослин, які часто мають вищу температуру через знижену транспірацію. Напівконтрольовані методи навчання, які використовують немарковані дані (наприклад, знімки з БПЛА без ручних анотацій), також можуть підвищити ефективність для рідкісних видів культур.

Використовуючи регуляризацію узгодженості - навчання моделі виробляти стабільні прогнози на дещо змінених версіях одного і того ж зображення - дослідники можуть використовувати немарковані дані для покращення узагальнення.

Нарешті, розгортання CMTNet на периферійних пристроях, таких як дрони, оснащені вбудованими графічними процесорами, може забезпечити моніторинг у реальному часі на віддалених полях. Граничне розгортання зменшує залежність від хмарних обчислень, мінімізуючи затримки і витрати на передачу даних. Проте це вимагає оптимізації моделі для обмеженої пам'яті і обчислювальної потужності, потенційно за допомогою легких архітектур, таких як MobileNet, або дистиляції знань, коли менша модель “учня” імітує більшу модель “вчителя”.

Висновок

CMTNet - це значний крок вперед у гіперспектральній класифікації сільськогосподарських культур. Гармонізуючи CNN і трансформатори, вона вирішує давні проблеми виділення і злиття ознак, пропонуючи фермерам і агрономам потужний інструмент для точного землеробства.

Застосування варіюється від виявлення хвороб у режимі реального часу до оптимізації графіків зрошення - все це має вирішальне значення для сталого ведення сільського господарства в умовах зміни клімату і зростання населення. У міру того, як технологія БПЛА стає все більш доступною, такі моделі, як CMTNet, відіграватимуть ключову роль у забезпеченні глобальної продовольчої безпеки.

Майбутні досягнення, такі як легша архітектура і мультимодальне злиття даних, можуть ще більше підвищити їх практичність. Завдяки постійним інноваціям CMTNet може стати наріжним каменем інтелектуальних сільськогосподарських систем у всьому світі, забезпечуючи ефективне використання землі і стійке виробництво продуктів харчування для наступних поколінь.

Довідка: Го, X., Фенг, К. та Го, Ф. CMTNet: гібридна CNN-трансформаторна мережа для гіперспектральної класифікації сільськогосподарських культур на основі БПЛА в точному землеробстві. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w