CMTNet переосмысливает точное земледелие, превосходя традиционную классификацию сельскохозяйственных культур

Точная классификация культур необходима для современного точного земледелия, позволяя фермерам следить за состоянием культур, прогнозировать урожайность и эффективно распределять ресурсы. Однако традиционные методы часто не справляются со сложностью сельскохозяйственной среды, где культуры сильно различаются по типу, стадиям роста и спектральным признакам.

Что такое гиперспектральная съемка и CMTNet Framework?

Гиперспектральная съемка (HSI) - технология, позволяющая получать данные в сотнях узких, смежных диапазонов длин волн, - стала переломным моментом в этой области. В отличие от стандартных RGB-камер или мультиспектральных датчиков, которые собирают данные в нескольких широких полосах, HSI позволяет получить подробный “спектральный отпечаток” для каждого пикселя.

Например, здоровая растительность сильно отражает свет в ближней инфракрасной области благодаря активности хлорофилла, в то время как культуры, находящиеся в стрессовом состоянии, демонстрируют отчетливый характер поглощения. Регистрируя эти тонкие изменения (от 400 до 1 000 нанометров) с высоким пространственным разрешением (до 0,043 метра), HSI позволяет точно различать виды культур, выявлять болезни и анализировать почву.

Несмотря на эти преимущества, существующие методы сталкиваются с проблемами, связанными с балансом между локальными деталями, такими как текстура листьев или почвенный рисунок, и глобальными закономерностями, такими как крупномасштабное распределение культур. Это ограничение становится особенно очевидным в зашумленных или несбалансированных наборах данных, где тонкие спектральные различия между культурами могут привести к ошибочной классификации.

Чтобы решить эти проблемы, исследователи разработали CMTNet (Convolutional Meets Transformer Network) - новая система глубокого обучения, объединяющая сильные стороны сверточных нейронных сетей (CNN) и трансформеров. CNN - это класс нейронных сетей, предназначенных для обработки данных в виде сетки, таких как изображения, с помощью слоев фильтров, которые определяют пространственные иерархии (например, края, текстуры).

Трансформаторы, изначально разработанные для обработки естественного языка, используют механизмы самовнимания для моделирования дальних зависимостей в данных, что делает их искусными в улавливании глобальных закономерностей. В отличие от более ранних моделей, которые последовательно обрабатывали локальные и глобальные признаки, CMTNet использует параллельную архитектуру для извлечения обоих типов информации одновременно.

Этот подход доказал свою высокую эффективность, достигнув наивысшей точности на трех основных наборах данных HSI, основанных на БПЛА. Например, на наборе данных WHU-Hi-LongKou CMTNet достигла общей точности (OA) 99,58%, превзойдя предыдущую лучшую модель на 0,19%.

Проблемы традиционной гиперспектральной съемки в сельскохозяйственной классификации

Ранние методы анализа гиперспектральных данных часто фокусировались либо на спектральных, либо на пространственных характеристиках, что приводило к неполным результатам. Спектральные методы, такие как анализ главных компонент (PCA), снижали сложность данных, концентрируясь на информации о длине волны, но игнорируя пространственные связи между пикселями.

PCA, например, преобразует высокоразмерные спектральные данные в меньшее количество компонентов, которые объясняют наибольшую дисперсию, упрощая анализ. Однако такой подход не учитывает пространственный контекст, например расположение культур на поле. И наоборот, пространственные методы, такие как операторы математической морфологии, выявляют закономерности в физическом расположении культур, но упускают из виду важные спектральные детали.

Математическая морфология использует такие операции, как расширение и эрозия, для извлечения из изображений форм и структур, например, границ между полями. Со временем конволюционные нейронные сети (CNN) улучшили классификацию, обрабатывая оба типа данных.

Однако их фиксированные рецептивные поля - область изображения, которую сеть может “видеть” одновременно, - ограничивают их способность улавливать дальние зависимости. Например, 3D-СНС может не справиться с задачей различения двух сортов сои с похожими спектральными профилями, но с разным характером роста на большом поле.

Трансформеры, тип нейронных сетей, изначально созданный для обработки естественного языка, предложили решение этой проблемы. Используя механизмы самовнимания, трансформеры отлично справляются с моделированием глобальных связей в данных. Самонаблюдение позволяет модели оценивать важность различных частей входной последовательности, что позволяет ей фокусироваться на значимых областях (например, кластере больных растений), игнорируя шум (например, тени от облаков).

Связанные: Контроль урожая с аналитикой стабильности и производительности

Однако они часто упускают мелкие локальные детали, такие как края листьев или трещины на почве. Гибридные модели, такие как CTMixer, пытались объединить CNN и трансформаторы, но делали это последовательно, обрабатывая сначала локальные, а затем глобальные признаки. Такой подход приводил к неэффективному объединению информации и неоптимальной производительности в сложных сельскохозяйственных условиях.

Как работает CMTNet: Соединяя локальные и глобальные функции

CMTNet преодолевает эти ограничения благодаря уникальной трехкомпонентной архитектуре, разработанной для эффективного извлечения и объединения спектрально-пространственных, локальных и глобальных признаков.

1. Первый компонент - модуль извлечения спектрально-пространственных признаков, обрабатывает необработанные данные HSI с помощью 3D и 2D конволюционных слоев.

3D-сверточные слои анализируют одновременно пространственные (высота × ширина) и спектральные (длина волны) измерения, улавливая такие закономерности, как отражение определенных длин волн в пологом растении. Например, 3D-ядро может определить, что здоровая кукуруза отражает больше ближнего инфракрасного света в верхних листьях по сравнению с нижними.

Затем 2D-слои уточняют эти характеристики, фокусируясь на пространственных деталях, таких как расположение растений на поле. Этот двухэтапный процесс позволяет сохранить как спектральное разнообразие (например, содержание хлорофилла), так и пространственный контекст (например, расстояние между рядами).

2. Второй компонент - модуль локально-глобального извлечения признаков, работает параллельно. Одна ветвь использует CNN для фокусировки на локальных деталях, таких как текстура отдельных листьев или форма почвенных пятен. Эти особенности важны для идентификации видов со схожими спектральными профилями, например, различных сортов сои.

Другая ветвь использует трансформаторы для моделирования глобальных отношений, таких как распределение сельскохозяйственных культур по большой площади или влияние теней от близлежащих деревьев на спектральные показатели. Обрабатывая эти признаки одновременно, а не последовательно, CMTNet избегает потери информации, которая характерна для более ранних гибридных моделей.

Например, в то время как ветвь CNN определяет зазубренные края листьев хлопка, ветвь Transformer распознает, что эти листья являются частью большого хлопкового поля, окаймленного растениями кунжута.

3. Третий компонент - модуль многовыходных ограничений, обеспечивает сбалансированное обучение локальных, глобальных и объединенных признаков. В процессе обучения к каждому типу признаков применяются отдельные функции потерь, что заставляет сеть совершенствовать все аспекты своего понимания.

Функция потерь оценивает разницу между прогнозируемыми и фактическими значениями, направляя корректировки модели. Например, потери для локальных признаков могут наказывать модель за неправильную классификацию краев листьев, в то время как глобальные потери исправляют ошибки в крупномасштабном распределении культур.

Эти потери комбинируются с помощью весов, оптимизированных с помощью случайного поиска - метода, который проверяет различные комбинации весов для достижения максимальной точности. Результатом этого процесса является надежная и адаптируемая модель, способная работать с различными сельскохозяйственными сценариями.

Оценка производительности CMTNet на гиперспектральных данных с БПЛА

Чтобы оценить CMTNet, исследователи протестировали его на трех гиперспектральных наборах данных, полученных с помощью БПЛА в Уханьском университете. Эти наборы данных широко используются в дистанционном зондировании благодаря их высокому качеству и разнообразию:

ВГУ-Хи-Лонгкоу: Этот набор данных охватывает 550 × 400 пикселей с 270 спектральными полосами и пространственным разрешением 0,463 метра. Пространственное разрешение 0,463 м означает, что каждый пиксель представляет собой участок земли размером 0,463 м × 0,463 м, что позволяет идентифицировать отдельные растения. В систему включены девять видов культур, таких как кукуруза, хлопок и рис, с 1 019 обучающими и 203 523 тестовыми образцами.
ВГУ-Хи-ХаньЧуань: В этом наборе данных с разрешением 0,109 м, составляющем 1 217 × 303 пикселя, представлены 16 типов почвенно-растительного покрова, включая клубнику, сою и пластиковые листы. Высокое разрешение (0,109 м) позволяет получить более тонкие детали, например, различить молодые и зрелые растения сои. Количество обучающих и тестовых образцов составило 1 289 и 256 241 соответственно.
ВГУ-Хи-Хонг-Ху: Этот набор данных высокого разрешения (0,043 м) с разрешением 940 × 475 пикселей и 270 полосами включает 22 класса, таких как хлопок, рапс и проростки чеснока. При разрешении 0,043 м видны отдельные листья и трещины в почве, что делает его идеальным для мелкозернистой классификации. Он содержит 1 925 обучающих и 384 678 тестовых образцов.

Связанные: Как партнерство John Deere и SpaceX повлияет на точное земледелие?

Модель была обучена на графических процессорах NVIDIA TITAN Xp с помощью PyTorch, со скоростью обучения 0,001 и размером партии 100. Скорость обучения определяет, насколько сильно модель подстраивает свои параметры в процессе обучения - слишком высокая может привести к превышению оптимальных значений, слишком низкая - к замедлению обучения.

Каждый эксперимент повторялся десять раз для обеспечения надежности, а входные пятна - небольшие сегменты полного изображения - были оптимизированы до 13 × 13 пикселей с помощью поиска сетки - метода, который тестирует различные размеры пятна, чтобы найти наиболее эффективный.

CMTNet достигла современной точности в классификации сельскохозяйственных культур

CMTNet достигла выдающихся результатов во всех наборах данных, превзойдя существующие методы как по общей точности (OA), так и по производительности для каждого класса. OA измеряет процент правильно классифицированных пикселей по всем классам, а средняя точность (AA) рассчитывает среднюю точность по классам, устраняя дисбаланс.

На наборе данных WHU-Hi-LongKou CMTNet достигла OA 99,58%, превзойдя CTMixer на 0,19%. Для сложных классов с ограниченным количеством обучающих данных, таких как хлопок (41 образец), CMTNet все равно достигла точности 99,53%. Аналогичным образом, на наборе данных WHU-Hi-HanChuan она повысила точность определения арбуза (22 образца) с 82,42% до 96,11%, продемонстрировав способность обрабатывать несбалансированные данные благодаря эффективному объединению признаков.

Визуальное сравнение карт классификации показало меньшее количество фрагментированных пятен и более гладкие границы между полями по сравнению с такими моделями, как 3D-CNN и Vision Transformer (ViT). Например, в наборе данных WHU-Hi-HanChuan, подверженном влиянию тени, CMTNet минимизировала ошибки, вызванные низкими углами солнца, в то время как ResNet ошибочно классифицировала соевые бобы как серые крыши.

Тени представляют собой уникальную проблему, поскольку они изменяют спектральные сигнатуры - растение сои в тени может отражать меньше света в ближней инфракрасной области, что напоминает отсутствие растительности. Используя глобальный контекст, CMTNet распознала, что эти затененные растения являются частью большого соевого поля, что позволило сократить количество ошибок.

На наборе данных WHU-Hi-HongHu модель отлично справилась с задачей различения спектрально схожих культур, таких как различные сорта брассики, достигнув точности 96,54% для Brassica parachinensis.

Исследования с удалением компонентов для оценки их влияния подтвердили важность каждого модуля. Одно только добавление модуля многовыходных ограничений повысило OA на 1,52% в WHU-Hi-HongHu, что подчеркивает его роль в улучшении слияния признаков. Без этого модуля локальные и глобальные признаки объединялись бессистемно, что приводило к противоречивым классификациям.

Вычислительные компромиссы и практические соображения

Несмотря на непревзойденную точность CMTNet, его вычислительные затраты выше, чем у традиционных методов. Обучение на наборе данных WHU-Hi-HongHu заняло 1 885 секунд, по сравнению с 74 секундами для Random Forest (RF), алгоритма машинного обучения, который строит деревья решений в процессе обучения.

Однако такой компромисс оправдан в точном земледелии, где точность напрямую влияет на прогнозы урожайности и распределение ресурсов. Например, неправильная классификация больной культуры как здоровой может привести к неконтролируемой вспышке вредителей, опустошающей целые поля.

Связанные: Как обнаружение множества сорняков на основе YOLOv8 повышает эффективность точного земледелия при выращивании хлопка?

Для приложений, работающих в режиме реального времени, в будущем можно будет изучить методы сжатия модели, такие как обрезка лишних нейронов или квантование весов (уменьшение точности числовых значений), чтобы сократить время выполнения без ущерба для производительности. Обрезка удаляет менее важные связи из нейронной сети, подобно обрезке ветвей дерева для улучшения его формы, а квантование упрощает численные расчеты, ускоряя обработку.

Будущее гиперспектральной классификации сельскохозяйственных культур с помощью CMTNet

Несмотря на успех, CMTNet сталкивается с ограничениями. Производительность немного снижается в сильно затененных регионах, как видно из набора данных WHU-Hi-HanChuan (97,29% OA против 99,58% в хорошо освещенном LongKou). Тени усложняют классификацию, поскольку они снижают интенсивность отраженного света, изменяя спектральные профили.

Кроме того, классы с очень маленькими обучающими выборками, например узколистная соя (20 выборок), отстают от классов с большим количеством данных. Малый объем выборки ограничивает способность модели изучать различные вариации, такие как различия в форме листьев, обусловленные качеством почвы.

Будущие исследования могут объединить мультимодальные данные, такие как карты высот LiDAR или тепловизионные изображения, чтобы повысить устойчивость к теням и окклюзиям. LiDAR (Light Detection and Ranging) использует лазерные импульсы для создания трехмерных моделей местности, что может помочь отличить посевы от тени, анализируя разницу в высоте.

Кроме того, тепловидение фиксирует тепловые сигнатуры, что дает дополнительные подсказки о состоянии растений - у культур, находящихся в стрессовом состоянии, часто наблюдается повышенная температура под навесом из-за снижения транспирации. Методы полуконтрольного обучения, использующие немаркированные данные (например, изображения с БПЛА без ручных аннотаций), также могут повысить производительность для редких видов культур.

Используя регуляризацию согласованности - обучение модели стабильным прогнозам для слегка измененных версий одного и того же изображения, - исследователи могут использовать немаркированные данные для улучшения обобщения.

Наконец, развертывание CMTNet на граничных устройствах, таких как беспилотники, оснащенные встроенными графическими процессорами, может обеспечить мониторинг в реальном времени на удаленных полях. Развертывание на границе позволяет снизить зависимость от облачных вычислений, минимизировать задержки и затраты на передачу данных. Однако для этого необходимо оптимизировать модель для ограниченной памяти и вычислительной мощности, возможно, с помощью облегченных архитектур, таких как MobileNet, или дистилляции знаний, когда меньшая модель “ученика” имитирует большую модель “учителя”.

Заключение

CMTNet представляет собой значительный скачок вперед в области гиперспектральной классификации сельскохозяйственных культур. Объединив CNN и трансформаторы, она решает давние проблемы извлечения и объединения признаков, предлагая фермерам и агрономам мощный инструмент для точного земледелия.

Области применения - от обнаружения болезней в режиме реального времени до оптимизации графиков орошения, что крайне важно для устойчивого ведения сельского хозяйства в условиях изменения климата и роста населения. По мере того как технология БПЛА становится все более доступной, такие модели, как CMTNet, будут играть ключевую роль в обеспечении глобальной продовольственной безопасности.

Будущие достижения, такие как облегченные архитектуры и слияние мультимодальных данных, могут еще больше повысить их практичность. Благодаря постоянным инновациям CMTNet может стать краеугольным камнем интеллектуальных сельскохозяйственных систем во всем мире, обеспечивая эффективное использование земли и устойчивое производство продовольствия для будущих поколений.

Ссылка: Guo, X., Feng, Q. & Guo, F. CMTNet: гибридная CNN-трансформаторная сеть для классификации гиперспектральных культур на основе БПЛА в точном земледелии. Sci Rep 15, 12383 (2025). https://doi.org/10.1038/s41598-025-97052-w