Barley Farming Gets a Boost With Lightweight YOLOv5 Detection

A cevada das terras altas, uma cultura de cereais resistente cultivada nas regiões de alta altitude do Planalto Qinghai-Tibet da China, desempenha um papel fundamental na segurança alimentar e na estabilidade econômica locais. Conhecida cientificamente como Hordeum vulgare L., essa cultura se desenvolve em condições extremas - ar rarefeito, baixos níveis de oxigênio e uma temperatura média anual de 6,3 °C -, o que a torna indispensável para comunidades em ambientes adversos.

Com mais de 270.000 hectares dedicados ao seu cultivo na China, principalmente na Região Autônoma de Xizang, a cevada das terras altas é responsável por mais da metade da área plantada da região e por mais de 70% de sua produção total de grãos. O monitoramento preciso da densidade da cevada - o número de plantas ou espigas por unidade de área - é essencial para otimizar as práticas agrícolas, como irrigação e fertilização, e prever a produtividade.

No entanto, os métodos tradicionais, como amostragem manual ou imagens de satélite, têm se mostrado ineficientes, trabalhosos ou insuficientemente detalhados. Para enfrentar esses desafios, pesquisadores da Fujian Agriculture and Forestry University e da Chengdu University of Technology desenvolveram um modelo inovador de IA baseado no YOLOv5, um algoritmo de detecção de objetos de última geração.

Seu trabalho, publicado em Métodos de Plantas (2025), obteve resultados notáveis, incluindo uma precisão média média (mAP) de 93,1% - uma métrica que mede a precisão geral da detecção - e uma redução de 75,6% nos custos computacionais, tornando-a adequada para implantações de drones em tempo real.

Desafios e inovações no monitoramento de culturas

A importância da cevada das terras altas vai além de seu papel como fonte de alimento. Somente em 2022, a cidade de Rikaze, uma importante região produtora de cevada, colheu 408.900 toneladas de cevada em 60.000 hectares, contribuindo com quase metade da produção total de grãos do Tibete.

Apesar de sua importância cultural e econômica, estimar a produtividade da cevada tem sido um desafio há muito tempo. Os métodos tradicionais, como a contagem manual ou imagens de satélite, exigem muita mão de obra ou não têm a resolução necessária para detectar espigas individuais de cevada - a parte da planta que contém os grãos, que geralmente têm apenas 2 a 3 centímetros de largura.

A amostragem manual exige que os agricultores inspecionem fisicamente as seções de um campo, um processo que é lento, subjetivo e impraticável para fazendas de grande escala. As imagens de satélite, embora úteis para observações amplas, sofrem com a baixa resolução (geralmente de 10 a 30 metros por pixel) e com as frequentes interrupções climáticas, como a cobertura de nuvens em regiões montanhosas como o Tibete.

Para superar essas limitações, os pesquisadores recorreram a veículos aéreos não tripulados (UAVs), ou drones, equipados com câmeras de 20 megapixels. Esses drones capturaram 501 imagens de alta resolução de campos de cevada na cidade de Rikaze durante dois estágios críticos de crescimento: o estágio de crescimento em agosto de 2022, caracterizado por espigas verdes e em desenvolvimento, e o estágio de maturação em agosto de 2023, marcado por espigas amarelo-douradas e prontas para a colheita.

Relacionado: How IoT Is Transforming Precision Agriculture and Solving Current Challenges?

No entanto, a análise dessas imagens apresentou desafios, incluindo bordas borradas causadas pelo movimento do drone, o pequeno tamanho das espigas de cevada em vistas aéreas e a sobreposição de espigas em campos densamente plantados.

Para resolver esses problemas, os pesquisadores pré-processaram as imagens dividindo cada imagem de alta resolução em 35 subimagens menores e filtrando as bordas borradas, o que resultou em 2.970 subimagens de alta qualidade para treinamento. Essa etapa de pré-processamento garantiu que o modelo se concentrasse em dados claros e acionáveis, evitando distrações de regiões de baixa qualidade.

Avanços técnicos na detecção de objetos

O ponto central dessa pesquisa é o algoritmo YOLOv5 (You Only Look Once versão 5), um modelo de detecção de objetos de um estágio conhecido por sua velocidade e design modular. Ao contrário dos modelos antigos de dois estágios, como o Faster R-CNN, que primeiro identifica as regiões de interesse e depois classifica os objetos, o YOLOv5 realiza a detecção em uma única passagem, o que o torna significativamente mais rápido.

O modelo de linha de base YOLOv5n, com 1,76 milhão de parâmetros (componentes configuráveis do modelo de IA) e 4,1 bilhões de FLOPs (operações de ponto flutuante, uma medida de complexidade computacional), já era eficiente. No entanto, a detecção de picos de cevada minúsculos e sobrepostos exigia mais otimização.

A equipe de pesquisa introduziu três aprimoramentos importantes no modelo: convolução separável em profundidade (DSConv), convolução fantasma (GhostConv) e um módulo de atenção de bloco convolucional (CBAM).

A convolução separável por profundidade (DSConv) reduz os custos de computação dividindo o processo de convolução padrão - uma operação matemática que extrai recursos de imagens - em duas etapas. Primeiro, a convolução por profundidade aplica filtros a canais de cores individuais (por exemplo, vermelho, verde, azul), analisando cada canal separadamente.

Isso é seguido pela convolução pontual, que combina os resultados entre os canais usando kernels 1×1. Essa abordagem reduz a contagem de parâmetros em até 75%.

Por exemplo, uma convolução 3×3 tradicional com 64 canais de entrada e 128 canais de saída requer 73.728 parâmetros, enquanto o DSConv reduz esse número para apenas 8.768 - uma redução de 88%. Essa eficiência é fundamental para a implementação de modelos em drones ou dispositivos móveis com capacidade de processamento limitada.

A convolução fantasma (GhostConv) torna o modelo ainda mais leve, gerando mapas de recursos adicionais - representações simplificadas de padrões de imagem - por meio de operações lineares simples, como rotação ou dimensionamento, em vez de convoluções que consomem muitos recursos.

As camadas de convolução tradicionais produzem recursos redundantes, desperdiçando recursos computacionais. O GhostConv resolve esse problema criando recursos “fantasmas” a partir dos existentes, reduzindo efetivamente pela metade os parâmetros em determinadas camadas.

Por exemplo, uma camada com 64 canais de entrada e 128 canais de saída tradicionalmente exigiria 73.728 parâmetros, mas o GhostConv reduz isso para 36,864 mantendo a precisão. Essa técnica é especialmente útil para a detecção de objetos pequenos, como espigas de cevada, em que a eficiência computacional é fundamental.

O módulo de atenção de bloco convolucional (CBAM) foi integrado para ajudar o modelo a se concentrar em recursos essenciais, mesmo em ambientes desordenados. Os mecanismos de atenção, inspirados nos sistemas visuais humanos, permitem que os modelos de IA priorizem partes importantes de uma imagem.

Relacionado: O Índice de Vegetação por Diferença Normalizada (NDVI) facilita a vida do agricultor

O CBAM emprega dois tipos de atenção: atenção ao canal, que identifica canais de cores importantes (por exemplo, verde para picos de crescimento), e atenção espacial, que destaca regiões importantes em uma imagem (por exemplo, grupos de picos). Ao substituir os módulos padrão por DSConv e GhostConv e incorporar o CBAM, os pesquisadores criaram um modelo mais enxuto e preciso, adaptado para a detecção de cevada.

Implementação e resultados

Para treinar o modelo, os pesquisadores rotularam manualmente 135 imagens originais usando caixas delimitadoras - quadros retangulares que marcam o local dos picos de cevada - categorizando os picos em estágios de crescimento e maturação. As técnicas de aumento de dados - incluindo rotação, injeção de ruído, oclusão e nitidez - expandiram o conjunto de dados para 2.970 imagens, melhorando a capacidade de generalização do modelo em diversas condições de campo.

Por exemplo, a rotação de imagens em 90°, 180° ou 270° ajudou o modelo a reconhecer picos de diferentes ângulos, enquanto a adição de ruído simulou imperfeições do mundo real, como poeira ou sombras. O conjunto de dados foi dividido em um conjunto de treinamento (80%) e um conjunto de validação (20%), garantindo uma avaliação robusta.

O treinamento foi realizado em um sistema de alto desempenho com uma CPU AMD Ryzen 7, GPU NVIDIA RTX 4060 e 64 GB de RAM, usando a estrutura PyTorch, uma ferramenta popular para aprendizagem profunda. Mais de 300 épocas de treinamento (passagens completas pelo conjunto de dados), a precisão do modelo (exatidão das detecções corretas), a recuperação (capacidade de encontrar todos os picos relevantes) e a perda (taxa de erro) foram meticulosamente monitoradas.

Os resultados foram impressionantes. O modelo YOLOv5 aprimorado alcançou uma precisão de 92,2% (acima dos 89,1% da linha de base) e uma recuperação de 86,2% (acima dos 83,1%), superando a linha de base YOLOv5n em 3,1% em ambas as métricas. Sua precisão média (mAP) - uma métrica abrangente que calcula a média da precisão da detecção em todas as categorias - atingiu 93,1%, com pontuações individuais de 92,7% para picos em estágio de crescimento e 93,5% para picos em estágio de maturação.

Igualmente impressionante foi sua eficiência computacional: os parâmetros do modelo diminuíram em 70,6% para 1,2 milhão, e os FLOPs diminuíram em 75,6% para 3,1 bilhões. Análises comparativas com modelos líderes como o Faster R-CNN e o YOLOv8n destacaram sua superioridade.

Embora o YOLOv8n tenha alcançado um mAP ligeiramente maior (93,8%), seus parâmetros (3,0 milhões) e FLOPs (8,1 bilhões) foram 2,5x e 2,6x maiores, respectivamente, tornando o modelo proposto muito mais eficiente para aplicativos em tempo real.

As comparações visuais ressaltaram esses avanços. Nas imagens do estágio de crescimento, o modelo aprimorado detectou 41 picos em comparação com os 28 da linha de base. Durante a maturação, ele identificou 3 picos em comparação com os 2 da linha de base, com menos detecções perdidas (marcadas por setas laranja) e falsos positivos (marcados por setas roxas).

Essas melhorias são vitais para os agricultores que dependem de dados precisos para prever rendimentos e otimizar recursos. Por exemplo, contagens precisas de espigas permitem melhores estimativas da produção de grãos, informando decisões sobre o momento da colheita, armazenamento e planejamento de mercado.

Relacionado: Crop yield prediction with remote sensing data in Precision Agriculture

Orientações futuras e implicações práticas

Apesar de seu sucesso, o estudo reconheceu suas limitações. O desempenho caiu em condições extremas de iluminação, como brilho intenso do meio-dia ou sombras pesadas, que podem obscurecer os detalhes dos picos. Além disso, as caixas delimitadoras retangulares às vezes não se ajustavam a pontas de formato irregular, introduzindo pequenas imprecisões.

O modelo também excluiu as bordas borradas das imagens de VANT, o que exigia o pré-processamento manual - uma etapa que aumenta o tempo e a complexidade.

O trabalho futuro visa abordar esses problemas expandindo o conjunto de dados para incluir imagens capturadas ao amanhecer, ao meio-dia e ao anoitecer, experimentando anotações em forma de polígono (formas flexíveis que se ajustam melhor a objetos irregulares) e desenvolvendo algoritmos para lidar melhor com regiões desfocadas sem intervenção manual.

As implicações dessa pesquisa são profundas. Para os agricultores de regiões como o Tibete, o modelo oferece estimativa de rendimento em tempo real, substituindo as contagens manuais que exigem muita mão de obra pela automação baseada em drones. A distinção entre os estágios de crescimento permite o planejamento preciso da colheita, reduzindo as perdas decorrentes da colheita prematura ou atrasada.

Dados detalhados sobre a densidade de espigas - como a identificação de áreas subpovoadas ou superpovoadas - podem informar estratégias de irrigação e fertilização, reduzindo o desperdício de água e de produtos químicos. Além da cevada, a arquitetura leve é promissora para outras culturas, como trigo, arroz ou frutas, abrindo caminho para aplicações mais amplas na agricultura de precisão.

Conclusão

Concluindo, este estudo exemplifica o potencial transformador da IA na abordagem dos desafios agrícolas. Ao refinar o YOLOv5 com técnicas leves e inovadoras, os pesquisadores criaram uma ferramenta que equilibra precisão e eficiência - essenciais para a implantação no mundo real em ambientes com recursos limitados.

Termos como mAP, FLOPs e mecanismos de atenção podem parecer técnicos, mas seu impacto é profundamente prático: eles permitem que os agricultores tomem decisões baseadas em dados, conservem recursos e maximizem a produtividade. À medida que as mudanças climáticas e o crescimento populacional intensificam a pressão sobre os sistemas alimentares globais, esses avanços serão indispensáveis.

Para os agricultores do Tibete e de outros países, essa tecnologia representa não apenas um salto na eficiência agrícola, mas um sinal de esperança para a segurança alimentar sustentável em um futuro incerto.

Referência: Cai, M., Deng, H., Cai, J. et al. Lightweight highland barley detection based on improved YOLOv5. Plant Methods 21, 42 (2025). https://doi.org/10.1186/s13007-025-01353-0