Ir para o conteúdo

Aquisição de dados

Objetivo

O objetivo da aquisição de dados para treinamento do modelo é reunir uma base de dados robusta e representativa de imagens de plantas com doenças. Esses dados serão utilizados no desenvolvimento de um software de Aprendizado de Máquina (ML) destinado a analisar imagens e identificar o tipo de doença presente nas plantas. Para alcançar esse objetivo, é crucial selecionar e adquirir imagens de plantas com uma variedade de doenças e condições, garantindo assim a diversidade necessária para o treinamento eficaz do modelo. Além disso, é importante avaliar a qualidade e a integridade dos dados adquiridos, garantindo que estejam livres de problemas e representem fielmente o problema em questão. Ao estabelecer uma base de dados sólida e bem fundamentada, será possível desenvolver um modelo de ML preciso e confiável para a identificação de doenças em plantas.

Qualidade e documentação da fonte de dados

A base selecionada como principal fonte para os datasets será a base PlantVillage disponibilizada publicamente pelo TensorFlow e que pode ser acessada através do link (ACESSO). Essa base consiste em 54303 imagens de folhas saudáveis e não saudáveis, divididas em 38 categorias por espécie e doença. Esse conjunto de dados foi disponibilizado pela pesquisa “An open access repository of images on plant health to enable the development of mobile disease diagnostics” (ACESSO) em que a url do conjunto de dados primário da pesquisa consta no link (ACESSO).

Todas as imagens do banco de dados PlantVillage foram obtidas em estações de pesquisa experimentais associadas às Land Grant Universities nos EUA (Penn State, Florida State, Cornell e outras). (HUGHES, 2016).

As imagens abrangem 14 espécies de culturas: Maçã, Mirtilo, Cereja, Milho, Uva, Laranja, Pêssego, Pimentão, Batata, Framboesa, Soja, Abóbora, Morango, Tomate. Contém imagens de 17 doenças fúngicas, 4 doenças bacterianas, 2 doenças causadas por fungos (oomicetos), 2 doenças virais e 1 doença causada por um ácaro. 12 espécies cultivadas também apresentam imagens de folhas saudáveis que não são visivelmente afetadas por uma doença. (HUGHES, 2016).

HUGHES (2016) confirma a identidade das doenças através de uma validação feita por fitopatologistas especialistas. Esses especialistas trabalharam diretamente em campo com os dois técnicos que fizeram o diagnóstico. Os estados foram determinados com base em abordagens de fenotipagem padrão usadas por fitopatologistas.

Será utilizado o conjunto de dados com 905 MB de dados, que emprega uma técnica chamada aumento de dados, ou em inglês, "data augmentation". Essa abordagem consiste em gerar várias variações dos dados existentes, proporcionando assim um conjunto de dados expandido para o treinamento. Os dados aumentados são baseados nos dados originais com algumas pequenas alterações. No caso de aumento de imagem, é feita transformações geométricas e de espaço de cores (inversão, redimensionamento, corte, brilho, contraste) para aumentar o tamanho e a diversidade do conjunto de treinamento. Isso permite que o modelo encontre uma gama mais ampla de características e padrões durante o processo de aprendizado.

Preparação do ambiente de trabalho

Para a execução do projeto com as bases de datasets definidas, a equipe optou pela utilização de duas plataformas: o GitHub, para armazenamento de arquivos e controle de versão, e o Google Colab, para o ambiente de trabalho e treinamento do modelo. A escolha do Colab deve-se à necessidade de alto custo de processamento de dados para treinar e validar o modelo. Assim, o Colab, oferecendo um sistema com 12.7 GB de memória RAM, 15 GB de VRAM com GPU dedicada e 78 GB de armazenamento, permite que todos os integrantes disponham do mesmo ambiente de processamento, evitando falhas inesperadas ou falta de componentes.

Este conjunto de dados, licenciado sob a descrição CC0 1.0, segue os padrões de uma Licença de Dedicação ao Domínio Público, o que significa que os arquivos associados estão disponíveis para uso público sem restrições de direitos autorais, permitindo copiar, modificar, distribuir e executar o trabalho, mesmo para fins comerciais, tudo sem pedir permissão. A definição da licença do conjunto de dados pode ser encontrada na página Data for: Identification of Plant Leaf Diseases Using a 9-layer Deep Convolutional Neural Network na sessão “License”.

Referências Bibliográficas

  • HUGHES, D. P.; SALATHE, M. An open access repository of images on plant health to enable the development of mobile disease diagnostics. arXiv, , 11 abr. 2016. Disponível em: http://arxiv.org/abs/1511.08060. Acesso em: 7 abr. 2024
  • DataCamp. A Complete Guide to Data Augmentation. Learn about data augmentation techniques, applications, and tools with a TensorFlow and Keras tutorial. Novembro de 2022. Disponível em: https://www.datacamp.com/tutorial/complete-guide-data-augmentation. Acesso em: 7 abr. 2024.