O aprendizado com dados desbalanceados aborda problemas de classificação onde o número de exemplos que representam uma classe é muito menor do que os das outras classes. Aprender com conjuntos de dados desbalanceados é uma tarefa difícil, pois a maioria dos algoritmos de aprendizado não foi projetada para lidar com uma grande diferença entre o número de casos pertencentes a diferentes classes. Os algoritmos de classificação são frequentemente tendenciosos em favor dos exemplos da classe majoritária, de modo que os da classe minoritária não são bem modelados no sistema final Fernández et al. (2018)Chawla (2009)Chawla et al. (2004).
A fraude em cartão de crédito é um exemplo de problema desbalanceado, pois a proporção de fraudes em conjuntos de dados do mundo real pode ser tão baixa quanto 0,01% Lucas & Jurgovsky (2020)Bank (2020)Dal Pozzolo (2015). Conjuntos de dados desbalanceados são mais geralmente encontrados em muitos domínios de aplicação, como telecomunicações, bioinformática ou diagnóstico médico, e foram considerados um dos dez principais problemas em mineração de dados e reconhecimento de padrões Lemaître et al. (2017).
Muitas soluções foram propostas para lidar com esse problema, tanto para algoritmos de aprendizado padrão quanto para técnicas de ensemble. As técnicas de aprendizado com dados desbalanceados podem ser amplamente categorizadas em métodos sensíveis a custo e de reamostragem. Nos métodos sensíveis a custo, os algoritmos são ajustados para favorecer a detecção da classe minoritária. Isso geralmente implica uma modificação da função de otimização na etapa de treinamento do algoritmo de aprendizado. Pelo contrário, os métodos de reamostragem operam no nível dos dados, adicionando uma etapa de pré-processamento para reequilibrar o conjunto de dados antes da aplicação do algoritmo de treinamento. A reamostragem pode ser realizada removendo exemplos da classe majoritária (técnicas de subamostragem), adicionando exemplos da classe minoritária (técnicas de sobreamostragem), ou combinando subamostragem e sobreamostragem Fernández et al. (2018)Dal Pozzolo (2015).
O capítulo está estruturado da seguinte forma. A Seção 6.2 cobre inicialmente os métodos sensíveis a custo. A Seção 6.3 cobre as estratégias de reamostragem. A Seção 6.4 cobre os métodos baseados em técnicas de ensemble.
- Fernández, A., Garcı́a, S., Galar, M., Prati, R. C., Krawczyk, B., & Herrera, F. (2018). Learning from imbalanced data sets. Springer.
- Chawla, N. V. (2009). Data mining for imbalanced datasets: An overview. In Data mining and knowledge discovery handbook (pp. 875–886). Springer.
- Chawla, N. V., Japkowicz, N., & Kotcz, A. (2004). Special issue on learning from imbalanced data sets. ACM SIGKDD Explorations Newsletter, 6(1), 1–6.
- Lucas, Y., & Jurgovsky, J. (2020). Credit card fraud detection using machine learning: A survey. arXiv Preprint arXiv:2010.06479.
- Bank, E. C. (2020). 6th report on card fraud. https://www.ecb.europa.eu/pub/cardfraud/html/ecb.cardfraudreport202008~521edb602b.en.html#toc2
- Dal Pozzolo, A. (2015). Adaptive machine learning for credit card fraud detection. Université libre de Bruxelles.
- Lemaître, G., Nogueira, F., & Aridas, C. K. (2017). Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning. Journal of Machine Learning Research, 18(17), 1–5. http://jmlr.org/papers/v18/16-365.html