Este capítulo cobriu o uso de técnicas de aprendizado com dados desbalanceados no contexto da detecção de fraude em cartão de crédito. Uma ampla gama de abordagens foi considerada, abrangendo técnicas sensíveis a custo, de reamostragem e de ensemble. Para cada abordagem, a avaliação experimental incluiu um exemplo simples, um conjunto de dados de transações simuladas e um conjunto de dados do mundo real.
Uma das principais conclusões dos experimentos realizados neste capítulo é que os benefícios das técnicas de aprendizado com dados desbalanceados são mitigados. Na maioria dos casos, elas permitem melhorar métricas de desempenho como AUC ROC, acurácia balanceada e tempos de treinamento. Ao mesmo tempo, geralmente são prejudiciais a métricas como Precisão Média e CP@100.
Vale ressaltar que a maior parte da literatura sobre técnicas de aprendizado com dados desbalanceados para detecção de fraude em cartão de crédito se baseia em AUC ROC, acurácia balanceada e tempos de treinamento para motivar seu uso. Dependendo da métrica a ser otimizada, pode-se considerar alguns desses resultados ou conclusões enganosos (veja também Makki et al. (2019)): conforme discutido no resumo das métricas de desempenho, a Precisão Média e o CP@100 também devem ser incluídos na otimização de um sistema de detecção de fraude.
No geral, os melhores desempenhos de predição foram obtidos com métodos de ensemble. As técnicas de aprendizado com dados desbalanceados permitiram leves melhorias em termos de AUC ROC ou tempos de treinamento para bagging balanceado e floresta aleatória balanceada. O XGBoost mostrou-se o modelo com melhor desempenho na maioria dos experimentos, ilustrando sua robustez a cenários de desequilíbrio de dados em todas as métricas de desempenho. A explicação mais provável é que os resíduos naturalmente dão mais peso à classe minoritária, atuando assim como uma técnica sensível a custo.
- Makki, S., Assaghir, Z., Taher, Y., Haque, R., Hacid, M.-S., & Zeineddine, H. (2019). An experimental study with imbalanced classification approaches for credit card fraud detection. IEEE Access, 7, 93010–93022.