Introdução - Aprendizado de Máquina Reprodutível para Detecção de Fraude em Cartão de Crédito

Este capítulo discute como avaliar o desempenho de um sistema de detecção de fraude. Intuitivamente, a tarefa parece simples. Um sistema ideal de detecção de fraude deve maximizar o número de classificações corretas e detectar todas as transações fraudulentas. Portanto, é tentador pensar que simplesmente minimizar a proporção de transações classificadas incorretamente (uma métrica conhecida como erro médio de classificação incorreta) é a métrica a otimizar.

Como mostraremos em breve, o erro médio de classificação incorreta é uma métrica de desempenho inadequada, devido à natureza sensível a custos e desequilibrada de um problema de detecção de fraude. Uma forma simples de ilustrar isso é observar que, para um conjunto de dados de transações com 0,1% de transações fraudulentas, um modelo de linha de base simples que classifica todas as transações como legítimas fornece uma acurácia muito alta de 0,99. Isso é amplamente reconhecido na literatura de detecção de fraude, e outras métricas de desempenho são, portanto, comumente utilizadas Tharwat (2020)Dal Pozzolo et al. (2017)Elkan (2001). As mais comuns são a revocação, a especificidade, a precisão, o F1 score, a AUC ROC e a Precisão Média.

Nas próximas seções, detalharemos essas métricas e discutiremos seus prós e contras. Mostraremos que, apesar de seu papel central na avaliação de um sistema de detecção de fraude, não há consenso sobre qual métrica deve ser utilizada.

As métricas de revocação, especificidade, precisão e F1 score, também conhecidas como métricas baseadas em limiar, têm limitações bem conhecidas devido à sua dependência de um limiar de decisão difícil de determinar na prática e que depende fortemente das restrições específicas do negócio. Elas são frequentemente complementadas com a AUC ROC e, mais recentemente, com a métrica de Precisão Média (AP). As métricas AUC ROC e AP visam avaliar, com um único número, o desempenho para todos os limiares de decisão possíveis, e são denominadas métricas livres de limiar. A AUC ROC é atualmente a métrica de facto para avaliar acurácias de detecção de fraude Chawla (2009)Dal Pozzolo (2015). Pesquisas recentes mostraram, no entanto, que essa métrica também é enganosa para avaliar problemas altamente desequilibrados, como a detecção de fraude Muschelli (2019), e recomendaram o uso da curva Precisão-Revocação e da métrica AP Saito & Rehmsmeier (2015)Boyd et al. (2013).

O capítulo está estruturado da seguinte forma. A Seção 4.2 apresenta inicialmente a detecção de fraude como um problema de classificação e detalha as principais métricas baseadas em limiar. Por meio de um exemplo simples, mostramos que o erro médio de classificação incorreta é um mau indicador de desempenho e motivamos o uso de métricas alternativas como revocação, especificidade, precisão e F1 score. A Seção 4.3 discute o uso de medidas livres de limiar, como AUC ROC e AP, e mostra seus benefícios e limitações. A Seção 4.4 aborda o problema de detecção de fraude de uma perspectiva mais operacional e motiva o uso da métrica Precisão de Cartão top- $k$ .

References¶

Tharwat, A. (2020). Classification assessment methods. Applied Computing and Informatics.
Dal Pozzolo, A., Boracchi, G., Caelen, O., Alippi, C., & Bontempi, G. (2017). Credit card fraud detection: a realistic modeling and a novel learning strategy. IEEE Transactions on Neural Networks and Learning Systems, 29(8), 3784–3797.
Elkan, C. (2001). The foundations of cost-sensitive learning. International Joint Conference on Artificial Intelligence, 17(1), 973–978.
Chawla, N. V. (2009). Data mining for imbalanced datasets: An overview. In Data mining and knowledge discovery handbook (pp. 875–886). Springer.
Dal Pozzolo, A. (2015). Adaptive machine learning for credit card fraud detection. Université libre de Bruxelles.
Muschelli, J. (2019). Roc and auc with a binary predictor: a potentially misleading metric. Journal of Classification, 1–13.
Saito, T., & Rehmsmeier, M. (2015). The precision-recall plot is more informative than the ROC plot when evaluating binary classifiers on imbalanced datasets. PloS One, 10(3), e0118432.
Boyd, K., Eng, K. H., & Page, C. D. (2013). Area under the precision-recall curve: point estimates and confidence intervals. Joint European Conference on Machine Learning and Knowledge Discovery in Databases, 451–466.