As redes neurais sempre desempenharam um papel importante nos sistemas automáticos de detecção de fraude Ghosh & Reilly (1994). No entanto, raramente são a primeira escolha em produção, pois as transações são dados tabulares e muitos profissionais ainda dependem da engenharia de características e de técnicas clássicas de aprendizado de máquina, como florestas aleatórias ou XGBoost. Ainda assim, além de poderem alcançar desempenhos muito competitivos, elas também têm muitas vantagens para o problema de detecção de fraude em cartão de crédito. Representam um modelo adicional que fornece um comportamento diferente, podem ser federadas facilmente, automatizam a engenharia de características e o aprendizado de representação, e são diferenciáveis e incrementais.
Neste capítulo, o objetivo foi cobrir a metodologia para construir redes neurais para detecção de fraude, desde considerações gerais sobre o design de um pipeline de aprendizado profundo até a implementação de diversas arquiteturas: uma rede neural feed-forward, um autoencoder, uma rede neural convolucional, uma rede de memória de longo e curto prazo e um LSTM com Atenção.
Essa metodologia oferece uma visão geral dos principais elementos no design de uma rede neural. Comparativamente aos métodos clássicos, existe um conjunto infinito de hiperparâmetros e possibilidades, o que implica um processo de ajuste demorado, mas permite uma grande expressividade.
As diferentes arquiteturas desenvolvidas no capítulo pertencem a diferentes famílias de técnicas:
A rede feed-forward regular é a arquitetura mais simples, mas mais amplamente utilizada de aprendizado profundo. É composta apenas de neurônios totalmente conectados e é a escolha padrão para resolver problemas de classificação/regressão em dados tabulares, com um conjunto de características com valores numéricos.
O objetivo do autoencoder é aprender representações para reconstruir variáveis descritivas, portanto foi amplamente utilizado para problemas de aprendizado não supervisionado. Este método é interessante porque a detecção de anomalias, e em particular a detecção de fraude, pode ser abordada com técnicas não supervisionadas ou semi-supervisionadas. Uma forma de usar o autoencoder para esse propósito é considerar seu erro de reconstrução como um indicador de risco de fraude. Ele pode ser usado exclusivamente para detectar outliers, mas isso geralmente leva a uma baixa precisão. Também pode ser usado como uma variável extra na classificação supervisionada.
A CNN e o LSTM (com ou sem atenção) podem ser usados como modelos sequenciais. Eles permitem construir automaticamente características a partir de dados contextuais. Para classificar uma transação como fraudulenta ou legítima, geralmente é útil recorrer ao comportamento regular do titular do cartão para detectar uma discrepância. Um método manual para integrar essas informações contextuais é proceder com engenharia de características e a criação de agregações de características especializadas. Em vez disso, os modelos sequenciais dependem de uma sequência de transações que precede a transação atual e está relacionada a ela por uma variável de referência como o ID do cliente, e calculam automaticamente uma representação que resume a sequência.
Em conclusão, os métodos de aprendizado profundo para detecção de fraude são variados, parecem ser competitivos com abordagens clássicas de aprendizado de máquina tanto em dados simulados quanto em dados do mundo real, e têm múltiplas vantagens práticas. Portanto, definitivamente merecem um lugar na caixa de ferramentas do profissional de detecção de fraude.
- Ghosh, S., & Reilly, D. L. (1994). Credit card fraud detection with a neural-network. System Sciences, 1994. Proceedings of the Twenty-Seventh Hawaii International Conference On, 3, 621–630.