ETL E MODELAGEM DE EXTRATOS DO BANCO DO BRASIL: SELENIUM + TIDYVERSE
Résumé
Extratos bancários são extremamente importantes para acompanhar a saúde
financeira de pessoas físicas e jurídicas. A partir dos dados financeiros gerados pelas
movimentações bancárias dos usuários, aplicativos como GuiaBolso e Mobills consultam
extratos para montar infográficos sobre compras, saldos mensais, de forma a prover
orientação financeira. Como incremento de informação, a aplicação de aprendizado de
máquina permite a apresentação de análises preditivas baseadas no comportamento
observado, caracterizando-se como aspecto importante para tomadas de decisão.
A automação de rotinas manuais é fundamental para remover ou diminuir processos
burocráticos, e obter foco somente em análises complexas, como predições de dados.
Desta forma, o presente trabalho se propõe a realizar um fluxo de extração, transformação e
carga de dados utilizando Selenium e Pandas com Python. Além disso, aplica aprendizado
de máquina para realizar previsões de saldos mensais e diários como experimentação,
utilizando R. De forma geral, a intenção é realizar um trabalho útil para monitoramento e
previsão de dados financeiros em conjunto com R e Python.
Para possibilitar um fluxo contínuo de ações, muitos agendadores de tarefas como
CRON e IBM DataStage são utilizados. O fluxo deste resumo simples será orquestrado por
Apache Airflow. que tem como objetivo a execução de tarefas pré-agendadas. A grande
vantagem em utilizar essa tecnologia está na sua aplicabilidade, configuração, e
monitoramento através de um código Python e servidor web.