MODELO DE INTERPRETABILIDADE LOCAL PAUTADO EM RANDOM FOREST PARA CLASSIFICAÇÃO DE USOS DOMÉSTICOS DE ÁGUA
Resumo
Ao se tratar do uso de recurso hídricos em nível domestico entende-se que monitorar o consumo de água é crucial na gerência de consumo e desperdícios de água. É através do monitoramento que é possível traçar padrões capazes de auxiliar na governança dos recursos hídricos. Neste sentido surge a proposta de pesquisa na qual este trabalho se insere buscando compreender o uso intradomiciliar água de residências de bairros populares na cidade de Salvador, Bahia. Neste contexto, se propôs o uso da Random Forest para classificar estes consumos por equipamento hidráulico a partir da informação da vazão total. No entanto, dada a complexidade do algoritmo de Random Forest, a interpretação humana é comumente difícil, fazendo-o ter o rótulo de "caixa preta". Considerando a importância de que humanos confiem em algoritmos de aprendizado de máquina e os usem efetivamente, utilizou-se o LIME, um algoritmo capaz de realizar a interpretação local de um modelo complexo. Desta forma, busca-se demonstrar as variáveis mais importantes para o modelo a partir da interpretação local da modelagem de desagregação de dados de consumo de água no nível doméstico. A precisão do modelo de Random Forest foi de aproximadamente 75% para o grupo de teste e cerca de 80% para precisão balanceada. Conclui-se, então, que o algoritmo utilizado para a interpretabilidade do modelo possui boa aderência com a realidade esperada, produzindo boas heurísticas para uma possível classificação preliminar quando não se é possível obtê-las através da medição de todos aparelhos.