Inteligência Artificial para Negócios - FCA2 "boost" de produtividade para analistas de dados - por Fabiano Castello

Artigos

12 Agosto, 2021

Neste mês de agosto estou lançando, oficialmente, a primeira versão web do FCA2 (Fcastell Auto Analyser). É uma ferramenta disponível em web para fazer análise exploratória de dados estruturados em formato Excel ou CSV. Totalmente gratuita e que melhora com colaboração da própria comunidade que a utiliza. Se você quiser conhecer a ferramenta visite http://www.fabianocastello.com.br/fca2. Para conhecer um pouco da história e porque a ferramenta traz produtividade para quem a utiliza, continue lendo.

Uma breve história da ferramenta

Trabalho com dados, de diversas maneiras, desde 1985. No anos 1990 fui trainee de auditoria de sistemas da Arthur Andersen. Éramos os especialistas que a área de auditoria contábil chamava para verificar, a partir dos sistemas, a veracidade das informações das demonstrações financeiras. Durante mais de 25 anos como auditor, sempre prescindi de uma ferramenta automática para analisar dados. Em 2017 tentei fazer uma no [R], linguagem que usava até então, mas não funcionou e, inclusive, foi uma das coisas que me fez olhar para o Python como linguagem principal para análise de dados. Em 2019 finalmente construí a aplicação em Python, e ela foi disponibilizada com código aberto no github para quem quisesse utilizar e/ou contribuir com melhorias. O principal problema da ferramenta é que ela estava restrita a pessoas que conhecem minimamente Python: exigiam conhecimento para instalar o ambiente e para rodar a ferramenta usando Jupiter Notebook. Desde o princípio já estava previsto fazer uma versão web que fosse acessível por qualquer analista, independente de conhecimento de programação. Depois de 2 anos do lançamento, 15 pessoas usaram o código original e algumas contribuíram para  melhorar a ferramenta. Finalmente, a versão web está no ar, de forma gratuita, também com o código aberto no github para quem quiser baixar o código e fazer adaptações. 

Por que análise exploratória de dados (AED) é importante?

AED é a parte menos "glamurosa" da ciência de dados. Em geral muitas pessoas, inclusive, negligenciam esta prática importantíssima e que está na base de qualquer projeto de analytics (ou seja, de projetos que trabalham com dados digitais). Fundamentalmente, usamos AED para conhecer os dados que vamos trabalhar. Quantos registros existem, quantas colunas, duplicações, dados ausentes, outliers; bater somas com relatórios gerenciais, conhecer médias, desvios e quartis. O problema é que fazer esta análise dá muito trabalho, e gasta-se muito tempo para preparar a análise e algum tempo investe-se em analisar o resultado. FCA2 é um "boost" de produtividade porque faz o trabalho braçal por você, que pode dedicar mais tempo para a análise dos dados em si.

O que faz a ferramenta?

Todas as explicações estão na própria ferramenta. A priori, a única coisa que é preciso fazer é o upload do arquivo. De forma automática, o algoritmo trata arquivos em formato csv, xls e xlsx e realiza diversas análises:

  • Identificação de colunas texto (categóricas), colunas numéricas inteiras e numéricas decimais.

  • Colunas texto: quantidade de registros, registros ausentes, duplicações e categorias, frequência de cada categoria e frequência acumulada para as top "n" categorias. Exemplos de dados duplicados e amostragem aleatória de "n" dados da coluna analisada.

  • Colunas numéricas: quantidade de registros, registros zerados, soma, média, desvio, máximos e mínimos, amplitude, quartis. Mesmas análises para a base desconsiderando os registros zerados, lembrando que zero é diferente de ausente :-).

  • Para os campos numéricos podem ser gerados gráficos de distribuição e boxplot básicos. A partir da contribuição do Marcus Pinto, foi inserida também uma matriz de correlação.

No mais, existem algumas opções de customização que podem ser exploradas na própria ferramenta.


A ferramenta está hoje rodando provisoriamente na plataforma Streamlit, por conta de uma mudança no provedor Kinghost, que arbitrariamente cortou um serviço essencial de acesso à infraestrutura (tecnicamente, o SSH). Mas a ferramenta é segura, nenhum dado fica armazenado, tudo é removido assim que a sessão do navegador é fechada. São coletadas informações pontuais sobre tamanho de arquivo, número de colunas, tempo de processamento e parâmetros utilizados, para efeito de estatística de utilização. Mas, é importante ressaltar, todo o conteúdo do arquivo analisado é destruído ao final da sessão. 100% aderente à LGPD. E o código é público, então pode ser auditado a qualquer momento e, também, ser baixado e rodado num servidor interno da organização ou diretamente no micro do analista. 

Por que você deve adotar o FCA2 no seu dia a dia?

Em uma palavra, porque é uma ferramenta de análise de dados feita por analistas e para analistas. Eu uso diariamente tanto para trabalho como para pesquisa. É rápido, prático e seguro. É perfeita? Não, ainda tem muita coisa que pode ser feita para melhorar. E a sua contribuição, seja com ideias, seja com código, é muito bem-vinda!

Gratuita mesmo? Não tem pegadinha?

Gratuita sim, e sem pegadinha! FCA2 segue uma tendência de muitas companhias de desenvolver algoritmos e torná-los públicos para a comunidade. Não estaríamos tão avançados em deep learning sem o google ter tornado o código do Tensorflow aberto em 2015. O seu pagamento pode ser na forma de doação: doe ideias para deixar o FCA2 melhor!

Divirta-se!

Links

Para acessar a ferramenta: http://www.fabianocastello.com.br/fca2. Este é link oficial; assim que a Kinghost resolver o problema na infraestrutura deles vou hospedar o aplicativo lá, ou vou procurar outro provedor. Mas sempre será a partir deste endereço. "bookmarque-o"! :-)

Repositório público no Github:  http://www.github.com/fabianocastello/fca2web. Este é o repositório atual e onde estamos trabalhando para melhorar a ferramenta. O código original está também disponível em http://www.github.com/fabianocastello/fca2

* * *

O blog "Inteligência Artificial para Negócios" da Inova Business School é uma iniciativa de levar assuntos técnicos relacionados à novas tecnologias para a maioria das pessoas. Os assuntos em geral estão relacionados a big data, inteligência artificial, transformação digital, ciência de dados e DataViz. Você encontra mais informações, bem como o histórico de todos os posts, em www.fabianocastello.com.br. Para entrar em contato use o email [email protected] ou acesse o qr-code.