Data Driven Mindset – O modelo de mineração CRISP-DM

CRISP-DM é uma abordagem estruturada de mineração de dados proposta por um grupo de estudos patrocinado pela união europeia – Cross Industry Standard Process for Data Mining. O modelo abstrai seis passos comuns em projetos de mineração, como na imagem abaixo.

É defensável, quer pelas Leis de Lehman da década de 70 até as Metodologias ágeis, da relevância de aplicar aqui conceitos de empatia e valor em todo o ciclo de vida do projeto, inspirando-se em Lean Startup, princípios e métodos ágeis, técnicas de concepção, validação e sustentação incrementais.

Passo 1) Entender o Negócio

O primeiro passo é entender o porque, com foco em entender o objetivo do projeto a partir de uma perspectiva de negócios, o valor que se propõe a agregar, quer apoiando a resolução de um problema ou apoiando a geração de novas soluções, definindo um plano preliminar para atingir os objetivos.

Identificação dos objetivos de negócio e critérios de sucesso, análise de contexto (inventário, requisitos, restrições, riscos, contingênias, nomenclatura, custo x benefício), plano de ação com a metodologia, técnicas e ferramentas a serem utilizadas.

Passo 2) Entender os Dados

Estudar o recolhimento de dados e inicio de atividades para familiarização com os mesmos, mapeando suas origens, qualidade, quantidade, identificando problemas ou conjuntos relevantes como insumos à modelagem e resultados almejados. Passo que pode envolver várias soluções, atores e bases de dados.

Esta fase envolve o estudo dos dados, buscando entender o necessário sobre os tipos de dados envolvidos, suas fontes, acesso e meios de coleta, descrição dos dados com identificação, localização, qualidade e valor …

Passo 3) Preparação dos Dados

É preciso trabalhar na construção do conjunto de dados final a partir dos dados iniciais. Este processo poe exigir sua transformação sob diferentes prismas, pois pode usar o dado original, mas pode alterá-lo a partir de cruzamentos, conversões, sumarizações e outros tratamentos para habilitar e qualificar.

A partir do entendimento dos dados, é preciso selecioná-los, revisá-los. depurar e transformar, cruzando com outras fontes, checando e convertendo, de forma a gerar uma visão qualificada ideal a partir dos dados de origem que permitirão a modelagem dos mesmos conforme algoritmos.

Passo 4) Modelagem

Trata-se da aplicação de uma ou mais técnicas de modelagem de dados, como árvores de decisão ou modelos neurais, quando teremos a habilitação de seus dados e seus parâmetros calibrados para otimização. Por isso os passos 3 e 4 estão em um plausível looping, até termos o modelo funcional.

O primeiro passo é selecionar ou confirmar a técnica de modelagem, seguido de um piloto ou amostragem para validação, então a parametrização do modelo, carga de dados, processamento e confirmação do sucesso da parametrização.

Passo 5) Avaliação

Aqui temos a validação dos objetivos do projeto, que mesmo sendo incremental, avaliado ciclicamente desde a fase 2, retornando até mesmo a fase 1 se necessário, na fase 5 é apreciado formalmente se o modelo possui qualidade e nível de confiança suficiente de uma perspectiva de análise x objetivos.

Chegou a hora de avaliar os resultados, aprovar sua modelagem, revisar sua execução, atingimento dos objetivos sob seus critérios de aceitação, para então apontar a necessidade de ajustes ou liberação para entrega em produção ao cliente.

Passo 6) Implantação

Liberação, entrada em produção, go live, é quando concluímos o projeto e passamos a gerar os benefícios construídos de forma regular. Importante ter-se desde o principio alguns mecanismos para monitoramento, garantias e evolução, com alertas, gatilhos, métricas e indicadores.

É preciso apresentar um plano de entrega, monitoramento e sustentação, inclusive a documentação prevista e necessária, funcional ao cliente e técnica de projeto com suas lições aprendidas.

O modelo possui o desenho diagramático abaixo para facilitar o entendimento destes 6 passos:

Uma empresa de porte médio já contará com fontes de produtos, serviços e fornecedores diversos, provavelmente com dados persistidos em diferentes bases e tecnologias. É previsível antecipar que um projeto desta natureza tem um formato estrela tanto em negócio quanto tecnologia.

Em negócio, a cultura de orientação a dados não é um traço de TI, mas também das áreas de negocios e corporativas, tanto quanto deverá envolver a equipe de projeto em data science e mineração, como profissionais envolvidos em ERP’s e em soluções nas pontas, billings, soluções variadas.

Achei este vídeo abaixo muito didático, é bem tranquilo e não pressupõe conhecimentos prévios:

Posts extras sobre o tema para aprofundamento

Comparativo entre CRISP-DM, SEMMA e KDD na IADIS European Conference Data Mining 2008 em Amsterdan por pesquisadores da Politécnica da cidade do Porto – https://www.researchgate.net/publication/220969845_KDD_semma_and_CRISP-DM_A_parallel_overview

Comparativo entre CRISP-DM, SEMMA e KDD no blog do cientista de dados Paulo Vasconcellos da Hotmart – https://paulovasconcellos.com.br/crisp-dm-semma-e-kdd-conhe%C3%A7a-as-melhores-t%C3%A9cnicas-para-explora%C3%A7%C3%A3o-de-dados-560d294547d2

Um amplo estudo sobre CRISP-DM, SEMMA e KDD no canal Data Driven Investor no Medium – https://medium.com/datadriveninvestor/data-science-project-management-methodologies-f6913c6b29eb

Overview sobre o modelo CRISP-DM em artigo por Rüdiger Wirth da DaimlerChrysler Research & Technology e Jochen Hipp do Wilhelm-Schickard-Institute e Universidade de Tübingen – http://cs.unibo.it/~montesi/CBD/Beatriz/10.1.1.198.5133.pdf

Trabalho de Conclusão de Curso no Curso de Engenharia Elétrica da UFSC sobre um estudo de caso sobre a implementação de DDDM na EMBRAER, com bom embasamento teórico – https://repositorio.ufsc.br/bitstream/handle/123456789/204178/TCC_bianca_voltarelli.pdf?sequence=1&isAllowed=y

Outros posts

3 comentários

  1. Professor Jorge boa tarde! Por favor quais são os riscos envolvendo a metodologia CRISP DM ? Ou qual risco em sua implementação, ou por fim não existem risco associados a essa metodologia?

    Curtir

    1. Oi Pedro, não vejo novidades essenciais no CRSPS DM, os projetos de BI e Data Mining que me envolvi já em 2004 envolvendo Cognos e Qlikview já seguiam uma abordagem e linha de ação muito parecida, para não dizer igual: Objetivos – Dados de origem – Transformação – Construção – Extração – Evolução. Eu descobri o CRISP DM em meio a estudos sobre Data Driven e Data Mining e por achar muito alinhado ao que sabemos na prática, compartilhei em meio a 3 ou 4 posts sobre estes temas enquanto estava iniciando um projeto com um cliente. Os riscos inerentes a BI são a meu ver mais relacionados a tendência de trabalharmos em ciclos longos, que poderíamos conceitualmente chamar de waterfall, apesar de tentarmos visualizar passos incrementais, via de regra exigem um esforço inicial de estratégia e entendimento bastante longos para evitar que a falta deles gerem muito retrabalho e desperdício.

      Curtir

Deixe um comentário