Conceitos gerais sobre orientação a dados – DW, DL, DM, BI, OLAP, …

Estou me atualizando sobre Data Driven Organizations, lendo vários artigos e sites, o primeiro que eu lembrei foi o do Fábio – https://geekbi.wordpress.com/ , profissional que além do blog tem livros publicados sobre o assunto. A seguir, escolhi e compartilho post de diferentes players em cada termo.

Tema que me remete ao início do século quando ainda na ADP Brasil dávamos primeiros passos com qlikview da Qlik e com CognosBI, que na época ainda não tinha sido comprado pela IBM … Este post é para ser apenas um mini glossário para resgate de algumas memórias previamente a um projeto que esta por iniciar. Em 2013 usei o SPSS durante o mestrado, que por acaso também virou IBM

Imagens extraídas de www.inf.unioeste.br

DATA WAREHOUSE – “Um data warehouse é um tipo de sistema de gerenciamento de dados projetado para ativar e fornecer suporte às atividades de business intelligence (BI), especialmente a análise avançada. Os data warehouses destinam-se exclusivamente a realizar consultas e análises avançadas e geralmente contêm grandes quantidades de dados históricos. As organizações usam data warehouses para descobrir padrões e relacionamentos em seus dados que se desenvolvem com o tempo.” – Oracle

Um data warehouse típico geralmente inclui os seguintes elementos:

  • Um banco de dados relacional para armazenar e gerenciar dados
  • Uma solução de extração, carregamento e transformação (ELT)
  • Análise estatística, relatórios e recursos de mineração de dados
  • Ferramentas (cliente) para visualizar e apresentar dados aos usuários
  • Outras aplicações analíticas mais sofisticadas que geram informações

DATA MARTS – “É um pequeno data warehouse ou parte de um grande data warehouse, delimitando uma determinada área de assunto e oferecendo informações mais detalhadas sobre o mercado em questão. Pode ser criado de duas formas: [1] Capturando dados diretamente de sistemas transacionais, cada Data Mart buscando as informações relevantes para o seu mercado; [2] Capturando dados de todos os sistemas transacionais em um Data Warehouse central, que por sua vez alimenta todos os Data Marts. A primeira opção irá fornecer um Data Mart de forma mais rápida, porém sem levar em consideração o cruzamento de informações entre as demais áreas de assunto. A segunda opção tende a ser mais eficiente, porém demandará mais tempo para apresentar resultados.” – DevMedia

DATA LAKE – “O termo “data lake” (“lago de dados”, em português) foi criado por James Dixon, CTO da Pentaho. É apropriado descrever esse tipo de repositório como um lago porque ele armazena um conjunto de dados em seu estado natural, como um corpo d’água que não foi filtrado ou contido. Os dados fluem de diversas fontes para o lago e são armazenados no formato original. Todos os dados são mantidos quando você usa um data lake: nada é removido ou filtrado antes do armazenamento. Você faz a análise dos dados quando quiser e se quiser, além de poder usá-los várias vezes para diferentes finalidades.” – RedHat

OLTP – Online Transaction Processing ou Processamento de Transações em Tempo Real são sistemas que se encarregam de registrar todas as transações contidas em uma determinada operação organizacional. Por exemplo: sistema de transações bancárias que registra todas as operações efetuadas em um banco, caixas de multibanco, reservas de viagens ou hotel on-line, Cartões de Crédito.

OLAP – On-line Analytical Processing trata da capacidade de analisar grandes volumes de informações nas mais diversas perspectivas dentro de um Data Warehouse (DW). O OLAP também faz referência às ferramentas analíticas utilizadas no BI para a visualização das informações gerenciais e dá suporte para as funções de análises do negócio organizacional.

DATA MINING – “Data Mining consiste em um processo analítico projetado para explorar grandes quantidades de dados na busca de padrões consistentes e relacionamentos sistemáticos entre variáveis e, então, validá-los aplicando os padrões detectados a novos subconjuntos de dados. O processo consiste basicamente em 3 etapas: exploração, construção de modelo (definição do padrão) e validação (verificação). A premissa do Data Mining é uma argumentação ativa, isto é, em vez do usuário definir o problema, selecionar os dados e as ferramentas para analisar tais dados, as ferramentas do Data Mining pesquisam automaticamente os mesmos a procura de anomalias e possíveis relacionamentos, identificando assim problemas que não tinham sido identificados pelo usuário.” – DevMedia

LAKE HOUSE – “Um lakehouse é um paradigma novo e aberto que combina os melhores elementos de data lakes e data warehouses. Lakehouses são habilitados por um novo design de sistema aberto e padronizado: implementação de estruturas de dados e recursos de gerenciamento de dados semelhantes aos de um data warehouse, diretamente no tipo de armazenamento de baixo custo usado para data lakes. Eles são o que você obteria se tivesse que reprojetar data warehouses no mundo moderno, agora que o armazenamento barato e altamente confiável (na forma de armazenamento de objetos) está disponível.” – Databricks

ALEGORIAS

No blog do Fábio conheci as alegorias do restaurante e da hidrelétrica, muito impressionantes sob o aspecto didático. A alegoria da despensa é de Kimball e é alusivo ao conceito de Data Vault, o da usina hidrelétrica é do próprio Fábio alusivo à Data Lake …

GLOSSÁRIO ADICIONAL

Análise Preditiva – Aplicação de algoritmos estatísticos e de aprendizado de máquina para identificar a probabilidade de resultados futuros a partir de dados históricos.

Árvore de Decisão – Organiza e estrutura regras de classificação e decisão em formato de diagrama de árvore, com a pretenção de predizer resultados futuros.

BI ou Business Intelligence é um processo de coleta, transformação, organização, análise de grandes volumes de dados e disponibilização de informações relevantes para os tomadores de decisão. “Inteligência de Negócio é a aplicação do Método Científico na administração de uma organização” – Fábio de Salles.

ETL (Extract Transform Load) – Ferramentas para extração de dados de diversos sistemas, transformação conforme regras de negócios e carregamento em um Data Mart ou Data Warehouse.

Metadados – Conjunto de documentações e informações dos processos, regras e objetos de um banco de dados, facilitando o entendimento dos relacionamentos e a utilidade das informações dos dados.

Redes Neurais – Algoritmos computacionais que simulam células neurais conectadas entre si, capazes de aprender em ciclos de análise e reconhecimento de padrões, apoiando novos ciclos e decisões.

View – É uma uma consulta à uma ou mais tabelas, inclusive outras views, não faz parte fisicamente do banco, existindo apenas dinamicamente a partir das demais.

Materialized view – É um objeto de banco de dados que contém os resultados de uma consulta, podendo ser atualizada em periodicidade pré-definida. Os usuários de banco de dados usam visualizações materializadas, pré-gravadas, por motivos de desempenho.

Outros posts

1 comentário

  1. Salve Kotick! Muito obrigado pela menção. Apenas alisando alguns detalhes da sua lista, a alegoria da hidrelétrica está relacionado à Data Lake, e o Restaurante/Despensa, do Kimball, tinha mais a ver com o conceito de DW tal como definido pelo próprio Bill Inmon. Eu apenas incluí Data Vault na jogada porque, à época em que o Kimball veio com essa metáfora, ninguém sabia ainda como implementar o Inmon. O surgimento do Data Vault, em 2000, permitiu isso e meio que fechou o conceito inteiro de DW (que hoje poderia muito bem ter a definição Inmon-Kimball-Linstedt, ou IKL.)

    Isso fecha a sua lista, que está mesmo completíssima. Se você quiser adicionar algo, eu sugeriria expandir a definição de BI para essa:

    “Inteligência de Negócio é a aplicação do Método Científico na administração de uma organização.”

    Eu gosto dessa definição porque ela me permite abstrair o processo em alto nível e focar nas partes relevantes: a empresa precisa resolver um problema de negócio, que bloqueia seu crescimento, bloqueia seu avanço. O método científico permite isso usando os dados decorrentes da operação da empresa. A definição “BI é um processo de coleta organização e exploraçã de grandes massas de dados”, no meu entendimento, restringe a questão à parte mecânica da coisa (software e hardware) e deixa de fora justamente o horizonte das possibilidades. Algo como definir Física como o trabalho feito em laboratório vs. o estudo da Natureza. 😉

    Curtir

Deixe uma resposta para Fábio de Salles Cancelar resposta

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair /  Alterar )

Foto do Google

Você está comentando utilizando sua conta Google. Sair /  Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair /  Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair /  Alterar )

Conectando a %s