Conceito de Big Data

por manoel veras

Big data é um termo genérico para dados que não podem ser contidos em repositórios usuais. Refere-se a dados volumosos demais para caber em um único servidor, não estruturados demais para se adequar a um banco de dados estruturado em linhas e  colunas ou fluidos demais para serem armazenados em um data warehouse estático. O aspecto mais complexo do big data não é o volume mas a sua falta de estrutura que dificulta a  análise para conhecimento, inovação e valor [Davenport, 2014]

O termo big data esta associado a  um imenso volume de dados. Mas esta é apenas uma característica. De maneira geral fala-se em 3 Vs, como volume, variedade e velocidade. Muitos acrescentaram depois um quarto V, que é a veracidade e um quinto V, que é o resultante dos Vs anteriores que é o valor dos dados.

A variedade e a velocidade são variáveis tão ou mais importantes quanto a variável volume. Lidar com variedade é mais difícil de lidar do que com volumes grandes, pois o big data utiliza dados em formatos completamente diferentes uns dos outros. A velocidade, por sua vez,  exige da organização que os processos de negócio afetados sejam responsivos na velocidade que os dados analisados permitam tomar alguma ação efetiva.

Sem título

As fontes de dados para o big data são diversas incluindo celulares, computadores, redes sociais e sensores.

Sem título

Davenport [2014] reforça que big data e analyticas tradicional são diferentes. A tabela abaixo ilustra as principais diferenças. O analytics normalmente se concentra no suporte às decisões internas. O big data trabalha para  produtos e serviços voltados para o cliente.

  Big data Analytics tradicional
Tipos de dados Formatos não estruturados Formatados em linhas e colunas
Volume de dados 100 terabytes  a petabytes Dezenas de terabytes ou menos
Fluxo de dados Fluxo constante Poll estático de dados
Métodos de análise Aprendizado de máquina Baseados em hipóteses
Objetivo principal Produtos baseados em dados Suporte ao processo decisório interno

.A ideia de analisar dados para entender o que se passa nos negócios iniciou em 1954 na empresa UPS. A interpretação de dados já foi chamada de suporte á decisão, suporte aos executivos, processamento analítico on-line (OLAP), business intelligence, analytics a gora big data. O big data se justifica pela novas formas e volume de dados envolvidos. A tabela abaixo ilustra a evolução do termo.

Termo Período Significado específico
Suporte à decisão 1970-1985 Análise de dados para suporte a decisão
Suporte aos executivos 1980-1990 Análise de dados para suporte aos executivos
Processamento analítico on-line 1990-2000 Análise de dados multidimensionais
Business intelligence 1989-2005 Suporte a decisão orientada por dados, com ênfase em relatórios
Analytics 2005-2010 Análise estatísticas e matemáticas para a tomada de decisão
Big data 2010-atualmente Grande volume de dados não estruturados e em movimento

As estratégia para big data devem definir os objetivos a serem atingidos segundo Davenport.

Quatro principais objetivos podem ser demandados :

  • Redução de custos,
  • Redução no tempo de execução,
  • Desenvolvimento de nova oferta de produtos e serviços,
  • Orientar processo decisório interno.

Davenport vincula possíveis objetivos do big data com duas principais atividades relativas à análise .

  • Descoberta que é a identificação dos elementos contidos nos dados disponíveis e como eles podem ser utilizados para beneficiar a organização. A descoberta é realizada com mais frequencia em unidades de negócio em vez de setores de TI.
  • Produção envolve implementar a aos processos de produçao em larga escala. Os profissionais de produção são encontrados normalmente na TI pois são irientados para governança dos dados e confiabilidade dos sistemas.

A tabelas abaixo ilustra possíveis objetivos e principais atividades de análise  vinculados aos profissionais que  poderiam  ser alocados  .

Descoberta Produção
Redução de custos Grupo de inovação de TI Arquitetura e operações de TI
Decisões mais rápidas Grupo de analytics ou unidade de negócio Unidade de negócio ou área executiva
Decisões melhores Grupo de analytics ou unidades de negócio Unidade de negócio ou área executiva
Inovação de produto/serviço Grupo de P&D ou desenvolvimento de produto Gestão de produtos ou desenvolvimento de produtos;

A tecnologia possibilita o gerenciamento e a análise do big data. As principais tecnologias envolvidas com o big data são descritas na tabela abaixo.

Tecnologia de Big Data Definição
Hadoop Software de código aberto para processamento
MapReduce Framework que o hadoop se baseia
Linguagem de script Linguagens adequadas
Aprendizado de Máquina Software para identificar o modelo mais adequado ao conjunto de dados
Visual analytics Apresentação em formatos visuais ou gráficos
Processmaneto de linguagem natural Software para análise de texto
In memory analytics Processamento na memória do computador para obter mais velocidade

 

Referência:

Davenport, Thomas . Big data at work, uncovering the opportunities, 2014.

Mayer-Schonberger, Viktor & Cukier, Kenneth. BIG DATA : Como extrair volume, variedade, velocidade e valor da avalanche de informação cotidiana. Tradução. Elsevier, 2014.