Como elaborar um Box Plot? Aprenda em poucos passos

05 de maio de 2015
Última modificação: 05 de maio de 2015

Autor: Virgilio F. M. dos Santos
Categorias: Análise de dados, Blog

O Box Plot, também conhecido como diagrama de caixa, é uma ferramenta gráfica e estatística que nos auxilia a representar alterações em dados e interpretar suas variáveis. Confira nesse artigo mais sobre o conceito e aprenda, em poucos passos, a elaborar um Box Plot no Minitab. 

O que é um Box Plot?

Para a estatística, o Box Plot é, em suma,  um resumo gráfico da distribuição de uma amostra. Seu gráfico apresenta qual é a forma, a tendência central e a variabilidade da amostra analisada. Sua aplicação é uma alternativa a outros métodos conhecidos como o histograma, por exemplo.

Box Plot são úteis para identificar outliers e para comparar distribuições. Para construí-lo, há várias maneiras, mas o início dá-se pelo cálculo do primeiro quartil, a mediana e o terceiro quartil. A linha inferior, é o primeiro quartil, ou limite dos 25% dos dados. A linha média é a mediana e a linha superior é o terceiro quartil.

Os bigodes são linhas verticais que terminam em um traço horizontal. Os bigodes são extraídos das dobradiças superior e inferior para os valores superior e inferior ao primeiro e terceiro quartis, representando os valores de máximo e mínimo da distribuição. Há ainda, os outliers que são pontos cujo valor é 50% maior do que o terceiro quartil ou 50% menor que o primeiro quartil.

O Box Plot pode ser colocado em um plano de coordenadas semelhante ao sistema cartesiano, de modo que os cinco valores, dispostos verticalmente um acima do outro, correm paralelos à variável dependente ou ao eixo y. Em algumas situações, dois ou mais Box Plot podem ser colocados lado a lado num plano de coordenadas cartesiano para mostrar como um fenômeno ou cenário evolui com o tempo, que é plotado ao longo da variável independente ou eixo x. De vez em quando, um box plot único é inclinado em seu lado, portanto, os valores são executados da esquerda para a direita (mínimo para máximo) em vez de de baixo para cima.

Como interpretar o Box Plot?

Como objetivo central, o Box Plot propõe a verificação da distribuição de determinados dados. Portanto, ao analisarmos sua conclusão gráfica, consideramos o centro dos dados (média ou mediana), a amplitude dos dados  (máximo – limite superior ou mínimo – limite inferior), bem como a simetria ou falta dela no conjunto de dados e a própria presença de outliers.

outlier-fm2s

Outliers

São pontos ou asteriscos presentes fora das “linhas” desenhadas. Ou seja, é um valor que foge da normalidade dos dados e que pode, ou irá, causar anomalias nos resultados obtidos. Esses valores discrepantes requisitam atenção do profissional que elabora e analisa o gráfico Box Plot, pois sua interpretação infere grande importância para a discussão do assunto representado no gráfico.

Quartis

Um quartil é um valor  que divide uma determinada parcela de dados em quatro partes iguais. Através deles podemos rapidamente avaliar e interpretar a dispersão e a tendência central representado no gráfico. Quartis podem ser divididos em superiores e inferiores. Em geral, 75% dos pontos se alocam abaixo do quartil superior, enquanto  25% são representados abaixo do quartil inferior.

Definições importantes:

Além dos outliers e quartis, há outros importantes termos que são utilizados em um Box Plot. Listamos para você cada um dos termos e sua definição, confira:

  • Máximo (Maximum): Configura o maior valor, excluindo os outliers;
  • Mínimo (Minimum): Abrange o menor valor, também excluindo os outliers; 
  • Mediana (Median): A mediana é o ponto de um intervalo médio dos dados e nos é apresentada pela linha que divide a “caixa” em duas partes. Metade das pontuações são maiores ou iguais a esse valor e metade são menores a ele;
  • Intervalo Interquartil: O meio da “caixa” representa 50% das pontuações para o grupo. A gama de pontos do quartil inferior ao superior é referida como a faixa interquartil. Os 50% médios das pontuações estão dentro da faixa interquartil;
  • Bigodes: Divididos em superiores e inferiores, os bigodes representam pontos fora dos 50%. Bigodes muitas vezes (mas nem sempre) avançam sobre uma gama mais ampla de pontuações do que os grupos de quartil médio.

Como fazer um Box Plot no Minitab?

O Minitab é um ótimo software estatístico que é muito utilizado para a elaboração de gráficos e análise de dados. Sua facilidade de aprendizado, intuitividade e rapidez de preparação de gráficos, são pontos de destaque para a ferramenta. Além disso, qualquer pessoa tem acesso a versão de teste, totalmente gratuita, realizando o download no site do próprio Minitab.

Para exemplificar, vamos utilizar a proposta que abordamos em nosso post sobre “A produção de cerveja no Brasil”. Ou seja, nosso objetivo aqui é explicar de maneira gráfica e assertiva, o comportamento da produção mensal de bebidas ao longo de diferentes anos. Verificando assim, qual é a distribuição do volume de produção.

Assim que tiver acesso ao software, siga os seguintes passos:

Colete os dados

Para esse exemplo, coletamos os dados de produção de bebidas no site do SICOBE. Em seguida, você deve organizar os dados para que o Minitab consiga elaborar o gráfico requisitado. Confira a organização do nosso conjunto de dados observando a figura 1. As demais instruções para elaborá-lo são apresentadas nas figuras de 2 a 5.

Box Plot 1

Figura 1: organização do banco de dados no Minitab.

Com o banco de dados pronto, vamos ao passo a passo para elaborarmos o gráfico.

Determine o gráfico

Clicando no menu “Graph” seu próximo passo é selecionar o campo Box Plot. Confira a imagem abaixo:

G Box Plot 2

Figura 2: menu Graph e em seguida no campo Box Plot.

Em seguida, selecione o gráfico simples assegurando-se de marcar a opção com múltiplos Y, como mostrado na imagem:

Box Plot 3

Figura 3: gráfico simples com múltiplos Ys.

Selecione os meses, englobando o período de janeiro até dezembro.

Box Plot 4

Figura 4: selecione os meses (janeiro até dezembro)

Clique na caixa “label” e selecione “outliers”. Marque a opção “Use labels from colum” e em seguida selecione a coluna data.

Box Plot 5

Figura 5: No campo labels, selecione outliers. “Use labels from colum”, e depois selecionar a coluna data.

Analise o gráfico

Ao fim da elaboração, seu gráfico Box Plot referente a produção de bebidas no brasil ao longo de doze diferentes meses estará visível para interpretação

Box Plot 6

Figura 6: gráfico Box Plot da produção de bebidas.

Enfim, conseguimos enxergar o comportamento produtivo de cada um dos meses do ano. Percebendo, por exemplo, que dezembro é o mês de maior produção, independente do ano. Já junho, por outro lado, é de menor produção.

Além disso, conseguimos conhecer também o perfil dos meses em relação aos diferentes anos. 

Por exemplo, janeiro é um mês de bastante variação, pois é possível enxergar que a barra vai desde 1,098 milhões de litros até 1,393 milhões. Por outro lado, junho é o de menor variação com o volume partindo de 1,054 milhões e chegando até 1,112 milhões. 

Gostou do conteúdo? Com um Box Plot fica muito mais fácil entendermos o que podemos esperar sobre a variação mensal de um indicador, além de outras aplicações. Que tal elaborar um Box Plot semelhante a esse, mas com outro indicador? Aprenda isso e muito mais em nossa Certificação Green Belt, ou reforce na Certificação Black Belt.

Quer se aprofundar ainda mais nesse assunto? Faça parte da Assinatura FM2S clicando no banner abaixo:

Deixe seu comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *