À esquerda degradê laranja. Ao fundo, gráficos de luzes. No canto inferior direito, o logotipo da FM2S.
Estatística

05/05/2015

Última atualização: 14/05/2025

Box Plot: o que é, para que serve e como construir?

Box Plot, ou diagrama de caixa, é uma ferramenta gráfica e estatística usada para analisar a distribuição de variáveis numéricas. Ele permite visualizar a dispersão dos dados, identificar a mediana e detectar possíveis outliers. Neste artigo, você entenderá esse conceito e aprenderá, em poucos passos, como elaborar um Box Plot no Minitab

O que é um Box Plot?

Para a estatística, o Box Plot (Diagrama de Caixa) é, em suma, um resumo gráfico da distribuição de uma amostra. Seu gráfico apresenta qual é a forma, a tendência central e a variabilidade da amostra analisada. Sua aplicação é uma alternativa a outros métodos conhecidos como o histograma, por exemplo. 

Para que serve um Box Plot?

Um box plot é um gráfico utilizado para representar visualmente a distribuição de um conjunto de dados, mostrando informações importantes, como a mediana, quartis, valores mínimos e máximos, além de possíveis valores discrepantes (outliers). Ele é muito útil para identificar padrões e características dos dados, tais como sua simetria, dispersão, tendência central e presença de valores extremos.

É útil em diversas áreas, tais como estatística, ciência de dados, engenharia, finanças e pesquisas em geral. Por exemplo, ele pode ser utilizado para comparar a distribuição de variáveis entre grupos de dados, identificar valores discrepantes em experimentos científicos, ou para analisar a distribuição de preços de ações no mercado financeiro.

Componentes de um Box Plot

Como objetivo central, o Box Plot propõe a verificação da distribuição de determinados dados. Portanto, ao analisarmos sua conclusão gráfica, consideramos o centro dos dados (média ou mediana), a amplitude dos dados (máximo - limite superior ou mínimo - limite inferior), bem como a simetria ou falta dela no conjunto de dados e a própria presença de outliers.

Outliers

São pontos ou asteriscos presentes fora das “linhas” desenhadas. Ou seja, é um valor que foge da normalidade dos dados e que pode, ou irá, causar anomalias nos resultados obtidos. Esses valores discrepantes requisitam atenção do profissional que elabora e analisa o gráfico Box Plot, pois sua interpretação infere grande importância para a discussão do assunto representado no gráfico.

box-plot outliers

Quartis

Um quartil é um valor que divide uma determinada parcela de dados em quatro partes iguais. Através deles podemos com maior eficácia avaliar e interpretar a dispersão e a tendência central representadas no gráfico. Quartis podem ser divididos em superiores e inferiores. Em geral, 75% dos pontos se alocam abaixo do quartil superior, enquanto  25% são representados abaixo do quartil inferior.

box-plot-quartis

Máximo e mínimo

O máximo representa o maior valor observado em um conjunto de dados, desconsiderando os outliers que são pontos fora do padrão, muito distantes da maioria dos valores. Já o mínimo é o menor valor, também excluindo esses valores extremos. Esses dois limites, chamados de extremos inferior e superior, ajudam a visualizar a dispersão dos dados de forma mais precisa, sem que valores atípicos distorçam a análise.

Mediana

A mediana é o valor central de um conjunto de dados ordenado, ou seja, o ponto que divide a amostra em duas metades iguais: 50% dos valores ficam abaixo dela e 50% acima. No gráfico de Box Plot, a mediana aparece como uma linha vertical dentro da caixa. Por representar o centro da distribuição, ela mostra a tendência central dos dados, mesmo quando há valores muito altos ou baixos.

Primeiro Quartil (Q1)

O primeiro quartil (Q1) é o valor que marca os 25% iniciais de um conjunto de dados ordenados. Isso significa que 25% dos valores estão abaixo dele e os outros 75% acima. No Box Plot, o Q1 é a base esquerda da caixa, indicando o início da faixa central da distribuição. Esse ponto ajuda a avaliar a concentração dos menores valores e é usado no cálculo do Intervalo Interquartil (IQR), sendo útil para detectar variações e identificar possíveis outliers.

Terceiro Quartil (Q3)

O terceiro quartil (Q3) é o valor que marca 75% da distribuição dos dados ordenados. Em outras palavras, 75% dos valores estão abaixo dele, e apenas 25% estão acima. No Box Plot, o Q3 é a extremidade direita da caixa, delimitando o fim da faixa central dos dados. Esse ponto é essencial para entender a dispersão dos maiores valores e, junto com o Q1, compõe o Intervalo Interquartil (IQR) usado para identificar possíveis outliers e analisar a variabilidade da amostra.

Intervalo Interquartil (IQR)

O Intervalo Interquartil (IQR) representa a distância entre o primeiro quartil (Q1) e o terceiro quartil (Q3). Esses quartis dividem os dados em quatro partes iguais, e o IQR cobre os 50% centrais da distribuição ou seja, a região onde estão os dados médios, sem considerar os extremos. No Box Plot, essa faixa corresponde ao tamanho da caixa central. É uma medida importante para entender a dispersão dos dados e também para identificar outliers, que ficam fora dos limites calculados a partir do IQR.

Bigodes

Os bigodes se estendem a partir da caixa e representam os valores fora do intervalo interquartil, mas que ainda estão dentro do limite aceitável. Eles podem variar de tamanho dependendo da dispersão dos dados. Se um valor ultrapassa 1,5 vezes o IQR, é considerado um outlier e plotado separadamente.

Como fazer um Box Plot no Minitab?

O Minitab é um ótimo software estatístico que é muito utilizado para a elaboração de gráficos e análise de dados. Sua facilidade de aprendizado, intuitividade e rapidez de preparação de gráficos, são pontos de destaque para a ferramenta. Além disso, qualquer pessoa tem acesso a versão de teste, totalmente gratuita, realizando o download no site do próprio Minitab.

Colete os dados

Para exemplificar, vamos utilizar uma situação fictícia sobre "A Produção de Cerveja no Brasil". Nosso objetivo aqui é explicar de maneira gráfica e assertiva o comportamento da produção mensal de bebidas ao longo de diferentes anos, verificando a distribuição do volume de produção.

Os dados podem ser coletados de uma fonte confiável e organizados em uma planilha. Aqui está um exemplo de como você pode organizar os dados:

MêsAnoProdução (milhões de litros)
Janeiro20201.120
Fevereiro20201.150
Março20201.120
Dezembro20201.130
Janeiro20211.098
Fevereiro 20211.125
Dezembro20211.350

Passo a Passo para Elaborar o Box Plot

  1. Abra o Minitab: Certifique-se de que você tem o software instalado e aberto no seu computador.
  2. Insira os Dados: Digite os dados na planilha do Minitab, organizando-os de forma que cada coluna corresponda ao mês, ao ano e à produção, conforme o exemplo acima.
  3. Selecione o Gráfico: No menu superior, clique em Graph. Selecione a opção Boxplot.
  4. Configurar o Gráfico: Escolha Multiple Y’s para comparar a produção em diferentes meses. Insira as colunas de dados que contêm as informações de produção mensal.
  5. Personalizar o Box Plot: Para identificar os outliers, clique na caixa Labels e selecione Outliers. Marque a opção Use labels from column e selecione a coluna correspondente às datas ou outra identificação pertinente.

O Box Plot é uma ferramenta poderosa para visualizar a distribuição de variáveis numéricas, identificar padrões e detectar outliers de forma clara e objetiva. Seu uso facilita a análise estatística em diversas áreas, desde ciência de dados até controle de qualidade. Dominar essa técnica permite tomar decisões mais embasadas, interpretar conjuntos de dados com mais precisão e comparar distribuições de forma eficiente.

Quais são as variantes de Box Plot e quando usá-las?

Box Plot Simples

É o tipo mais comum de box plot, que mostra a distribuição de um conjunto de dados usando um retângulo (a caixa) que representa o intervalo interquartil (IQR), as linhas (os "whiskers") que se estendem a partir da caixa representando a distribuição dos dados além do IQR e os pontos que representam outliers. Esse tipo de box plot é útil para visualizar a distribuição de um conjunto de dados e identificar outliers.

Box Plot com média

Esse tipo de box plot inclui uma linha que representa a média dos dados, além da caixa e dos whiskers. É útil quando a média é uma estatística importante para se analisar.

Box Plot com percentis

Esse tipo de box plot usa os percentis em vez dos quartis para definir a caixa e os whiskers. Isso pode ser útil quando você deseja visualizar a distribuição dos dados em intervalos específicos.

Notched Box Plot

Esse tipo de box plot usa um entalhe (notch) na caixa para mostrar a incerteza em torno da mediana. É útil quando você deseja comparar a mediana de dois ou mais grupos de dados.

Violin Plot

Esse tipo de plot combina um box plot com um gráfico de densidade. Ele mostra a distribuição de um conjunto de dados como um "violino" em vez de uma caixa, o que pode ser útil para visualizar distribuições complexas.

Box Plot empilhado

Esse tipo de box plot empilha vários conjuntos de dados uns sobre os outros em um mesmo gráfico. Ele pode ser útil para visualizar a distribuição de dados entre vários grupos, permitindo a comparação direta entre eles.

O curso gratuito de "Fundamentos da Ciência de Dados" da FM2S é uma ponte vital para profissionais que aspiram a transformar suas carreiras utilizando habilidades altamente relevantes no contexto de negócios moderno. Especialmente focado em interpretar e analisar grandes volumes de dados, este curso ensina a maximizar o valor para o cliente e a fortalecer a competitividade no mercado através de uma gestão de dados eficaz e inovadora.

curso-gratuito-fundamentos-da-ciencia-de-dados

Um dos aspectos cruciais da ciência de dados abordados neste curso é o entendimento e aplicação de técnicas estatísticas, como o box plot

Quando usar um Box Plot em vez de um histograma ou gráfico de barras?

Distribuição dos dados

O box plot é uma boa escolha quando você deseja visualizar a distribuição dos dados, incluindo a mediana, quartis e possíveis outliers. Por outro lado, o histograma é uma boa escolha quando você deseja visualizar a forma geral da distribuição, incluindo a frequência de ocorrência de valores em cada intervalo.

Comparação de grupos

O box plot é uma boa escolha quando você deseja comparar a distribuição de variáveis entre dois ou mais grupos. Por outro lado, o gráfico de barras é uma boa escolha quando você deseja comparar a frequência de ocorrência de diferentes categorias ou valores discretos entre dois ou mais grupos.

Tamanho da amostra

O histograma e o gráfico de barras são boas escolhas quando você tem muitos dados, pois permitem visualizar a distribuição de frequência de cada valor ou categoria. Entretanto, o box plot é uma boa escolha quando você tem menos dados, pois ele fornece uma visualização clara das características principais da distribuição, sem precisar visualizar cada valor individual.

Enfatizar valores extremos

O box plot é uma boa escolha quando você deseja enfatizar a presença de possíveis outliers ou valores extremos. Por outro lado, o histograma e o gráfico de barras não destacam os valores extremos de maneira tão clara quanto o box plot.

Quais são as limitações do Box Plot?

Simplificação da distribuição dos dados

O box plot fornece uma visualização resumida da distribuição dos dados, incluindo informações como a mediana, quartis, valores mínimos e máximos e possíveis outliers. No entanto, ele não fornece informações detalhadas sobre a forma exata da distribuição, como a presença de múltiplos picos, assimetria ou curtose. Portanto, o box plot pode não ser adequado para analisar distribuições complexas.

Perda de informação sobre a frequência de ocorrência de valores individuais

O box plot não fornece informações detalhadas sobre a frequência de ocorrência de cada valor individual, o que pode ser importante para algumas análises. Por exemplo, em um conjunto de dados com valores repetidos, o box plot não indicará quantas vezes cada valor aparece.

Sensibilidade à escolha do tamanho do intervalo

A largura do intervalo de cada box plot pode influenciar a visualização da distribuição dos dados. Se o intervalo for muito largo, os detalhes da distribuição podem ser perdidos. Por outro lado, se o intervalo for muito estreito, os outliers podem se tornar mais proeminentes do que deveriam.

Dificuldade em comparar distribuições com diferentes escalas

Quando os dados possuem escalas diferentes, pode ser difícil comparar a distribuição de um conjunto de dados com outro usando o box plot. Isso ocorre porque a escala afeta a largura da caixa e o comprimento dos whiskers.

Potencial para interpretação errônea

Assim como qualquer método de visualização de dados, o box plot pode ser interpretado incorretamente se a pessoa que o utiliza não entender suas propriedades e limitações. Por exemplo, a presença de um outlier em um box plot não significa necessariamente que houve um erro ou problema com o conjunto de dados.

Dica:

Nosso curso de certificação Black Belt apresenta as ferramentas mais básicas e mais avançadas . Os alunos aprendem ferramentas avançadas de estatística, bem como técnicas de gestão estratégica e ferramentas para análise, o software Minitab incluso. A abordagem do curso da FM2S é extremamente prática.

Leia mais:

Virgilio F. M. dos Santos

Virgilio F. M. dos Santos

Sócio-fundador da FM2S, formado em Engenharia Mecânica pela Unicamp (2006), com mestrado e doutorado na Engenharia de Processos de Fabricação na FEM/UNICAMP (2007 a 2013) e Master Black Belt pela UNICAMP (2011). Foi professor dos cursos de Black Belt, Green Belt e especialização em Gestão e Estratégia de Empresas da UNICAMP, assim como de outras universidades e cursos de pós-graduação. Atuou como gerente de processos e melhoria em empresa de bebidas e foi um dos idealizadores do Desafio Unicamp de Inovação Tecnológica.

Preencha seu dados para realizar sua pré-Inscrição e receber mais informações!

Eu concordo com os termos de uso e política de privacidade da FM2S

Leve a FM2S para sua empresa!

Eu concordo com os termos de uso e política de privacidade da FM2S

Preencha seu dados para baixar o arquivo.

Eu concordo com os termos de uso e política de privacidade da FM2S