Gráfico de Dispersão: Para que serve e como interpretar
O gráfico de dispersão é uma ferramenta gráfica amplamente utilizada em estatística e outras áreas do conhecimento para visualizar a relação entre duas variáveis quantitativas. Ao plotar os pontos no gráfico, é possível detectar padrões e tendências nos dados e identificar possíveis correlações entre as variáveis.
Essa visualização pode fornecer insights importantes para análise de dados e tomada de decisão em diversas áreas, desde a pesquisa de mercado até a análise de dados científicos.
Neste artigo, vamos explorar em detalhes o que é um gráfico de dispersão, como interpretar seus resultados e como aplicá-lo em diferentes contextos.
O que é e para que serve o Gráfico de Dispersão?
O gráfico de dispersão é usado para representar visualmente a relação entre duas variáveis numéricas. Ele ajuda a identificar padrões, tendências e possíveis outliers (valores fora do padrão). Cada ponto no gráfico representa um par de valores, permitindo observar se existe correlação entre eles.
Por trás desse gráfico, está o conceito de dispersão, que indica o grau de variação dos dados em relação à média. Ou seja, mostra o quão espalhados estão os valores de uma amostra ou população. Quanto maior a dispersão, menor a consistência dos dados.
Quais são as principais medidas de dispersão?
Variância
A variância mede o quanto os dados se afastam, em média, da média do conjunto. Quanto maior a variância, maior a dispersão. Ela é calculada somando os quadrados das diferenças entre cada valor e a média, dividindo pelo número total de dados menos um (n – 1), no caso de uma amostra.
Como isso aparece em um gráfico?
Imagine um gráfico de dispersão, com vários pontos espalhados ao redor de uma linha central que representa a média.
Se os pontos estão bem próximos da linha, a variância será baixa, indicando que os dados não variam muito.
Se os pontos estão bem espalhados, longe da linha, a variância será alta, mostrando que os dados são mais diversos.
Desvio padrão
O desvio padrão indica o quanto, em média, os valores de um conjunto se afastam da média. Ele é calculado como a raiz quadrada da variância e é uma das medidas de dispersão mais utilizadas porque mantém a mesma unidade dos dados originais, o que facilita a interpretação.
Como fica no gráfico?
Em um gráfico de dispersão, o desvio padrão se reflete na concentração ou espalhamento dos pontos em torno da média.
- Se o desvio padrão for baixo, os pontos estarão mais próximos da média — indicando menor variabilidade.
- Se for alto, os pontos estarão mais afastados, o que revela uma maior variação entre os dados.
Exemplo de gráfico de dispersão
Vamos ilustrar melhor: por exemplo, no caso do departamento de gerenciamento de projetos que esta interessado em aumentar a satisfação com relação à entrega dos projetos, coletamos os dados de satisfação (através de um formulário com o cliente) e de atraso (atraso negativo significa que o projeto foi entregue antes do prazo). Os dados são anotados em pares (x, y)..
Lembre-se: o primeiro passo para se traçar um bom gráfico de dispersão, é coletar bons dados.
Tabela 1 - Dados sobre atraso e satisfação para vários projetos.
Após coletarmos os dados, podemos usar um software para nos auxiliar a traçar o gráfico de dispersão. Um que gostamos bastante é o Minitab. Ele não só nos ajuda a traçar o gráfico, mas também tem alguns recursos adicionais que nos ajudam a entender correlações e estratificações de dados.
Entretanto, quem prefere o Excel, pode facilmente encontrar várias opções de gráfico de dispersão nele. Algumas das opções até colocam linhas de regressão linear, considerada uma sofisticação do gráfico.
No exemplo, obtemos o seguinte gráfico:
Interpretação do gráfico de dispersão:
Tendência negativa
O gráfico mostra que conforme os dias de atraso aumentam, a satisfação do cliente diminui. Essa relação é representada pela equação da regressão linear:
y = b*x + a
y = -0,43*x + 10,04
Onde:
y representa a satisfação do cliente (variável dependente).
x representa os dias de atraso (variável independente).
b = −0.43 é a inclinação da reta, ou seja, a taxa de variação da satisfação em relação ao atraso. Esse valor indica que, para cada dia adicional de atraso, a satisfação do cliente diminui em 0,43 pontos.
Interpretação da equação
- O termo -0.43 confirma que a relação entre as variáveis é negativa.
- O coeficiente linear 10.04 representa a satisfação esperada quando não há atraso (dia 0).
Distribuição dos dados
Os pontos do gráfico se concentram em torno da linha de regressão, sugerindo que há uma relação previsível entre atraso e satisfação, mas com pequenas variações devido a fatores externos.
Impacto prático
Empresas que desejam manter a satisfação acima de um determinado nível podem usar essa equação para prever o impacto dos atrasos e estabelecer limites críticos para ações corretivas. Por exemplo, se um projeto exige um nível mínimo de satisfação de 8, o atraso não deveria ultrapassar 4 dias.
Quais são as possíveis correlações a serem identificadas em um gráfico de dispersão?
Além da correlação negativa forte, podemos ter as seguintes correlações entre duas variáveis (que são identificadas usando-se o gráfico de dispersão).
- Sem correlação: quando vemos apenas uma nuvem de pontos no gráfico, podemos dizer que não há correlação entre a variável Y e a variável X. Os seus valores não estão de maneira alguma atrelados;
- Correlação positiva forte: há uma clara tendência nos dados. Quando a variável X aumenta, é esperado conjuntamente um aumento na variável Y. A pouca dispersão dos dados indica que essa tendência é forte;
- Correlação positiva média: quando a variável X sobe, a variável Y tende a subir também. Entretanto, a dispersão maior dos dados indica que mais variáveis podem estar envolvidas. Adicionar outras variáveis, como variáveis de estratificação, ou testar medições alternativas de X podem ser uma boa estratégia para se entender melhor a correlação;
- Correlação negativa forte: análoga à correlação positiva forte, só que quando X aumenta, Y diminui;
- Correlação negativa média: análoga à correlação positiva média, porém quando X aumenta, Y diminui.
O curso gratuito de "Fundamentos da Ciência de Dados" da FM2S é uma ponte vital para profissionais que aspiram a transformar suas carreiras utilizando habilidades altamente relevantes no contexto de negócios moderno. Especialmente focado em interpretar e analisar grandes volumes de dados, este curso ensina a maximizar o valor para o cliente e a fortalecer a competitividade no mercado através de uma gestão de dados eficaz e inovadora.
Um dos aspectos cruciais da ciência de dados abordados neste curso é o entendimento e aplicação de técnicas estatísticas, como o gráfico de dispersão. O gráfico de dispersão é uma ferramenta essencial para visualizar a relação entre duas variáveis, permitindo identificar padrões, tendências e correlações nos dados.
Este curso é ideal para quem deseja impulsionar sua trajetória profissional e aprimorar suas habilidades em análise de dados, tornando-se um profissional mais competitivo e preparado para os desafios do mercado moderno.
Como interpretar o gráfico de dispersão?
Identificar a direção da relação
É possível identificar se a relação entre as variáveis é positiva (os valores de uma variável aumentam quando os valores da outra variável aumentam), negativa (os valores de uma variável diminuem quando os valores da outra variável aumentam) ou não existe relação aparente.
Identificar a forma da relação
Em alguns casos, a relação entre as variáveis pode ser linear (os pontos formam uma linha reta), em outros casos a relação pode ser não-linear (os pontos não formam uma linha reta). Em casos não-lineares, é importante identificar a forma da curva, pois pode fornecer informações valiosas sobre a relação entre as variáveis.
Identificar a força da relação
A dispersão dos pontos pode fornecer uma indicação da força da relação entre as variáveis. Se os pontos estão próximos uns dos outros, a relação é considerada forte. Se os pontos estão espalhados, a relação é considerada fraca.
Identificar valores discrepantes
É importante observar se há valores discrepantes (outliers) no gráfico. Esses pontos podem ter um impacto significativo na análise estatística e podem indicar a presença de erros ou problemas nos dados.
Gráfico de Dispersão como Ferramenta da Qualidade
O gráfico de dispersão é uma das sete ferramentas da qualidade, utilizadas para entender e controlar variações em processos. Ele ajuda a identificar se existe uma relação entre duas variáveis, como por exemplo: tempo de produção e quantidade de defeitos ou temperatura e rendimento de um equipamento.
Em contextos de melhoria contínua, esse gráfico permite verificar padrões que podem indicar causas de problemas. Se os pontos formam uma tendência clara, isso sugere uma correlação entre as variáveis, o que orienta a investigação de causas raiz.
Essa visualização é especialmente útil em análises do tipo CEP (Controle Estatístico de Processo) e projetos Seis Sigma, pois fornece uma base sólida para decisões baseadas em dados. Ao identificar relações de causa e efeito, o gráfico de dispersão contribui diretamente para a redução de variabilidade e melhoria de processos.
Se quiser aprofundar o uso dessa ferramenta com aplicação prática, acesse o Curso Gráfico de Dispersão e Correlação de Dados da FM2S e aprenda como interpretar dados com mais precisão em seus projetos.