O que é e para que serve o Gráfico de Dispersão?

Gráfico de Dispersão
15 de maio de 2020
Última modificação: 21 de julho de 2021

Autor: FM2S
Categorias: Análise de dados, Blog

O que é o Gráfico de Dispersão ou Scatterplot?

Um gráfico de dispersão é uma representação gráfica da associação entre pares de dados. Esse emparelhamento de dados é o resultado da associação de diferentes medições de uma certa causa (por exemplo, pressão) com a medição correspondente da característica de qualidade (por exemplo, espessura da tinta). Os dados emparelhados podem também ser medições de duas causas (por exemplo, pressão e temperatura), ou duas características de qualidade (espessura e brilho). Cada par se torna um ponto do gráfico de dispersão.

Frequentemente é desejável determinar se existe uma relação ou associação entre duas variáveis. Por exemplo, uma vez que um diagrama de causa e efeito tenha sido desenvolvido para identificar causas potenciais que tenham impacto em uma característica de qualidade de um processo, a relação entre as causas e as características de qualidade têm que ser estudadas. Os resultados desse esforço devem ajudar a determinar qual ação poderia ser tomada no processo. Uma ferramenta para estudar tais relações é o gráfico de dispersão, o qual também pode ser usado para estudar a associação (ou correlação) entre diferentes características de qualidade.

Para traçá-lo, geralmente colhemos dados de maneira a vincular duas variáveis a uma observação. Por exemplo, podemos querer avaliar se a satisfação percebida por um cliente de um projeto está correlacionada ao atraso de seu projeto. Para isso, portanto, coletamos dados de N projetos, e para cada um deles, coletamos os dias de atraso e a satisfação do cliente.

De maneira genérica, a satisfação é a nossa variável resposta, ou variável Y. Os dias de atraso é a nossa variável de entrada, ou variável X. O número do projeto é a nossa observação, ou indexador. Ele tem esse nome pois ele atrela os valores da variável X com os da variável Y.

Quais exemplos de gráfico de dispersão?

Vamos ilustrar melhor: por exemplo, no caso do departamento de gerenciamento de projetos que esta interessado em aumentar a satisfação com relação à entrega dos projetos, coletamos os dados de satisfação (através de um formulário com o cliente) e de atraso (atraso negativo significa que o projeto foi entregue antes do prazo). Os dados são anotados em pares (x, y) como pode se notado na Tabela 1.

Lembre-se: o primeiro passo para se traçar um bom gráfico de dispersão, é coletar bons dados.

Tabela 1 – Dados sobre atraso e satisfação para vários projetos.

Projeto Dias de atraso Satisfação
1 -3 3.90
2 -6 3.42
3 -1 3.10
4 0 2.95
5 4 1.83
6 5 2.25
7 9 1.92
8 11 3.15
9 19 2.85
10 12 3.00
11 -5 2.64
12 -6 3.96
….

Após coletarmos os dados, podemos usar um software para nos auxiliar a traçar o gráfico de dispersão. Um que gostamos bastante é o Minitab. Ele não só nos ajuda a traçar o gráfico, mas também tem alguns recursos adicionais que nos ajudam a entender correlações e estratificações de dados.

Entretanto, quem prefere o Excel, pode facilmente encontrar várias opções de gráfico de dispersão nele. Algumas das opções até colocam linhas de regressão linear, considerada uma sofisticação do gráfico.

No exemplo, usamos o Minitab e obtemos o seguinte gráfico:

Gráfico de dispersão da satisfação em relação aos dias de atraso.

Gráfico de dispersão da satisfação em relação aos dias de atraso.

Como analisar o gráfico de dispersão?

Cada ponto do gráfico de dispersão é relativo a um par de pontos da tabela. No caso de nosso exemplo, concluímos que existe uma forte relação entre a satisfação e os dias de atraso. Podemos ver isso por que conforme o atraso aumenta, a satisfação diminui. Chamamos isso de correlação negativa. É tentador concluir que se entregarmos antes os projetos aumentaremos a satisfação, mas esse pensamento é potencialmente perigoso pois a correlação não implica necessariamente em causalidade. Essa relação aparente pode ser causada por algo bastante diferente.

Há vários tipos de associações entre parâmetros que podem ser demonstradas pelo gráfico de dispersão. A relação pode ser positiva ou negativa (quando um cresce o outro decresce), fraca ou forte, linear ou não linear.

A relação entre os parâmetros pode ser não linear. Nesse caso os pontos se pareceriam mais com uma curva do que com uma linha reta, com máximos e mínimos evidentes no gráfico. A fim de simplificar a interpretação, o gráfico de dispersão pode ser dividido em seções, baseado na relação ser positiva ou negativa, e visto como linear dentro de cada seção.

Um exemplo bastante didático é a coleta de dados elaborada pelo estatístico dinamarquês Gustav Fisher. Ele coletou, entre 1930 e 1936, dados sobre a população e o número de cegonhas no final de cada ano na cidade de Oldenburg (Figura 2). Ele não fez isso por acreditar no mito infantil, mas sim para mostrar que nem sempre a correlação implica em causalidade. Assim, quando construímos um gráfico de tendência, procuramos identificar relações potenciais, que deverão ser comprovadas em experimentos posteriores.

Gráfico de dispersão mostrando uma correlação entre o número de cegonhas em uma cidade e a população.

Gráfico de dispersão mostrando uma correlação entre o número de cegonhas em uma cidade e a população.

Quais são as possíveis correlações a serem identificadas em um gráfico de dispersão?

Além da correlação negativa forte, podemos ter as seguintes correlações entre duas variáveis (que são identificadas usando-se o gráfico de dispersão). Elas são ilustradas na figura abaixo:

Tipos de correlação em um gráfico de dispersão

Tipos de correlação em um gráfico de dispersão

  • Sem correlação: quando vemos apenas uma nuvem de pontos no gráfico, podemos dizer que não há correlação entre a variável Y e a variável X. Os seus valores não estão de maneira alguma atrelados.
  • Correlação positiva forte: há uma clara tendência nos dados. Quando a variável X aumenta, é esperado conjuntamente um aumento na variável Y. A pouca dispersão dos dados indica que essa tendência é forte.
  • Correlação positiva média: quando a variável X sobe, a variável Y tende a subir também. Entretanto, a dispersão maior dos dados indica que mais variáveis podem estar envolvidas. Adicionar outras variáveis, como variáveis de estratificação, ou testar medições alternativas de X podem ser uma boa estratégia para se entender melhor a correlação.
  • Correlação negativa forte: análoga à correlação positiva forte, só que quando X aumenta, Y diminui.
  • Correlação negativa média: análoga à correlação positiva média, porém quando X aumenta, Y diminui.

Como estratificar um gráfico de dispersão?

Ao se preparar um gráfico de dispersão deve-se considerar o uso de estratificação, a classificação dos dados em grupos por alguma característica comum. Às vezes a relação entre os parâmetros não é evidente quando todos os dados são considerados, mas quando os dados são agrupados e plotados separadamente, a relação se torna mais clara. Os dados podem ser estratificados por máquina, operador, dia da semana, ou mesmo geograficamente.

Qual é o resumo sobre gráfico de dispersão?

Resumindo, os gráficos de dispersão são usados para examinar a associação entre duas medidas. As medidas podem ser características de qualidade, de processo ou variáveis causais. Sendo assim, esta é uma das mais poderosas ferramentas para se investigar relações e associações entre pares de variáveis de processo. Além disso, os gráficos de dispersão nos permitem enxergar padrões fora do comum, dados afetados por causas especiais e agrupamentos interessantes de pontos de dados.

Assim, se existir uma associação entre uma característica de qualidade e uma variável causal, isso não significa que exista necessariamente uma relação de causa e efeito. A relação pode ser devida a outro parâmetro que esteja associado a cada um dos parâmetros estudados. Por outro lado, se não existir nenhuma associação em um gráfico de dispersão, isso não significa que os dois parâmetros não estejam relacionados.

Ou seja, é possível que uma causa comum ou que uma causa especial de variação esteja mascarando a associação para a amplitude de dados estudada. Em alguns casos, aliás, um simples teste de associação entre as variáveis no gráfico de dispersão pode fornecer uma confirmação para as conclusões obtidas após uma inspeção visual.

Por fim, a estratificação pode ser usada para aprimorar um gráfico de dispersão. Os dados são estratificados plotando-se símbolos diferentes para grupos diferentes de dados no gráfico de dispersão. Algumas vezes a relação entre parâmetros não é evidente quando todos os dados são considerados, mas quando os dados são agrupados e plotados com um símbolo diferente a relação se torna mais clara.

Como se aprofundar no gráfico de dispersão?

Veja nosso post sobre as Sete Ferramentas da Qualidade e também nosso curso de Green Belt. Lá discutimos a fundo mais sobre o gráfico de dispersão. Para cobrir todo esse conteúdo, inclusive todos os belts da Certificação Seis Sigma, conheça a Assinatura FM2S: um plano de 12 meses que dá acesso a mais de 55 cursos exclusivos aos quais se soma, mensalmente, um novo curso. Confira!

Conheça a assinatura FM2S

Deixe seu comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

21 de junho de 2019
Última modificação: 08 de julho de 2021

Autor: FM2S
Categorias: Análise de dados, Blog

8 horas

2 módulos – 24 aulas

1 avaliação final

{valor_a_prazo}

Saber como um parâmetro interfere em outro de maneira a maximizar o resultado de um processo é uma habilidade importante dentro de qualquer organização. O Gráfico de Dispersão foi consagrado como uma ferramenta clássica da qualidade, por ser base para entender essas correlações. Neste curso iremos falar como coletar e relacionar dados contínuos por meio desta ferramenta. Com aulas diretas, tutoriais de softwares e estudos de caso, você poderá desenvolver análises assim em qualquer tipo de empresa.

● O que é o Gráfico de Dispersão e a Análise de Correlação de Dados;
● Quando usar o Gráfico de Dispersão;
● Exemplos de Gráficos de Dispersão;
● O passo a passo de como usar o Gráfico de Dispersão em problemas organizacionais;
● Modelando o seu processo para enxergá-lo através de dados;
● Coletando e estruturando dados;
● Construindo um Gráfico de Dispersão no Minitab;
● Construindo um Gráfico de Dispersão no Excel;
● Além do gráfico de Dispersão: as análises de Regressão Linear;
● Desenvolvendo planos de ação a partir da análise de correlação de dados;
● Estudos de caso;
● Exercícios;
● Considerações finais.

Não há pré-requisitos para este curso.

O curso irá te ajudar a:

● Entender o que significa realizar uma análise de correlação de variáveis;
● Entender como aplicar esse tipo de análise no seu dia a dia;
● Usar softwares como o Minitab e o Excel para ajudá-lo na análise de correlação;
● Otimizar processos com múltiplas variáveis;
● Entender técnicas mais avançadas de correlação, como é o caso da Regressão Linear.

 

Pensando nisso, recomendamos o curso para:

● Profissionais das mais diferentes áreas (da qualidade, da indústria, de serviços, da saúde etc) que precisam otimizar processos pela análise de dados;
● Profissionais que desejam aumentar o seu repertório de ferramentas para a melhoria contínua;
● Estudantes com interesses em se prepararem melhor para o mercado de trabalho.

Curso EAD:

Murilo Ferreira Marques dos Santos

Ao final do curso, o aluno faz uma prova onde deve pontuar em mais de 50% de seu conteúdo. Mediante aprovação, o aluno recebe um certificado que diz:

 

“A FM2S certifica que [SEU NOME] concluiu com êxito a formação avançada sobre Gráficos de Dispersão e análise de correlação entre variáveis contínuas.”

 

No verso estão a ementa acima e a carga horária.

Gostou? Aproveite agora

Gráfico de Dispersão e Correlação de Dados

 

{valor_a_prazo}

Quem viu esse curso também se interessou por...

Deixe seu comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *