Correlação: como estudar a relação entre variáveis?

23 de maio de 2015
Última modificação: 23 de maio de 2015

Autor: Virgilio F. M. dos Santos
Categorias: Blog

O que é correlação?

Correlação – relação entre variáveis: uma das etapas mais deliciosas de um projeto de melhoria é o Analyse, pois é nesta hora que focamos nossa atenção para desenvolver as mudanças que irão resultar em melhoria. E dentro do Analyse, um dos estudos que mais gosto é o da relação entre variáveis. Tal estudo tem como objetivo entender como a variação numa variável de entrada x, afeta uma variável de saída y. É neste momento que atuamos como verdadeiros detetives, deduzindo o que devemos fazer para que nossa variável y alcance a nossa meta.

A primeira coisa que fazemos neste estudo é a classificação das variáveis em análise. Nosso X é numérico ou categórico? E nosso Y? Isto é importante, pois para cada tipo de cruzamento iremos utilizar um conjunto de ferramentas para avaliarmos as relações. Na figura 1 temos o gráfico que nos ajuda a entender qual ferramenta escolher, dependendo do tipo de nossas variáveis.

relação entre variáveis

Figura 1: análise de relações.

Vamos para um exemplo prático? Imagine que desejamos entender a relação de um governo (variável categórica) com o índice de inflação IPCA mensal (variável numérica). Segundo a figura 1, precisamos elaborar um Dot-plot estratificado ou um gráfico de tendência estratificado. Vamos lá? Que tal compararmos o primeiro governo Lula com o primeiro governo Dilma?

relação entre variáveis

Figura 2: dot-plot estratificado da inflação versus governo.

relação entre variáveis

Figura 3: gráfico de tendência estratificado.

Por meio da figura 2 e da figura 3 é possível entender que não há uma diferença significativa entre os primeiros anos de governo de Lula e Dilma no que toca o IPCA. Poderíamos se quiséssemos mais confiança estatística termos feito um ANOVA, conforme figura 4.

relação entre variáveis

Figura 4: “interval plot” do IPCA para os dois governos.

Como analisar correlação?

Pelo teste ANOVA, é possível verificar que o IPCA no governo Lula parece ser um pouco maior, mas pouca coisa. Quando fizemos o gráfico de tendência estratificado nós vimos que isto adveio do início do governo, com o pico de inflação sendo ocasionado nos primeiros 4 meses.

Como fazer uma análise de correlação?

Análise de dados: olá, caro leitor. Tudo bom? Como estão as coisas no trabalho? Pressão por resultados? Ou as coisas estão se acalmando um pouco? E os projetos? Como andam? Muita análise de dados ou a coisa está mais para análise de opiniões? Como estão as reuniões de projeto? As equipes levam diagnósticos teóricos, baseados em horas de lorotas compiladas ou lançam mão da análise de dados mais fundamentada?

Brainstroming infinitos ou gráficos de tendências (ou linhas)? E a análise dos problemas? Rola uma investigação prévia, utilizando um Ishikawa para fundamentar as hipóteses ou a coisa é mais Paretar Paretar Paretar? Por que pergunto isto? Porque analisar dados não é algo fácil. Depois de fazer seu Green Belt e sair cheio de vontade fazer a análise de dados aprendida nele, você foi surpreendido em reuniões com coisas como estas? Quantas vezes um gestor, mal informado sobre o tema, pediu para você fazer um gráfico mais bonito, mesmo que não fosse o correto para aquela situação? Quantas vezes, ao mostrar sua análise, alguém falou que os dados estavam errados? Dados esses, que a equipe dele lhe passou por meio da extração de uma base de dados do sistema oficial?

Calma. A coisa é assim mesmo. O Brasil não é conhecido por ser um país de expoentes na esfera da análise de dados na empresa. Não é todo mundo que como você, quer se esforçar para alcançar resultados com consistência, que estudou bastante e procura fatos e dados concretos para tomar decisão. Há muito mais em jogo, que exigirá de você habilidade para dominar as circunstâncias, ter paciência e resiliência. Mudar cultura não é fácil, mas é possível.

Como fazer a Análise de Dados de correlação?

Agora, chega de papo e vamos brincar um pouco. Desabafo feito, vamos para a análise de dados. Vamos começar analisando o índice “salário real médio” publicado pela FIESP que mede os salários na indústria e tem a base 100, fixada no ano de 2006.

Figura 5: salário real médio (fonte: FIESP).

Pela figura 5, fica claro o período de salários reais médios na indústria mais altos, parece que começou a chegar ao fim. Se olhamos para a série história, no início de 2016 o valor já é o mesmo de 2005. Parece-me que houve um retrocesso nos salários reais de 11 anos, o que parece ser não muito agradável para os colaboradores. E por que será que isto aconteceu? Numa análise básica, poderíamos intuir que uma das possíveis causas seja o desemprego, concordam? Como realizar uma análise de dados para comprovar isto?

análise de dados

Figura 6: regressão entre salário médio real e taxa de desemprego.

A figura 6, que mostra que a relação entre salário real médio e taxa de desemprego é comprovada estatisticamente. Não tem lorota, achismo ou história que possa ir contra o resultado desta análise. Também, é possível verificar que 71% da variação do salário real pode ser explicada pelo índice de desemprego. Com exceção de dezembro de 2006, um ponto fora da curva, há uma forte correlação entre estes dois indicadores. Portanto, só veremos salário maiores quando possuirmos uma demanda por emprego maior. E qual seria o modelo para predizer o valor do salário real médio em função do desemprego?

Como fazer a previsão de correlação?

análise de dados

Figura 7: relatório de previsão do salário real médio em função da taxa de desemprego.

Como a série história disponível sobre os salários reais tem o último valor disponível no mês 8, podemos utilizar o dado da taxa de desemprego para inferir o índice de salários. O último dado divulgado de setembro, mostra que o desemprego foi de 11,8%. Diante disto, espera-se um índice de 92, o mesmo de 2001, ou seja, voltamos 15 anos atrás. Com isto, não é difícil intuir os motivos pelo qual a população se revoltou com o status quo e respondeu com mudanças em grande parte dos municípios.

O que aprendemos de correlação com esse exemplo?

Neste exemplo, é possível analisar como aplicamos os conceitos que aprendemos no Green Belt e Black Belt na prática. Com uma simples regressão, realizada por meio do assistente do Minitab, é possível entender a relação forte que há entre vários indicadores. Agora, fé no método e aproveite para afinar suas análises de dados.

Viram como é fácil estruturarmos testes para entendermos as relações entre variáveis? Então mãos a obra. Se você tem um restaurante ou uma loja que atende ao público, estes testes irão ajuda-lo a entender melhor seus clientes. Imagina que você deseja entender se uma sobremesa de cortesia irá aumentar a satisfação de seus clientes. Como medir? Muito fácil. Sobremesa é uma  variável categórica (sim ou não) e a satisfação, numérica (0-100). Estruture a coleta de dados, por meio do PDSA e faça suas análises. É lucro certo. Dúvida sugestões? Escrevam para nós ou façam nossos cursos de green belt, black belt ou yellow belt.

Gostou do conteúdo? Faça parte da Assinatura FM2S, clicando no banner abaixo, e dê um boost na sua carreira: 

Deixe seu comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

3 × 1 =