O que é Regressão Linear? Saiba como fazer a sua

Regressão Linear
04 de março de 2017
Última modificação: 26 de julho de 2021

Autor: Virgilio Marques Dos Santos
Categorias: Análise de dados, Blog, Seis Sigma

Regressão linear: o que significa?

A análise de regressão linear gera uma equação que descreve a relação estatística entre uma ou mais variáveis preditoras e a variável resposta. A regressão linear encontra a linha que melhor representa as variáveis de entrada com a variável de saída. Mas na verdade, como você deve ter observado nos gráficos de dispersão que realizou, é muito difícil encontrar uma linha que passe sobre todos os dados. Se você deseja aplicar essa técnica na sua empresa, comece baixando nossa Apostila Green Belt: lá você encontra o passo a passo para executar essa técnica.

Green Belt

Como utilizar a regressão linear?

Será que todos vão ficar acima do peso ou ser tornar obesos? Sim, segundo um artigo que li: por volta de 2048, todos os americanos já serão obesos. Se eu fosse americano, em 2048 teria 64 anos e esperaria não ser obeso, mas li que seria. O que fazer?

Esse artigo da Obesity teve muito publicidade. Vários jornais alertaram para o “apocalipse da obesidade”, que “todos estamos mais gordos” e coisas do gênero. Ellenberg, no entanto, lembra que esse tipo de reação e mito é muito comum nos EUA: no pós-guerra por exemplo, quando rapazes deixavam crescer o cabelo, passam a estar sujeitos a serem açoitados pelos comunistas.

Já em nossa geração, quem joga videogame demais está fadado a sair matando de maneira indiscriminada por pura diversão e, agora, comeremos fast-food demais e todos morreremos fracos e imóveis, cercados de embalagens de papelão vazias, estirados em sofás dos quais há muito perdemos a capacidade de nos levantar. O artigo sobre obesidade certificava essa ansiedade comum a todos nós como um fato cientificamente comprovado. Mas…

Boa notícia! Não estamos fadados a ficar acima do peso em 2048. Por quê? Porque nem toda curva é uma reta – mas, como já dizia Newton, toda curva é bem próxima de uma reta. Esse é a ideia que orienta a regressão linear, técnica estatística que está para as ciências sociais como a chave de fenda para os consertos domésticos. É aquela ferramenta que você vai usar quase com certeza, qualquer que seja o serviço.

Toda vez que você lê no jornal que pessoas com mais primos são mais felizes, ou que países com mais fast-foods têm preceitos morais mais amplos, ou que cortar pela metade o consumo de vitamina B3 duplica o risco de ter pé de atleta, ou que a cada US$ 10 mil a mais em renda tornam alguém 3% mais propenso a tornar-se de direita, você está encontrando o resultado de uma regressão linear.

O que está por trás da regressão linear?

Você tem duas coisas que quer relacionar – digamos, o custo de anuidades da universidade e a média de resultados dos exames finais do ensino médio dos alunos admitidos. Você poderia pensar que as universidades cujos alunos tiveram resultados mais elevados teriam propensão a ser mais caras. No entanto, uma olhada nos dados nos diz que essa não é uma lei universal.

A Elon University tem uma pontuação média de 1.217 e cobra uma anuidade de 20.441,00; já o Guilford College, enquanto cobra 23.420,00, tem como pontuação média nos exames de conclusão para ingresso apenas 1.131. Mas se você observar as 31 universidades privadas que informaram suas anuidades e pontuações para ingresso em 2007, perceberá uma tendência clara.

regressão linear

Figura 1: gráfico de dispersão entre anuidade e pontuação nos exames finais do EM.

Cada ponto do gráfico representa uma das faculdades. Os dois pontos bem altos no canto superior direito, com pontuações de exames e preços nas alturas, correspondem à Wake Forest e à Davidson; e o ponto solitário perto da base, a única escola privada na lista com anuidade inferior a 10 mil, representa a Cabarrus College.

A figura 1 mostra claramente que universidades com notas mais altas têm, em geral, preços mais altos. Mas quanto mais altos? É aqui que a regressão linear entra em cena. Os pontos da figura não estão obviamente numa linha reta. Provavelmente você poderia traçar uma linha reta a mão livre cortando muito aproximadamente o meio dessa nuvem de pontos, mas é nesse momento que entra em ação a regressão linear, expulsando o trabalho de adivinhação e revelando a reta que mais se aproxima de passar por todos os pontos.

Como encontrar a “reta da previsão” na regressão linear?

Para encontrar o que significa “mais se aproxima”, deve-se: substituir a anuidade real de cada escola pela estimativa sugerida pela reta e então computar a diferença entre a anuidade real e a estimada para cada escola; em seguida deve-se elevar ao quadrado cada um desses números e por fim somar todos esses quadrados.

Aí você obterá uma espécie de medida total de quanto a reta está desviada em relação aos pontos, podendo escolher a que torna essa medida a menor possível. Quadrados? Pitágoras? A geometria subjacente à regressão linear nada mais é que o teorema de Pitágoras transposto e alçado a um contexto dimensional muito mais elevado, mas essa história requer mais álgebra do que nos interessa neste momento.

regressão linear

Figura 2: regressão linear entre anuidade e pontuação nos exames finais do EM.

A reta na figura 2 tem uma inclinação de cerca de 28º. Isso significa que se a anuidade fosse de fato totalmente determinada pela pontuação dos exames finais, cada ponto extra nos exames corresponderia a 28 dólares a mais na anuidade. Se você, como universidade, puder aumentar a média nos exames dos seus calouros admitidos em cinquenta pontos, poderá cobrar US$ 1.400 a mais de anuidade; enquanto que, pela visão dos pais, cem pontos do filho irão custar US$ 2.800 a mais por ano.

A regressão linear é uma ferramenta maravilhosa, escalável e tão fácil de executar quanto clicar um botão na sua planilha. Você pode usá-la para conjuntos de dados envolvendo duas variáveis, como no exemplo anterior, mas funciona igualmente bem para três variáveis, ou mil. Sempre que você desejar entender que variáveis conduzem a outras variáveis, e em que direção, ela é a primeira coisa à qual você recorre. E funciona absolutamente com qualquer conjunto de dados.

Quais cuidados tomar na hora de fazer uma regressão linear?

Porém, cuidado. Você até pode fazer regressão linear sem pensar se o fenômeno que está modelando é realmente próximo de linear. Mas NÃO deve. A regressão, considerando-se sua praticidade, é como uma chave de fenda; contudo, se olharmos o quão perigoso pode ser o seu uso, é melhor compararmo-la a uma serra de bancada. Se você usá-la sem prestar cuidadosa atenção, os resultados podem ser desastrosos.

A regressão linear em um míssil

regressão linear

Figura 3: trajetória do lançamento de um míssil ICBM.

Imagine que a figura 3 seja um registro das posições de um míssil em momentos distintos. Animado pelo novo conceito que aprendeu, você faz uma rápida regressão linear e obtém ótimos resultados: uma reta que passa quase exatamente pelos pontos que você registrou.

regressão linear

Figura 4: linha reta que passa pela trajetória do míssil.

Sua reta fornece um modelo muito preciso para o movimento do míssil: para cada minuto que passa, o míssil aumenta sua altitude num valor fixo de 400 metros. Após uma hora, por exemplo, estará a 24 quilômetros de altitude. Mas quando é que ele desce? Não desce nunca: uma reta inclinada ascendente segue seu rumo indefinidamente. E agora? É um novo míssil espião alienígena?

É válido frisar que nem toda curva é uma reta – como é o caso da curva do voo do míssil, que na verdade é uma parábola. Lembra-se das aulas de física do colegial? Trata-se de movimento balístico, não é mesmo? Exatamente como o círculo de Arquimedes, ela parece uma reta quando vista de perto e é por isso que a regressão linear faz um bom serviço dizendo-lhe onde o míssil estará cinco segundo depois que você o rastreou da última vez. Mas e uma hora depois?  Seu modelo dirá que o míssil está na estratosfera, passeando pelo espaço sideral.

Ellenberg cita um trecho de Vida no Mississipi, de Mark Twain, para mostrar o perigo da extrapolação linear impensada.

Quais são os exemplos de aplicação da regressão linear?

“O Mississipi entre o Cairo e Nova Orleans tinha 1.960 quilômetros de comprimento 176 anos atrás. Passou a ter 1.900 após o corte de 1722. Tinha 1.670 após o corte American Bend. Desde então perdeu 123 quilômetros. Consequentemente, seu comprimento é de apenas 1.547 quilômetro no presente. … No espaço de 176 anos, o baixo Mississipi encolheu 399 km. É uma média de mais de 2 km por ano.

Portanto, qualquer pessoa calma, que não seja cega ou idiota, poder ver que, no período oolítico siluriano, pouco mais de 1 milhão de anos atrás, o baixo rio Mississipi tinha mais de 2 milhões de quilômetros de comprimento, estendendo-se sobre o golfo do México como uma vara de pescar. Do mesmo modo, qualquer pessoa pode ver que daqui a 742 anos o baixo Mississipi terá apenas 2 km de comprimento, e Cairo e Nova Orleans terão juntado suas ruas e estarão labutando confortavelmente juntas sob um único prefeito e um conselho de anciãos. Há algo fascinante na ciência. Obtemos tais retornos de conjectura por atacado a partir de uma ninharia de investimento de fato.”

Como a regressão linear te ajuda a emagrecer?

Qual percentual de americanos que estarão acima do peso em 2048? Como será que o grande autor Youfa Wang e seus colaboradores geraram essa projeção para o artigo da revista Obesity? Observemos que o Estudo Nacional do Exame sobre Saúde e Nutrição, instituição que acompanha o índice de massa corporal (IMC), classifica como acima do peso pessoas com IMC maiores de 25. Segundo seus dados, no começo dos anos 1970 pouco menos da metade dos americanos tinham IMC tão alto, mas no começo dos anos 1990 esse número já era quase 60% e em 2008, próximo a 75%.

Gerando a regressão linear desses dados – e os extrapolando -, essa reta cruzaria 100% em 2048 e é por isso que Wang afirma que, se a tendência atual continuar, todos os americanos serão obesos nesse ano. Mas é claro que a tendência não vai continuar, pois é impossível que em 2060 109% dos americanos sejam obesos. Dessa forma, podemos com alma concluir que, assim como a gravidade transforma a trajetória inicialmente reta do míssil em uma parábola, o que a princípio parecia uma lei  também pode se alterar.

Quanto maior a proporção de gente acima do peso, menos magros restam para converter e mais lentamente a proporção aumenta em direção aos 100%. Na verdade, a curva provavelmente vai se tornar horizontal em algum ponto abaixo dos 100%: sempre haverá magros entre nós. De fato, apenas quatro anos depois o levantamento do Centro de Saúde mostrou que a escalada do predomínio do sobrepeso já havia começado a desacelerar.

Comece agora a fazer sua regressão linear!

Quais os erros possíveis da regressão linear?

Mas o artigo sobre a Obesity oculta o PIOR CRIME contra a matemática e o senso comum. A regressão linear é fácil de fazer – uma vez que se fez uma, as outras são tranquilas. Wang e companhia, então, dividiram seus dados segundo grupos étnicos e sexo. Homens negros, por exemplo, tinham menos propensão a estar mais acima do peso que o americano médio, e, mais importante, sua taxa de sobrepeso crescia apenas com metade da velocidade. Se sobrepusermos a proporção de homens negros acima do peso à proporção global de americanos acima do peso, juntamente com a regressão linear que Wang e companhia elaboraram, veremos que homens negros são mais magros: eles só estariam todos acima do peso em 2095, sendo que em 2048, só 80% seriam obesos.

Conseguem localizar o problema? Se todos os americanos estarão acima do peso em 2048, onde deverá estar aquele 1 em 5 futuros homens negros sem problema de peso? No exterior? A contradição básica passa sem ser mencionada no artigo, fazendo-me lembrar das brincadeiras que fazíamos na escola quando algum colega, numa prova de física, registrava que a altura do poste era de 5 quilômetros.

Lembre-se: higiene matemática é importante. Quando estiver testando um método matemático em campo, tente computar a mesma coisa de várias maneiras diferentes: se obtiver respostas diferentes, há algo de errado em seu método.

Por fim, depois de toda essa matemática, não deixe de baixar nossa apostila de Green Belt, é grátis! E mesmo se você já for Yellow Belt, Green Belt ou Black Belt, baixe-a mesmo assim, para estudar e tirar dúvidas que sempre aparecem.

Quer continuar absorvendo o melhor conteúdo em Belts, Gestão e Análise de Dados? Faça parte da Assinatura FM2S clicando no banner abaixo: 

Conheça a assinatura FM2S

Deixe seu comentário

5 Comentários

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

cinco + 14 =