Análise de dados

04/03/2017

Última atualização: 08/04/2025

O que é Regressão Linear? Saiba como fazer a sua

A Regressão Linear é uma técnica estatística amplamente utilizada na área de gestão de projetos para prever resultados futuros com base em dados históricos. Ela permite entender a relação entre duas ou mais variáveis e utilizar essa informação para tomar decisões informadas

Neste artigo, nós iremos explorar toda a teoria por trás da regressão linear e mostrar como ela pode ser fundamental na sua organização.

O que é Regressão Linear e para que serve?

regressão linear parte do princípio de que existe uma relação proporcional entre variáveis independentes e uma variável dependente. Ou seja, quando uma variável independente aumenta ou diminui, espera-se uma variação correspondente na variável dependente.

Esse tipo de análise utiliza o método dos mínimos quadrados para calcular a equação da linha que melhor representa os dados observados. Essa linha, chamada de reta de regressão, descreve a relação entre as variáveis e permite realizar previsões com base em valores futuros ou desconhecidos das variáveis independentes.

Tipos de regressão linear

regressão linear pode ser classificada de acordo com o número de variáveis independentes envolvidas na análise. Os dois tipos mais comuns são:

Regressão linear simples

regressão linear simples avalia a relação entre uma única variável independente (X)uma variável dependente (Y). O modelo busca identificar uma tendência linear que descreva como mudanças em X impactam diretamente os valores de Y.

Esse tipo de análise é utilizado quando se deseja prever resultados com base em apenas um fator, o que torna a interpretação mais direta. A equação que representa essa relação tem a forma:

Y = a + bX

Onde:

Exemplo:

Considere uma análise de produtividade: deseja-se prever a nota final de alunos com base nas horas de estudo semanais.

A aplicação da regressão linear simples neste caso gera uma reta de tendência que indica o quanto, em média, a nota aumenta para cada hora adicional de estudo.

Aqui está o gráfico gerado com base no exemplo fornecido. Ele mostra:

Como fazer regressão linear simples no Excel

A regressão linear pode ser feita de forma rápida no Excel, usando recursos gráficos e estatísticos. Veja como aplicar:

1. Inserir os dados

Monte sua tabela com duas colunas (Horas de estudo (x) e Nota na prova (y)).

2. Criar o gráfico de dispersão

3. Adicionar linha de tendência

4. Interpretar o resultado

O Excel mostrará a equação da reta diretamente no gráfico. Com base nos dados deste exemplo, ela será algo como:

Y = 3,75*X + 52,7

Esse valor pode variar ligeiramente conforme a precisão dos dados. Use a equação para fazer previsões: basta substituir o valor de X (horas de estudo) para estimar a nota (Y).

Regressão linear múltipla

regressão linear múltipla permite analisar a influência de duas ou mais variáveis independentes sobre uma única variável dependente. O modelo busca entender como esses fatores combinados explicam variações no resultado, o que o torna útil em situações com múltiplos determinantes.

A equação tem a forma:

Y = a₀ + b₁X₁ + b₂X₂ +… +bₙXₙ

Onde:

Exemplo prático

Vamos prever o preço de um imóvel (Y) com base em três variáveis:

Como fazer a regressão linear múltipla no Excel

  1. Organize os dados em colunas, como mostrado acima.
  2. Abra o suplemento de Análise de Dados:
    • Vá até “Dados” > “Análise de Dados”
    • Se não estiver visível, ative em “Arquivo > Opções > Suplementos > Ferramentas de Análise”
       
  3. Escolha “Regressão” na lista
  4. Configurações da análise:

    • Y Intervalo de Entrada: selecione a coluna “Preço”
    • X Intervalo de Entrada: selecione as colunas “Metragem”, “Quartos” e “Localização”
    • Marque a opção “Rótulos” (se você selecionou os títulos das colunas)
    • Saída: escolha onde quer que os resultados apareçam
  5. Clique em OK
    O Excel irá gerar os coeficientes da equação, o R² e estatísticas como p-valor (importância das variáveis).

Resultado (estimado)

Supondo que a regressão forneça os seguintes coeficientes:

Preço = 120 +4,5*Metragem + 35*Quartos + 80*Localização

Interpretação:

Como utilizar a regressão linear?

Será que todos vão ficar acima do peso ou se tornar obesos? Sim, segundo um artigo que li: por volta de 2048, todos os americanos já estarão obesos. Se eu fosse americano, em 2048 teria 64 anos e esperaria não ser obeso, mas li que seria. O que fazer?

Esse artigo da Obesity teve muita publicidade. Vários jornais alertaram para o “apocalipse da obesidade”, que “todos estamos mais gordos” e coisas do gênero. Ellenberg, no entanto, lembra que esse tipo de reação é muito comum nos EUA: no pós-guerra, por exemplo, quando rapazes deixavam crescer o cabelo, passam a estar sujeitos a serem açoitados pelos comunistas.

Já em nossa geração, quem joga videogame demais está fadado a sair matando de maneira indiscriminada por pura diversão e, agora, comeremos fast-food demais e todos morreremos fracos e imóveis, cercados de embalagens de papelão vazias, estirados em sofás dos quais há muito perdemos a capacidade de nos levantar. O artigo sobre obesidade certificava essa ansiedade comum a todos nós como um fato cientificamente comprovado. Mas...

Não estamos fadados a ficar acima do peso em 2048. Por quê? Porque nem toda curva é uma reta – mas, como já dizia Newton, toda curva é bem próxima de uma reta. Essa é a ideia que orienta a regressão linear, técnica estatística que está para as ciências sociais como a chave de fenda para os consertos domésticos. É aquela ferramenta que você vai usar quase com certeza, qualquer que seja o serviço.

Toda vez que você lê no jornal que pessoas com mais primos são mais felizes, ou que países com mais fast-foods têm preceitos morais mais amplos, ou que cortar pela metade o consumo de vitamina B3 duplica o risco de ter pé de atleta, ou que a cada US$ 10 mil a mais em renda tornam alguém 3% mais propenso a tornar-se de direita, você está encontrando o resultado de uma regressão linear.

Por que a regressão linear é importante?

A regressão linear é importante porque é uma técnica amplamente utilizada em estatística e análise de dados para modelar a relação entre uma variável dependente e uma ou mais variáveis independentes. É uma ferramenta útil para fazer previsões sobre uma variável de interesse a partir de dados históricos e para entender como diferentes variáveis estão relacionadas entre si. Além disso, a regressão linear é simples e fácil de implementar, tornando-a uma escolha popular para muitos problemas de análise de dados.

Aplicações práticas da regressão linear

A regressão linear pode ser utilizada para resolver problemas reais em diferentes setores. Ela permite prever comportamentos, entender relações entre variáveis e apoiar a tomada de decisões com base em dados históricos.

Caso 1: Previsão de vendas

Empresas utilizam regressão linear para prever o volume de vendas com base em variáveis como gastos com marketing, número de visitas ao site e sazonalidade. Ao analisar essas relações, é possível estimar quanto será vendido em períodos futuros.

Exemplo:
Uma loja online relaciona os gastos mensais em mídia paga (Google Ads e redes sociais) com as vendas realizadas no mesmo mês. A regressão linear identifica uma tendência: a cada R$ 1.000 investidos, o faturamento cresce, em média, R$ 8.000. Com isso, é possível ajustar o orçamento de mídia para atingir metas de receita.

Esse tipo de aplicação ajuda empresas a alocar recursos de forma mais eficiente, com previsões baseadas em evidências.

Caso 2: Análise de riscos financeiros

No setor financeiro, a regressão linear é usada para entender como diferentes fatores afetam indicadores de risco, como inadimplência, exposição a crédito e retorno de investimentos.

Exemplo:
Um banco analisa dados de clientes (renda, score de crédito, histórico de pagamentos) para prever a probabilidade de inadimplência. A regressão múltipla mostra que clientes com renda abaixo de R$ 3.000 e com score inferior a 500 têm maior risco. Com isso, a instituição pode ajustar suas políticas de concessão de crédito.

Esse tipo de análise contribui para decisões mais seguras e redução de perdas financeiras.

Quer aprofundar seus conhecimentos em análise de dados e aplicar técnicas como regressão linear na prática? Conheça o curso gratuito Fundamentos da Ciência de Dados da FM2S.

Como a regressão linear te ajuda a emagrecer?

Qual o percentual de americanos que estarão acima do peso em 2048? Como será que o grande autor Youfa Wang e seus colaboradores geraram essa projeção para o artigo da revista Obesity? Observemos que o Estudo Nacional do Exame sobre Saúde e Nutrição, instituição que acompanha o índice de massa corporal (IMC), classifica como acima do peso pessoas com IMC maiores de 25. 

Segundo seus dados, no começo dos anos 1970 pouco menos da metade dos americanos tinham IMC tão alto, mas no começo dos anos 1990 esse número já era quase 60% e em 2008, próximo a 75%.

Gerando a regressão linear desses dados – e os extrapolando -, essa reta cruzaria 100% em 2048 e é por isso que Wang afirma que, se a tendência atual continuar, todos os americanos serão obesos. 

Mas é claro que a tendência não vai continuar, pois é impossível que em 2060 109% dos americanos sejam obesos. Dessa forma, podemos concluir que, assim como a gravidade transforma a trajetória inicialmente reta do míssil em uma parábola, o que a princípio parecia uma lei também pode se alterar.

Quanto maior a proporção de pessoas acima do peso, menos magros restam para converter e mais lentamente a proporção aumenta em direção aos 100%. Na verdade, a curva provavelmente vai se tornar horizontal em algum ponto abaixo dos 100%: sempre haverá magros entre nós. 

De fato, apenas quatro anos depois o levantamento do Centro de Saúde mostrou que a escalada do predomínio do sobrepeso já havia começado a desacelerar.

Quais os possíveis erros da regressão linear?

Apesar de ser uma ferramenta poderosa, a regressão linear pode gerar resultados distorcidos se alguns cuidados não forem tomados. Os erros mais comuns estão ligados a pressupostos violadosdados inadequados ou interpretação incorreta dos resultados.

1. Suposição de linearidade inadequada

O modelo assume que a relação entre as variáveis é linear. Se a relação for não linear, a regressão simples ou múltipla pode gerar previsões imprecisas. É importante avaliar os dados graficamente antes de aplicar o modelo.

2. Correlação não implica causalidade

Uma correlação positiva entre duas variáveis não significa que uma causa a outra. Um erro comum é interpretar a regressão como uma prova de causa e efeito, sem considerar outros fatores.

3. Multicolinearidade

Quando duas ou mais variáveis independentes estão altamente correlacionadas entre si, ocorre multicolinearidade. Isso prejudica a estabilidade dos coeficientes, dificultando a interpretação e reduzindo a confiabilidade do modelo.

4. Resíduos não aleatórios

Os resíduos (diferenças entre os valores observados e previstos) devem se comportar de forma aleatória. Padrões nos resíduos indicam que o modelo está omitindo variáveis relevantes ou que há problemas de especificação.

5. Influência de outliers

Valores extremos (outliers) podem distorcer a reta de regressão e influenciar os coeficientes. É importante identificá-los antes de aplicar o modelo e avaliar se devem ser mantidos ou removidos.

6. Uso de variáveis irrelevantes

Adicionar variáveis sem relação com o resultado pode inflar o modelo e reduzir sua capacidade de generalização. O ideal é manter apenas os fatores que realmente contribuem para explicar a variável dependente.

Leia mais: