A Regressão é Linear ou Não Linear?

08 de novembro de 2017
Última modificação: 08 de novembro de 2017

Autor: Paula Louzada
Categorias: Análise de dados

A Regressão é Linear ou Não Linear?

Como você provavelmente notou, o campo das estatísticas é enorme. Precisa de mais evidências? A regressão linear pode produzir linhas curvas e a regressão não linear não é nomeada por suas linhas curvas.

Então, quando você deve usar regressão não linear ao invés de métodos lineares, como regressão linear, melhores subconjuntos ou regressão stepwise? Isso é um pouco do que ensinamos nos nossos cursos de Green Belt e Black Belt.

De um modo geral, você deve tentar a regressão linear primeiro. É mais fácil de usar e mais fácil de interpretar. No entanto, se você simplesmente não conseguir um bom ajuste com regressão linear, então talvez seja hora de tentar a regressão não linear.

Quando a regressão linear não funciona

Vejamos um caso em que a regressão linear não funciona. Muitas vezes, o problema é que, mesmo que a regressão linear possa modelar curvas, talvez não seja capaz de modelar a curva específica que existe em seus dados. Os gráficos abaixo ilustram isso com um modelo linear que contém uma variável preditora cúbica.

 

 

 

O gráfico de linha ajustado mostra que os dados brutos seguem uma boa função e o R² é 98,5%, o que parece muito bom. No entanto, olhe mais de perto e a linha de regressão passa acima ou abaixo dos dados sistematicamente em diferentes pontos da curva. Quando você verifica os lotes de resíduos (o que você sempre faz, certo?), você vê padrões no plano de resíduos versus o ajuste, em vez da aleatoriedade que deseja ver. Isso indica um ajuste ruim, mas é o melhor que a regressão linear pode fazer.

Vamos tentar novamente, mas usando regressão não-linear. É importante notar que, porque a regressão não linear permite um número quase infinito de funções possíveis, pode ser mais difícil de configurar. Neste caso, exigiu um esforço considerável para determinar a função que proporcionou o ajuste ideal para a curva específica presente nesses dados, mas como meu ponto principal é explicar quando você deve usar a regressão não linear em vez de linear, não precisamos relacionar todos esses detalhes aqui.

                      

O gráfico de linha ajustado mostra que a linha de regressão segue os dados quase que exatamente – não há desvios sistemáticos. É impossível calcular R² para a regressão não linear, mas o valor de S (aproximadamente, a distância absoluta média dos pontos para a linha de regressão) melhora de 72,4 (linear) para apenas 13,7 na regressão não-linear. Você quer um valor S mais baixo porque quer que os pontos estejam mais próximos da linha ajustada. Além disso, o gráfico dos resíduos versus ajuste mostra a aleatoriedade que se deseja ver. É um bom ajuste!

A regressão não linear pode ser uma alternativa poderosa à regressão linear, mas existem algumas desvantagens. Além da dificuldade acima mencionada na criação da análise e da falta do R², esteja ciente de que:

  • O efeito que cada preditor tem na resposta pode ser menos intuitivo de entender.
  • Os valores do p-valor são impossíveis de calcular para as variáveis preditoras.
  • Os intervalos de confiança podem ou não ser calculáveis.

Se você estiver usando o Minitab agora, você pode jogar com esses dados, indo em Arquivo -> Abrir Planilha e, em seguida, clique no ícone Procurar no Minitab Sample Data e escolha Mobility.MTW. Esses dados são os mesmos do exemplo.

Como especificar seu modelo de regressão?

Escolher o tipo correto de análise de regressão é apenas o primeiro passo. Em seguida, você precisa especificar o modelo. A especificação do modelo consiste em determinar quais variáveis de preditoras devem ser inclusas no modelo e se você precisa modelar a curvatura e as interações entre as variáveis preditoras.

Especificar um modelo de regressão é um processo iterativo. Vamos mostrar aqui como confirmar que você especificou o modelo corretamente e como ajustar seu modelo com base nos resultados.

Como escolher o melhor modelo de regressão?

Escolher o modelo de regressão linear correto pode ser difícil. Afinal, como o mundo funciona é complexo. Tentar modelá-lo com apenas uma amostra não é das tarefas mais fáceis. Nesta seção, vamos ver alguns métodos estatísticos comuns para selecionar modelos, problemas que você pode enfrentar e conselhos práticos para escolher o melhor modelo de regressão.

Tudo começa quando um pesquisador quer descrever matematicamente a relação entre algumas variáveis preditoras e a variável de resposta. A equipe de pesquisa encarregada de investigar, geralmente, mede muitas variáveis, mas inclui apenas algumas no modelo. Os analistas tentam eliminar as variáveis ​​que não estão relacionadas e incluindo apenas aquelas com um relacionamento verdadeiro. Ao longo do caminho, os analistas consideram muitos modelos possíveis.

Eles se esforçam para alcançar o equilíbrio de Goldilocks com a quantidade de variáveis preditoras que eles incluem.

  • Muito poucas: um modelo sub-especificado tende a produzir estimativas tendenciosas.
  • Muitas: um modelo super-dimensionado tende a ter estimativas menos precisas.
  • Apenas certo: um modelo com os termos corretos não possui viés e tem as estimativas mais precisas.

Métodos estatísticos para encontrar o melhor modelo de regressão

Para um bom modelo de regressão, é importante incluir as variáveis ​​que se está testando junto com outras variáveis ​​que afetam a resposta para evitar resultados tendenciosos. O Minitab oferece medidas e procedimentos estatísticos que o ajudam a especificar seu modelo de regressão.

R-quadrado ajustado e R-quadrado previsto: Geralmente, você escolhe os modelos que possuem os maiores valores de R² ajustados e previstos. Essas estatísticas são projetadas para evitar um problema-chave com R² – ele aumenta cada vez que você adiciona uma variável preditora no modelo, levando você a um maior risco de enganar-se ao especificar um modelo excessivamente complexo.

  • O R² ajustado aumenta apenas se o novo termo melhorar o modelo mais do que seria esperado ao acaso, também podendo diminuir se forem adicionadas novas variáveis preditoras de baixa qualidade.
  • O R² previsto é uma forma de validação cruzada que também pode diminuir. A validação cruzada determina o quão bem o seu modelo se generaliza para outros conjuntos de dados, dividindo seus dados.

P-valores para os preditores: na regressão, p-valores baixos indicam termos que são estatisticamente significativos. “Reduzir o modelo” refere-se à prática de incluir todos os preditores candidatos no modelo e, em seguida, remover sistematicamente o termo com o p-valor mais alto, um por um, até que você tenha apenas preditores significativos.

Regressão stepwise e Regressão de subconjuntos melhores: são dois procedimentos automatizados que podem identificar preditores úteis durante as etapas exploratórias da construção do modelo. Com a melhor regressão de subconjuntos, o Minitab fornece o Cp de Mallows, que é uma estatística especificamente projetada para ajudá-lo a gerenciar o tradeoff entre precisão e viés.

Complicações do mundo real

Ótimo, há muitos métodos estatísticos para nos ajudar a escolher o melhor modelo. Infelizmente, também há uma série de possíveis complicações. Não se preocupe, vou fornecer alguns conselhos práticos adquiridos em consultoria.

  • O melhor modelo pode ser tão bom quanto as variáveis ​​medidas pelo estudo. Os resultados das variáveis ​​que você inclui na análise podem ser enviesados pelas variáveis ​​significativas que você não inclui.
  • Sua amostra pode ser incomum, seja por acaso ou pela metodologia de coleta de dados. Falso positivo e falso negativo são parte do jogo quando se trabalha com amostras.
  • Os valores do p-valor podem mudar de acordo com os termos específicos do modelo. Em particular, a multicolinearidade pode prejudicar o significado e dificultar a determinação do papel de cada preditor.
  • Se você avaliar modelos suficientes, você encontrará variáveis ​​que parecem significativas, mas que apenas correlacionam-se pelo acaso. Esta forma de mineração de dados pode tornar os dados aleatórios significativos. Um R² previsto é uma boa maneira de verificar esse problema.
  • Os valores do p-valor, o R² previsto e o ajustado, e o Cp de Mallows, podem sugerir modelos diferentes.
  • A regressão Stepwise e a melhor regressão de subconjuntos são excelentes ferramentas e podem aproximá-lo do modelo correto. No entanto, descobriu-se que geralmente eles não escolhem o modelo correto.

Recomendações para encontrar o melhor modelo de regressão

Escolher o modelo de regressão correto é tanto uma ciência quanto uma arte. Métodos estatísticos podem ajudá-lo a encontrar a direção certa, mas, em última instância, você precisará incorporar outras considerações.

Teoria

Pesquise o que outros fizeram e incorpore essas descobertas na construção do seu modelo. Antes de começar a análise de regressão, desenvolva uma ideia sobre como as variáveis ​​importantes estão em suas relações, sinais de coeficientes e magnitudes de efeito. Com base nos resultados de outros, torna-se mais fácil coletar os dados corretos e especificar o melhor modelo de regressão sem a necessidade de mineração de dados.

As considerações teóricas não deverão ser descartadas baseando-se somente nas medidas estatísticas. Depois de ajustar o seu modelo, determine se ele se alinha com a teoria e possivelmente faça ajustes.

Por exemplo, com base na teoria, você pode incluir uma variável preditora no modelo, mesmo que seu p-valor não seja significativo. Se algum dos sinais do coeficiente contradisser a teoria, investigue e altere seu modelo ou explique a inconsistência.

Complexidade

Você pode pensar que os problemas complexos exigem modelos complexos, mas muitos estudos mostram que os modelos mais simples geralmente produzem previsões mais precisas. Dado vários modelos com habilidade explicativa similar, o mais simples é mais provável que seja a melhor escolha. Comece simples, e apenas faça o modelo mais complexo conforme necessário. Quanto mais complexo você fizer seu modelo, mais provável é que você esteja adaptando o modelo ao seu conjunto de dados específicos, e a generalização sofre.

Verifique que a complexidade adicionada realmente produz intervalos de previsão mais estreitos. Verifique o R² previsto e não persiga um alto R²!

Resíduos

Conforme você avalia os modelos, verifique os lotes residuais porque eles podem ajudá-lo a evitar modelos inadequados e a ajustar seu modelo para obter melhores resultados. Por exemplo, o viés em modelos não especificados pode aparecer como padrões nos resíduos, como a necessidade de modelar a curvatura. O modelo mais simples que produz resíduos aleatórios é um bom candidato para ser um modelo relativamente preciso e imparcial. No final, nenhuma medida pode dizer-lhe qual modelo é o melhor. Os métodos estatísticos não entendem o processo subjacente ou a área do assunto. Seu conhecimento é uma parte crucial do processo! Quer aprender mais? Faça nossos cursos de Green Belt e  Black Belt!

Deixe seu comentário

um comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *