Seis Sigma

07/03/2017

Última atualização: 26/05/2023

O que é Anova e como aplicá-la?

No fascinante mundo da estatística, várias ferramentas são utilizadas para interpretar e analisar dados. Uma dessas ferramentas, indispensável e amplamente usada, é a Análise de Variância, conhecida pela sua abreviação em inglês, ANOVA.

A ANOVA é um método estatístico usado para testar as diferenças entre duas ou mais médias. A sua finalidade é entender se existe uma diferença significativa entre os grupos que estão sendo comparados. Imagine, por exemplo, que você quer comparar a eficiência de três diferentes dietas em um grupo de pessoas. A ANOVA é a ferramenta perfeita para realizar essa comparação!

Minitab é um software estatístico poderoso que ajuda a analisar dados e tomar decisões baseadas em dados. Aprender Minitab pode ser uma habilidade valiosa para profissionais em áreas como gerenciamento de projetos, produção, engenharia e pesquisa de mercado. Veja nosso e-book gratuito!

O que é Anova?

A Análise de Variância, ou ANOVA, é um método estatístico utilizado para determinar se há diferenças significativas entre as médias de três ou mais grupos independentes. Essa técnica foi desenvolvida pelo estatístico e geneticista britânico Ronald Fisher no início do século XX.

O nome "análise de variância" pode parecer um pouco confuso, já que o objetivo final é comparar médias, e não variâncias. No entanto, o nome vem da abordagem do método, que divide a variância dos dados em componentes associados a diferentes efeitos, como entre grupos e dentro dos grupos.

Na prática, a ANOVA testa a hipótese nula de que as médias dos grupos são iguais contra a hipótese alternativa de que pelo menos uma das médias é diferente. Se a variância entre os grupos (variação devido à interação entre os grupos) é significativamente maior do que a variância dentro dos grupos (variação devido ao acaso), então a hipótese nula é rejeitada.

A ANOVA é frequentemente utilizada em experimentos científicos, pesquisa de mercado, análise de qualidade, entre outros campos. Há também várias variantes do método ANOVA para lidar com diferentes tipos de design experimental e diferentes tipos de dados, como ANOVA univariada, ANOVA multivariada, ANOVA de medidas repetidas, e ANOVA de dois fatores, apenas para citar alguns.

Resumindo, a ANOVA é uma ferramenta estatística poderosa que permite comparar as médias de diferentes grupos e determinar se as diferenças observadas são devidas ao acaso ou se são estatisticamente significativas.

Como realizar uma anova?

Para realizar a ANOVA, você precisará de uma variável de resposta contínua e pelo menos um fator categórico com dois ou mais níveis. As análises exigem dados de populações que sigam a distribuição normal e cujas sejam variâncias iguais entre fatores. Porém, para nossa sorte, os procedimentos funcionam bem mesmo quando a pressuposição de normalidade é violada, havendo uma exceção quando uma ou mais distribuições são altamente assimétricas ou quando as variâncias são muito diferentes. Nesses casos, recomenda-se lançar mão de uma transformação de variáveis para corrigir essas violações.

Por exemplo, imagine que uma loja gostaria de testar se o valor gasto na compra pelo cliente, sofre influência de alguns fatores. Dentre os fatores, o lojista a loja e coloca 3 níveis (loja A, loja B e loja C). O Anova, vai permitir que o lojista avalie se há diferenças estatisticamente significativas entre os tratamentos ou se o resultado observado variou em decorrência da mera variabilidade amostral.

Como calcular teste ANOVA?

O cálculo para o teste ANOVA envolve várias etapas, e pode parecer complexo, especialmente se você estiver fazendo à mão. Entretanto, geralmente, é realizado utilizando um software de estatística. Aqui está um resumo das etapas:

Lembre-se, no entanto, que este é um resumo simplificado do processo, e a ANOVA real pode ser muito mais complexa, especialmente para designs experimentais mais complicados. Além disso, ao realizar o cálculo, é importante verificar as suposições do teste, como a normalidade dos dados e a homogeneidade das variâncias. Se essas suposições não forem atendidas, os resultados podem não ser válidos.

Como surgiu o ANOVA?

O nome baseia-se na abordagem na qual se utiliza as variâncias para determinar se as médias são diferentes. O procedimento compara a variância entre as médias do grupo à variância dentro dos grupos, para determinar se os grupos são todos parte de uma população maior ou populações separadas com características diferentes.

Se a variância dentro de uma população for maior do que a variância observada entre os grupos, então conclui-se que todos os fatores pertencem a mesma população. Nesse caso, a variação observada entre os tratamentos deu-se apenas devido a variabilidade amostral. Isso, em projetos de melhoria que você trabalha quase como que um Sherlock Holmes, é algo frustrante.

O termo análise de variância aparece pela primeira vez em 1924, no artigo “Estudos da variação de safras II”, de Ronald Fisher. Nesse estudo, Fisher cria uma das mais importantes ferramentas da ciência biológica: um método para separar os efeitos de diferentes tratamentos em um experimento bem planejado.

Como interpretar os resultados da ANOVA?

O ANOVA utiliza várias abordagens matemáticas para comparar as médias das amostras, mas antes de sair aplicando, deve-se formular as hipóteses da seguinte maneira:

Com a hipótese, podemos partir para a aplicação da ferramenta aos dados e por fim, avaliar o resultado da análise.

O primeiro item, a ser analisado, é o p-valor. Se o p-valor, por exemplo, foi de 0.000 é sinal de que há diferença entre as lojas. Entretanto, devemos tomar cuidado em como formularemos nossas conclusões, porque haver diferença não é a mesma coisa de “todos são diferentes”.

Se a análise for feita no Minitab, ele também resume as estatísticas chave de cada subgrupo, informando o intervalo de confiança (95%) para a média de cada subgrupo. Tais intervalos, são úteis para entendermos quais subgrupos são diferentes, o que fica mais fácil, pois são feitos por meio do “Interval Plot”. Por meio desse gráfico, é possível ver qual o intervalo para cada uma das lojas.

Como saber se a ANOVA é significativa?

Determinar se os resultados de uma Análise de Variância (ANOVA) são significativos envolve observar o valor p associado à estatística F calculada.

Lembre-se que a significância estatística não é a mesma coisa que importância prática. Um resultado pode ser estatisticamente significativo, mas ainda assim não ser suficientemente grande para ser importante na prática. Da mesma forma, um resultado pode não ser estatisticamente significativo (especialmente em estudos com amostras pequenas), mas ainda assim ter importância prática.

Quando você vai precisar usar ANOVA?

Se você está lidando com indivíduos, é provável que você encontre essa situação usando dois tipos diferentes de planejamento de estudo:

Um projeto de estudo é recrutar um grupo de indivíduos e, em seguida, dividir aleatoriamente esse grupo em três ou mais grupos menores (ou seja, cada participante é alocado para um, e apenas um, grupo). Você então faz com que cada grupo realize diferentes tarefas (ou as coloque sob condições diferentes) medindo o resultado/resposta na mesma variável dependente. Por exemplo, um pesquisador deseja saber se diferentes estratégias de ritmo afetam o tempo para completar uma maratona. O pesquisador atribui aleatoriamente um grupo de voluntários a um grupo que (a) começa devagar e depois aumenta sua velocidade, (b) começa rápido e desacelera ou (c) corre em um ritmo constante. O tempo para completar a maratona é a variável de resultado (dependente).

Um segundo desenho de estudo é recrutar um grupo de indivíduos e depois dividi-los em grupos baseados em alguma variável independente. Mais uma vez, cada indivíduo será atribuído a apenas um grupo. Essa variável independente às vezes é chamada de variável independente de atributo porque você está dividindo o grupo com base em algum atributo que possui (por exemplo, seu nível de instrução; cada indivíduo tem um nível de instrução, mesmo que seja "nenhum"). Cada grupo é então medido na mesma variável dependente que passou pela mesma tarefa ou condição (ou nenhuma). Por exemplo, um pesquisador está interessado em determinar se há diferenças na força das pernas entre jogadores de rugby amadores, semiprofissionais e profissionais. A força / força medida em uma máquina isocinética é a variável dependente.

Por que não comparar grupos com vários testes t?

Toda vez que você realizar um teste t, há uma chance de que você faça um erro do Tipo I. Este erro geralmente é de 5%. Ao executar dois testes-t nos mesmos dados, você aumentará sua chance de "cometer o erro" para 10%. A fórmula para determinar a nova taxa de erro para múltiplos testes t não é tão simples quanto multiplicar 5% pelo número de testes. No entanto, se você estiver fazendo apenas algumas comparações múltiplas, os resultados serão muito semelhantes se você fizer isso. 

Como tal, três testes t seriam 15% (na verdade, 14,3%) e assim por diante. Estes são erros inaceitáveis. Um ANOVA controla esses erros para que o erro Tipo I permaneça em 5% e você pode ter mais confiança de que qualquer resultado estatisticamente significativo encontrado não está apenas executando muitos testes. Consulte o nosso guia de testes de hipóteses para obter mais informações sobre erros do tipo I.

ANOVA: algumas definições importantes

O que significa ANOVA "unidirecional" ou "bidirecional"?

Uma forma ou duas vias refere-se ao número de variáveis ​​independentes (IVs) em seu teste Análise de Variância. Um caminho tem uma variável independente (com dois níveis ) e duas vias tem duas variáveis ​​independentes (pode ter vários níveis). Por exemplo, uma Análise de Variância unidirecional pode ter um IV (marca de cereal) e uma Análise de Variância de duas vias tem dois IVs (marca de cereal, calorias).

O que são "Grupos" ou "Níveis" no ANOVA?

Em estatística, quando falamos de "grupos" ou "níveis" no contexto da Análise de Variância (ANOVA), estamos nos referindo às diferentes categorias independentes que estamos comparando.

Os "grupos" são essencialmente os conjuntos distintos de dados que você está analisando. Por exemplo, se você está realizando um experimento para testar a eficácia de três tipos diferentes de fertilizantes em plantas, cada tipo de fertilizante representaria um grupo. Assim, você teria três grupos: Fertilizante A, Fertilizante B e Fertilizante C.

Já o termo "níveis" é comumente usado quando se discute a variável independente em um experimento. Em nosso exemplo de fertilizantes, se estamos variando o tipo de fertilizante utilizado, então cada tipo de fertilizante representa um nível diferente da variável independente "fertilizante".

Portanto, na ANOVA, os grupos ou níveis são as diferentes categorias ou condições independentes que estão sendo comparadas para determinar se há uma diferença significativa nas médias do grupo na variável dependente, que é o que você está medindo (por exemplo, o crescimento da planta).

O que significa "replicação" no ANOVA?

É se você está replicando seu(s) teste(s) com vários grupos. Com uma ANOVA bidirecional com replicação , você tem dois grupos e os indivíduos dentro desse grupo estão fazendo mais de uma coisa (ou seja, dois grupos de alunos de duas faculdades fazendo dois testes). Se você tiver apenas um grupo fazendo dois testes, você usaria sem replicação.

Quais os tipos de testes ANOVA?

Existem dois tipos principais: unidirecional e bidirecional. Os testes de duas vias podem ser com ou sem replicação.

Leia Mais: