Big Data: o FBI, a Apple e os terroristas no ataque

Big Data
27 de fevereiro de 2016
Última modificação: 27 de fevereiro de 2016

Autor: Virgilio F. M. dos Santos
Categorias: Blog

Big Data na Target

Lembram-se das notícias do Guest Marketing Analytics das lojas Target nos EUA? Ele infereu corretamente, com base nos dados de compra que uma de suas clientes, adolescente de Minnesota, estava grávida, com base numa fórmula misteriosa envolvendo altos índices de compras de loção sem cheiro, suplementos minerais e algodão em flocos.  A Target começou a lhe enviar cupons de artigos de bebê, para consternação do pai da menina, que, com seu insignificante poder de inferência humano, ainda estava alheio a esta notícia. Assustador, esta notícia, ainda mais num mundo em que Google, Facebook, Apple, Amazon, Receita Federal (não poderia deixar de mencionar), seu telefone e, até a loja de departamentos, sabem mais sobre você que seus pais.

Talvez devêssemos passar menos tempo nos preocupando com estes algoritmos assustadores superpoderosos e mais nos preocupando com algoritmos que são uma porcaria, que não prestam para nada.

Pois as porcarias não podem ficar melhores. Sim, os algoritmos que dirigem os negócios no Vale do Silício ficam cada vez mais sofisticados todo ano e os dados que os alimentam, mais e mais volumosos e completos. Há uma visão apocalíptica de que o futuro, o Google conhecerá você, e juntando milhares de micro-observações, conseguira fazer predições sobre suas preferências, seus desejos, ações, e claro, em produtos ou serviços que você deseja ou poderá ser convencido a desejar.

O futuro, realmente poderá ser assim, mas também poderá não ser. Há diversos problemas matemáticos em que fornecer mais dados melhora a acurácia dos resultados de forma bastante previsível. Se você está prevendo o curso de um meteoro, para analisar o risco deste, colidir com a Terra, precisa medir sua velocidade e posição, bem como os efeitos gravitacionais dos objetivos em sua vizinhança astronômica. Quanto mais medições você fizer do asteroide e quanto mais precisas forem essas medições, melhor você se sairá na determinação da rota.

Big Data: Previsão do Tempo

Porém, alguns problemas aclamados por “especialistas” em big data parecem-se mais com a previsão do tempo. Certamente, para este tipo de problema, ter uma vasta quantidade de dados extremamente refinados e poderosos computadores para processá-los às pressas, ajuda. Em 1950, o Eniac levava 24 horas para simular 24 horas do tempo, algo espantoso para época. Em 2008, um celular fazia o mesmo cálculo em menos de um segundo, e você ainda reclama que o computador que você utiliza na empresa é lento, quer voltar no tempo? Além disto, em 2010, a previsão típica de 5 dias tinha a mesma acurácia da previsão de 3 dias de 1986.

Se as predições simplesmente ficarão cada vez melhores à medida que aumentar nossa capacidade de reunir dados aumenta, é impossível não traçar o futuro assustador que falamos no início do texto. Mas será que teremos toda a atmosfera simulada com alta precisão num servidor em nuvem, que vai prever o tempo por períodos cada vez maiores? Será que poderemos prever o clima para os próximos meses, apenas solicitando ao algoritmo que fique calculando por mais algumas horas?

Duvido que seja assim um dia. A energia da atmosfera se altera muito depressa, desde as escalas mais minúsculas até a mais global, e o efeito disso é que o “bater das asas de uma borboleta seria suficiente para mudar o clima do planeta para sempre”. Lembram-se do filme efeito borboleta? Não se provou ainda se esta teoria está correta, mas a evidências mais recentes parecem apontar nesta linha. O limite teórico que se trabalha hoje são duas semanas, como o máximo que conseguiríamos prever o clima, este sistema excessivamente complexo.

O comportamento dos seres humanos parece-se mais com o asteroide ou com o clima? Penso que somos mais complicados do que o clima ainda, pois há pessoas que eu conheço que são imprevisíveis, até para nossos mágicos algoritmos. Brincadeiras a parte, temos um modelo matemático muito bom para o tempo, que nos permite melhorar as previsões de curto prazo quando temos acesso a novos dados, mesmo que o inerente caos do sistema acabe ganhando no ao final. Para os seres humanos, não temos esse modelo, e talvez nunca consigamos tê-lo. Isso torna o problema da predição extremamente difícil.

Big Data e o Terrorismo

Portanto, coletar dados do Facebook ou do Iphone para inferir qual a probabilidade de você ser um terrorista, é algo complicado. Suponha que o FBI consiga desenvolver um método para adivinhar quais dos usuários do Facebook têm maior probabilidade de se envolverem em terrorismo contra os EUA. Matematicamente, isto não é tão diferente dos algoritmos do Netflix ou da sua loja de departamentos para calcular qual a probabilidade você tem de gostar do filme Chatô, o Rei do Brasil. O Facebook tem os nomes verdadeiros e a localização de seus usuários, e pode gerar uma lista de perfis pertencentes a pessoas que já tenham sido condenadas por crimes de terrorismo ou financiando os grupos como o Estado Islâmico. Mas daí em diante, começam surgir os problemas matemáticos…

Será que os terroristas atualizam seus perfis mais ou menos que os nãos terroristas? Ou será que são iguais? Há palavras ditas com mais frequência nas atualizações? Bandas, livros, times ou páginas que eles gostem mais ou menos? Com todo este material, é possível criar uma pontuação (regressão logística) que representa a melhor estimativa para a probabilidade de que o usuário tenha ou venha a ter conexões com os grupos terroristas. Já usei muito esta técnica para avaliar qual a probabilidade de um caminhão entregar ao cliente no prazo e de uma nota fiscal, ser paga em atraso. Para problemas menos complexos, regressão logística é uma dádiva.Big Data

Agora, será que o terrorismo pode ser calculado tão bem quanto a Target calculava a probabilidade de uma de suas clientes estar grávida? A gravidez é algo comum e o terrorismo é algo muito raro. Em quase todos os casos, a probabilidade estimada de que um usuário serja terrorista seria muito pequena. Assim, o resultado do projeto não seria o FBI Minority Report, onde você saberia que seu vizinho iria transformar-se em terrorista daqui a 3 anos. Digamos que após a análise, o FBI poderia afirmar que existem 100 mil usuários que tem o dobro de chances de serem terroristas do que um usuário típico.

O que você faria se seu cunhado estivesse nesta Estatística? Chamaria a polícia? A Dilma? Ou faria justiça com as próprias mãos? Calma, respira e faça duas perguntas.

1)      Qual a chance de uma pessoa ser colocada na lista do FBI, considerando que ela não seja terrorista?

2)      Qual a chance de uma pessoa não ser terrorista, considerando que ele esta na lista negra?

A resposta da primeira pergunta, neste exemplo, seria de uma em 2 mil e a da segunda, 99,99%. A probabilidade condicional é a grandeza contemplada nestas perguntas. Se você preferir o modelo de teste que aprende em nossos cursos de Green Belt, utilizando o p-valor, poderíamos falar:

“A chance de um resultado experimental ocorra, dado que a hipótese nula esteja correta”, seria a resposta à primeira questão, mas o que queremos saber é a outra probabilidade condicional. “A chance de que a hipótese nula esteja correta, dado que observamos determinado resultado experimental”. Confundir estas duas grandezas é um perigo e está em toda parte. Pegue uma matéria sobre o tema Big Data e aposto com você, que encontrará em algum lugar esta confusão estampada.

Cuidados

Em um de seus livros, Malcon Gladwell relata um exemplo desta confusão cometido no caso O.J. Simpson pelo júri. Jordan Ellenberg relata outro em que ele diz que um promotor chega ao júri e diz que há apenas uma chance em 5 milhões, enfatizando o número, de um homem inocente tivesse um DNA que combinasse com a amostra encontrada na cena do crime. Neste caso, o promotor responde qual seria a probabilidade de uma pessoa inocente parecer culpada, mas deveria responder qual a probabilidade de um réu que pareça culpado, ser inocente. “Essa é uma questão o promotor não pode ajudar o júri a responder e por isto, incorre na famosa ‘falácia do promotor”.

Deste modo, cuidado com os algoritmos do big data ruins. Deve ser muito complicado ter a polícia entrando na sua casa, pois o algoritmo do FBI falou que pelo seu Facebook, você é um terrorista disfarçado, sendo que não é. R.A. Fisher, um dos criadores, ouso dizer, da Estatística dizia que você precisava avaliar cada hipótese “à luz da evidência” do que você já sabe a respeito. Não dizia para você mandar ver no p-valor de 0,05, ignorando totalmente a proporção de pessoas que são terroristas.

No exemplo, utilizamos o Facebook, mas escândalos passados revelam a quantidade de dados que a NSA capta de maneira escusa de todos os seus movimentos. Por isto, cuidado com as informações e notícias que você vê na mídia não cai na falácia de acreditar no que você deseja que seja verdade e procurar provas para contestar provas para refutar as teorias sobre as quais você não acredita.

É como o paradoxo da demissão. Todo mundo que pede demissão, busca exemplos de casos em que as pessoas saíram daquela empresa e tiveram um sucesso estrondoso no mercado. “Aqui ele era gerente e nunca subia, porque seu chefe não o promovia, mas saiu e virou CFO da companhia X”. Por outro lado, o chefe, relata inúmeros exemplos de pessoas que saíram e que hoje, penam para sobreviver. “Fulano saiu da empresa, como você está fazendo, e perdeu o futuro brilhante que tínhamos para ele e hoje, vende cachorro quente no semáforo. Outro gastou toda a rescisão e teve de pedir emprego de analista em outro lugar”.

Diante do que vimos no artigo, nem o chefe tem informações suficientes do funcionário para imaginar seu futuro, nem o funcionário tem informações suficientes dos ex-funcionários para tal. É um jogo de chuta, agarrando-se nos casos mais como dogma de fé, do que como análise estatística. Portanto, clamo aqui, ao final deste pequeno resumo, para que aprendam esta Ciência, tão importante em nossa vida cada vez mais dominada por informações, de diversas qualidades. E caso seu cunhado esteja na lista, não denuncie ele não. A menos que você tenha mil cunhados na lista, as chances de ter um cunhado terrorista são muito, mas muito pequena. Abordados no White BeltGreen Belt e Black Belt, além do Lean do PMP.

Deixe seu comentário

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

três × quatro =