Professor Adriano Balaguer: Big Data gera erro na previsão do vencedor do Super Bowl

Muito interessante o texto da Gabriela Stripoli e publicado pela Information Week. Os velhos conceitos de certeza, incerteza e risco ficam aqui ainda mais evidentes e demonstram que os dados coletados e a análise gerada pelo Big data deve ser considerado apenas como mais uma (apesar de bastante completa) fonte de informação para a tomada de decisão, mas jamis deve ser a única e não podemos esquecer o conceito de risco e suas probabilidades.

As decisões são tomadas sob diversas condições ou aspectos: condições de certeza, condições de incerteza e condições de risco. As decisões programadas normalmente oferecem um grau de risco menor do que as decisões não-programadas.

Em se tratando das decisões tomadas sob certeza, o decisor tem conhecimento das conseqüências ou resultados de todas as alternativas, sendo assim, pode escolher a melhor dentre as alternativas propostas. A situação ideal para a tomada de decisões é a de certeza, ou seja, o administrador pode tomar decisões precisas, pois o resultado de cada alternativa é conhecido.

Com relação às decisões tomadas sob condições de incerteza, os resultados são desconhecidos e gerados sob probabilidades, onde o decisor tem pouco ou nenhum conhecimento das informações que formam as alternativas.

Na tomada de decisão com risco, todas a alternativas têm um resultado específico e são projetadas sob probabilidades conhecidas. O tomador de decisão conhece todas as alternativas e sabe que o risco é inevitável.

A tomada de decisão está diretamente relacionada ao potencial informativo do Sistema de Informação da empresa, e este dever ser o mais útil possível na geração da melhor informação no auxilio ao gestor.

Big Data gera erro na previsão do vencedor do Super Bowl - Information Week

Quem acompanha o futebol americano da NFL e a área de tecnologia pode ter visto, na semana passada, uma empresa especializada em tecnologia de compra de publicidade online em tempo real anunciar que havia previsto o vencedor do Super Bowl por meio de sua ferramenta de Big Data. Seriam os Denver Broncos, para a Varick Media Management (VMM).

Eles erraram feio. Os Broncos não só saíram derrotados pelo Seattle Seahawks, como foi uma vitória de lavada do time da costa oeste. Seria então o Big Data, tido como imenso recurso de TI para tomada de decisões, uma armadilha?

Claro que não. O gerente de produtos de high-performance analytics do SAS, Marcos Pichatelli, explica que o erro básico da VMM foi de metodologia. Quando a companhia usou as estatísticas anteriores dos jogos da NFL para abastecer sua solução, ela conseguiu um resultado estatístico de chance de vitória de cada um dos times. Ainda assim, não conseguiu contemplar variáveis não mensuráveis – como outros jogadores em campo, influência da temperatura, e até mesmo nervosismo dos atletas. “É muito espaço pra erro. Vamos pensar nos últimos cem jogos. Durante essas partidas, foram, jogadores diferentes, estádios diferentes, condições atmosféricas diferentes, muita coisa imponderável”, exemplifica.

A SAP, em nota, também comentou o caso à reportagem da InformationWeek Brasil. “Estamos prevendo um evento isolado com muito pouco dado sobre partidas entre os dois times – apenas dois encontros anteriores com escalação similar – para um grande evento em um dia”, ressalta a companhia. “A margem para erro era muito ampla, e por isso é muito difícil prever com 100% de certeza”, complementa.

Com isso, podemos tirar algumas elucidações para o mercado corporativo. Entre os cuidados que podemos tomar com dados estatísticos e análises preditivas em cima de Big Data, em primeiro lugar, é importante pensar que o resultado de uma análise é baseado em um grupo de indivíduos e um grupo de ações. “Quando algum cliente, uma empresa de telecomunicações que quer saber os clientes com maior probabilidade de abandonar e passar para um concorrente, por exemplo, fornecemos para o cliente um ranking com as maiores probabilidades”, esclarece Pichatelli. “Ou seja, se você fizer uma ação de retenção naquele grupo, você terá um investimento menor e um retorno maior”, complementa.

Além da metodologia, outra lição se dá pela qualidade da amostra. “O que essa empresa fez eu chamo de ‘barbeiragem técnica’. Não conheço nenhum estatístico que daria uma resposta certeira de sim ou não, fora de uma probabilidade”, brinca o especialista. Isso fica claro quando traçamos um paralelo – como calcular o risco de algo que não aconteceu, ou aconteceu muito pouco? Em exemplo prático, é impossível calcular as futuras perdas de uma agência bancária em São Paulo em um dia de protestos. “Os dados disponíveis são poucos, não foram tantos protestos assim. Não houve recorrência. É um grande perigo fazer estatística com dados históricos fracos”, elucida.

Assim, no mundo empresarial, o diferencial do Big Data é aumentar os dados a serem concluídos e analisar grandes volumes de informação para chegar a um resultado mais aproximado da realidade. A tecnologia permite usar recursos brutalmente mais potentes para aumentar a base de dados disponíveis, não para melhorar a amostra.

E quando um executivo toma uma decisão errada em cima dos dados? Pichatelli recomenda dois caminhos – reavaliar a qualidade da amostra e a metodologia utilizada. E dificilmente um erro dramático de análise preditiva aconteceria em um resultado dado por uma ferramenta de Big Data. “A boa técnica em um modelo preditivo já prevê isso dentro do processo de modelagem. A gente separa dados para usar nas massas de dados e testar esse modelo, pois ela simula os resultados em cima dos dados”, conta o executivo do SAS.

E, convenhamos… Se o Big Data fosse capaz de gerar análises preditivas sobre tudo, seria o fim do esporte. “Como vimos na noite passada, pode ser muito difícil prever o elemento humano do jogo, e é isso que torna o jogo empolgante”, pontua a SAP.

Professor Adriano Balaguer

Páginas

4 de fev. de 2014

Big Data gera erro na previsão do vencedor do Super Bowl - Information Week

Nenhum comentário:

Postar um comentário