Equipe Mapfry
em
May 23, 2023
Porque o Big Data não é um Big Deal
Para todo problema complexo existe sempre uma solução simples, elegante e completamente errada.

A famosa frase de Henry Louis Mencken não deixa dúvidas, problemas difíceis não serão resolvidos em três passos.

O mundo moderno é uma sequência de complexas engrenagens invisíveis.

Você pode vender algo e cobrar um valor por isso, que pode ser pago em cartão de crédito, que por sua vez irá levar um tempo até te pagar e ainda vai ficar com uma comissão.

Você pode fazer um favor para alguém e esperar uma retribuição no futuro, uma métrica ainda mais complexa.

São dois pequenos exemplos do dia a dia e de como a rede de relações é intricada e invisível.

No entanto, não deixamos de tentar compreendê-las, de antecipar seus movimentos e tendências.

Fazemos isso ao estudar as dinâmicas das regiões e apontar os melhores lugares para isso ou aquilo.

Mas, existem abordagens diferentes para se chegar à compreensão das dinâmicas das regiões.

Para alguns, a saída está em criar um modelo do mundo que seja tão completo que tenha quase o tamanho do próprio mundo.

Esse é o caso das soluções tão ou mais complexas que os problemas que se propõe a resolver.

Essa linha tem a tendência de complicar os modelos ao infinito, sempre acrescentando informações e condições.

Soluções complexas para problemas complexos

Viemos de uma Era Industrial que produziu tantos excessos que nos assustamos com os cemitérios de carros, aviões, fábricas e até cidades-fantasma.

Hoje vivemos numa época chamada de Era da Informação, que mesmo recente, já produz seus excessos.

Tantas informações disponíveis levaram a um fenômeno cheio de expectativas, o Big Data.

Com o Big Data seria possível processar toneladas de dados e deles extrair padrões para revelar as engrenagens invisíveis da vida moderna.

Enormes bancos de dados chamados de data lakes passaram a ser vistos como a principal reserva de valor das empresas.

Data is the new oil

Dados são o novo petróleo, diziam os bacharéis.

Mas não foi bem isso o que aconteceu.

Descobrimos que os dados em si valem pouco, mas algum valor devem ter.

Acontece que a expectativa de extração de valor de grandes volumes de dados, assim como extraímos óleo de camadas geológicas ancestrais, não se concretizou.

Formaram-se os Cemitérios de Dados de dados inúteis.

O poder da informação não está ligado ao volume, mas à sua capacidade de adicionar contexto a uma análise.

Apenas as informações que ajudam a explicar um fenômeno terão o valor que a compreensão do próprio fenômeno tem.

Complicou?

Pense assim, a informação sobre comprar um copo dágua não pode custar mais do que o próprio copo dágua.

Há uma técnica estatística que busca identificar num banco de dados aquelas informações que realmente fazem a diferença, chama-se Análise de Componentes Principais.

Essa análise descarta todas as informações que não contribuem para a explicação, que não adicionam contexto.

É aí que descobrimos que o Big Data não é tão Big assim.

Um grande proporção do tal data lake é formada por espuma, dados que se repetem em significado.

A suposta solução complexa é, na verdade, uma solução simples e errada.

You shouldn't judge the power of the model just by the number of parameters it contains
Você não deve julgar o poder de um modelo apenas pelo número de parâmetros que ele possui

Andrej Karpathy ex-diretor de Inteligência Artificial na Tesla e atualmente na OpenAI do ChatGPT.

Entre mais ou menos informações, fique com quem te apresenta os conjuntos representativos da realidade e desconfie de quem afirma possuir milhões ou bilhões de pontos de informação.

Esse é um problema típico do Geomarketing que resolvemos encarar de frente, reconhecendo suas limitações, sem adicionar complexidades alegóricas.

Tendo aceitado essa realidade, pudemos partir para a dimensão de poder que efetivamente temos, a narrativa.

A informação por informação não têm valor em si, seu valor emerge enquanto representação da realidade e nós, seres humanos somos mestres em contextualizar informações por meio de histórias.

Foi assim que escolhemos os caminhos de solução que facilitam a interpretação de dados e o compartilhamento de insights.