Ligue agora mesmo:

+55 11 3255-0555

RAMAL 3400

Análise Teórica de Dados: amostral e [i]big data[/i]

“In God we trust, all others bring data” (Hastie, Tibshirani e Friedman)

Analisar dados é uma arte. Desde o século passado, em relação aos estudos epidemiológicos (estudos de coorte, caso-controle, transversais e ensaios clínicos), a pergunta central do delineamento é: qual o tamanho da amostra para observar efeito X na população Y? É razoável supor que, embora exista uma tabela de referência e muitas fórmulas para a determinação do tamanho amostral, a verdadeira resposta está no âmago do conhecimento teórico de quem faz a pergunta. Da mesma forma, para analisar tais dados, faz-se necessário utilizar uma série de testes de hipóteses, modelos de regressão e outras análises estatísticas mais complexas (multivariada, espacial, bayesiana, entre outras). É importante salientar que nenhum desses métodos estatísticos confere vida e alma ao objeto de estudo (conjunto de dados) se não houver uma forte interface com a teoria. Por exemplo, em um ensaio clínico quer-se observar o efeito da vacina na prevenção da dengue em um determinado grupo de pessoas em relação a um outro grupo que tomou placebo (sem a vacina). Para analisar os dados gerados por esse estudo, necessita-se saber em qual município brasileiro o mesmo foi aplicado, porque a transmissão do vírus da dengue depende da densidade de mosquitos e de hospedeiros. Também, necessita-se saber em que período do ano foi aplicado o estudo, porque a dengue é uma doença sazonal, podendo ocorrer frequentemente de dezembro a abril, desaparecendo nos meses frios de junho e julho. Assim, para um volume pequeno de dados (amostral), o conhecimento teórico sobre o sistema de estudo é essencial para extrair informações acuradas e válidas. Aqui, na Scientific Solutions, nós oferecemos soluções para análises de dados com ênfase no conhecimento teórico, a saber:

1) Medidas de ocorrência e de efeito;
2) Delineamento de estudos;
3) Amostragem e planejamento de experimentos;
4) Estatística descritiva;
5) Modelos lineares generalizados;
6) Análise de sobrevida.

O início do século XXI é marcado como o ápice da valoração dos sistemas de dados gerados em tempo real sobre múltiplos setores da sociedade, abrangendo economia, trânsito, conservação florestal, saúde pública, entre outros. Devido ao volume de dados gerados em algum desses sistemas ter proporção aproximadamente 1:1 com o universo de estudo, cunhou-se o termo Big Data, aqui definido como volume de dados próximo ao universo. Quando se possui Big Data, nenhuma das técnicas estatísticas supramencionadas, as quais são aplicáveis para as amostras, podem ser utilizadas. Por exemplo, analisando-se o universo cadastral do programa Bolsa Família no Brasil, pode-se constatar diminuição da frequência de doenças infecto-parasitárias das populações beneficiadas pelo programa, na última década. Não é possível dizer que tal diminuição é estatisticamente significante ou não, utilizando teste de hipóteses ao nível de confiança de 5%. Isso porque, quando há volume tão grande de dados, qualquer diferença, por exemplo, 1 caso a menos de malária, pode fazer o teste acusar uma diferença estatisticamente significante, o que não é relevante em teoria/prática. O funil para abordagens como o de Big Data não é a geração de dados, que são facilmente gerados por meio de redes sociais, Google™, sistemas de saúde, entre outros. A fronteira de conhecimento desse campo é a construção de novos métodos para a análise de dados. Nós, da Scientific Solutions, oferecemos soluções com algoritmos e métodos desenvolvidos por nós, a saber:

1) Construção do banco de dados proveniente de fonte geradora de Big Data e análise descritiva (solução básica);
2) Análises complexas de dados em séries temporais, espacialmente explícitos ou mistos (temporal e espacial) e predição de cenários futuros (solução avançada);
3) Análises tornam-se parte de processo do modelo de negócio da empresa parceira ou de órgão do governo (solução operacional);
4) Análises são direcionadas para o aumento de receita (solução monetizada).