Tecnisys investe na formação de líderes para cargos de gestão
23 de janeiro de 2020DICAS PARA PROTEGER SEU CONTÊINER DOCKER
7 de fevereiro de 2020Para que um cientista de dados tire insights de uma massa de dados, é recomendável que este monte visualizações gráficas dos dados, quando possível; até mesmo antes de se partir para a escrita de algoritmos para fazer os cálculos propriamente ditos. O que pode reduzir o tempo que o cientista leva para extrair as informações necessárias dos dados; tendo em vista que, por vezes, os dados podem apresentar uma tendência que já seja familiar para cientista; devido à habilidade desses profissionais em reconhecer padrões. É aí que o cientista precisa de ferramentas que lhe possibilitem gerar essas visualizações de forma rápida e fácil. Dentre muitas ferramentas/linguagens à disposição, atualmente, a linguagem R e suas bibliotecas específicas para visualização são uma boa opção.
A linguagem R foi criada para o uso acadêmico no campo da Estatística, no começo da década de 1990. Desde então, uma grande comunidade se formou para aprimorar a linguagem e atualmente ela é usada não só para o uso acadêmico, mas também em Ciência de Dados, Economia, Inteligência Artificial, dentre muitos outros campos.
Por ser uma linguagem concebida para a análise de dados, o R possui poderosas bibliotecas gráficas que permitem gerar gráficos interativos e agradáveis em até 4-D. Dentre suas bibliotecas mais populares estão o ggplot2, gg3D, rgl e plot3Drgl.
A animação abaixo foi feita utilizando a biblioteca plot3D e mostra um gráfico em 4-D (3 coordenadas espaciais e 1 em cor) de um conjunto de dados que podem aparecer em diversas situações.
O comportamento ilustrado acima é de uma classificação binária. Este tipo de situação pode descrever, por exemplo, os resultados de uma pesquisa de intenção de voto entre dois candidatos; uma pesquisa para saber se consumidores comprariam um determinado produto, levando-se em conta 3 fatores. No primeiro caso, estes fatores podem ser idade, renda familiar e escolaridade. Já no segundo caso, os fatores poderiam ser idade, tempo médio gasto na internet por dia e a quantidade de produtos semelhantes que o entrevistado comprou nos últimos meses, por exemplo. Assim, os pontos vermelhos representariam os casos positivos e os azuis os negativos, ou vice-versa. O plano branco, que se assemelha a uma grade na animação, é chamado de limite de classificação. Este limite é uma figura geométrica que separa as duas classes de evento: compraria o produto ou não; vota no candidato A ou no B.
A figura abaixo mostra o mesmo conjunto de dados, desta vez utilizando a biblioteca rgl.
As bibliotecas gráficas do R oferecem uma infinidade de possibilidades de customização dos gráficos, fazendo com que estes possam ser montados de acordo com a necessidade/vontade de quem os produz. Além disso, a linguagem possui bibliotecas de paralelização, fazendo com que o processo de análise de dados e produção de dashboards seja realizado com alta performance. Tudo isso em código aberto e livre, ou seja qualquer um pode contribuir com o desenvolvimento e até criar suas próprias bibliotecas.
Autor: Cássio Rocha – Especialista Big Data na Tecnisys