Quais são os usos para um scanner de vulnerabilidade?
19 de maio de 2021Vamos falar sobre observabilidade?
2 de junho de 2021Com o enorme crescimento de dados na atualidade, a chamada área de Ciência de Dados também cresceu muito nos últimos anos. A estatística, que é uma das ciências mais antigas da humanidade, também obteve grande crescimento e até reconhecimento no mundo. A estatística é o uso da matemática para analisar dados, indo desde o planejamento da pesquisa até a interpretação dos resultados.
Hoje em dia, os negócios devem ser mais lucrativos, reagir ao mercado mais rapidamente e ter maior qualidade nos serviços e produtos oferecidos, tudo isso com o mínimo de pessoas e custo. Uma exigência essencial nesse processo é a máxima eficácia na criação e no gerenciamento do conhecimento.
A explosão da informação disponível na tomada de decisões ocorreu nos últimos anos e irá continuar assim no futuro, muito provavelmente até mais rapidamente. Tempos atrás, muita informação simplesmente desaparecia, ou não era coletada, ou era descartada. Mas atualmente, essa informação é coletada e armazenada em bancos de dados e está disponível para ser feita a manipulação para melhorar a tomada de decisão. Esse impacto pode ser visualizado na facilidade de computadores em analisar enormes quantidades de dados complexos. O progresso tecnológico se mostra além da habilidade de manipular dados, conferindo aos pesquisadores condições de investirem em um desenvolvimento e uma avaliação mais aprofundada de seus modelos teóricos. Esta compreensão e domínio da análise de dados são frutos do estudo de estatística e inferência estatística, devido ao entendimento e aplicações cada vez maiores das técnicas estatísticas, tais como a análise multivariada.
Parte dessa informação armazenada pode ser analisada e interpretada com estatística simples, mas a maioria demanda técnicas estatísticas multivariadas mais complexas para converter tais dados em conhecimento. Entre os diversos avanços que nos permitem aplicar as técnicas multivariadas, estão os avanços tecnológicos de hardware e software. Diversos pacotes computacionais amigáveis trouxeram a análise de dados para a era do point-and-click, nos possibilitando a análise de grandes quantidades de dados complexos com relativa facilidade e velocidade.
A análise multivariada é a análise de múltiplas variáveis de um único conjunto de informações. Com o advento do Big Data, essa técnica surge como possibilidade de análise devido a enorme quantidade de informação que as bases de dados da atualidade carregam. Técnicas multivariadas são amplamente aplicadas na indústria e no governo. De fato, a indústria, governos e centros de pesquisa em diversas áreas, como sociologia e medicina, por todo o mundo estão fazendo amplo uso dessas técnicas.
Fonte: https://predictivehacks.com/how-to-visualize-multivariate-data-analysis/
A figura acima ilustra alguns dos tipos de técnicas multivariadas e onde devem ser utilizadas. A Análise de Componentes Principais (ACP), por exemplo, geralmente é utilizada em bancos com muitas variáveis quantitativas, sendo ela altamente correlacionadas. ACP pode ser aplicada em dados sobre países com variáveis que contém índices de mortalidade e natalidade, PIB, renda per capta e expectativa de vida, revelando relações entre as variáveis que não foram previamente identificadas e, com isso, permitindo interpretações que normalmente não são possíveis.
Outro exemplo, seria a utilização da Análise de Correspondência (AC), que é aplicada em variáveis qualitativas (categóricas) e é definida como um procedimento gráfico para representar associações em uma tabela de frequências. A figura abaixo representa um gráfico de correspondência para as variáveis de status de saúde mental e status socioeconômico dos pais dos entrevistados. É possível visualizar algumas associações pelo gráfico, observa-se que pessoas com status de saúde mais baixos (enfraquecido e com sintomas moderados) tenham pais com um status socioeconômico menor, e indivíduos com status de saúde mental mais altos (bem e médio) possuem status socioeconômico maiores.
Com a informação tendo uma grande influência, não só na parte de operações de organizações, mas também na análise de negócios, os pesquisadores enfrentaram novos desafios, que acabaram por utilizar as técnicas multivariadas tradicionais de diferentes maneiras e em novos métodos analíticos com a combinação delas. As técnicas multivariadas foram muito importantes para o desenvolvimento da inteligência artificial. Já as técnicas de agrupamento de observações foram aprimoradas com as redes neurais. Métodos de discriminação e classificação foram adaptados para algoritmos de análise de imagens e vídeos como, por exemplo, reconhecimento (e detecção) facial e de objetos e também para algoritmos de decisão como random forests.
Abaixo temos um exemplo de detecção de objetos em uma imagem. A quantidade de variáveis nesse tipo de análise pode chegar a milhões, pois trata-se de problemas de alta complexidade e com altos níveis de abstração. Muitas vezes não é possível nem se ter uma representação gráfica dessas variáveis, por se tratar de problemas com dimensionalidade bem superiores ao que os seres humanos conseguem imaginar. Deste modo, é fundamental que o Cientista de Dados tenha um elevado conhecimento matemático/estatístico, bem como facilidade com pensamentos abstratos.
Em conclusão, métodos de análise multivariada são métodos estatístico-matemáticos muito utilizados nas mais diversas aplicações, variando desde regressões para estimativas a deep learning para análise de imagens. Portanto, esses métodos são indispensáveis no ferramental de qualquer Cientista de Dados.
Autores:
Cassio Rocha – Cientista de Dados
Mateus Araújo – Cientista de Dados