Como otimizar a experiência do cliente usando testes
7 de julho de 2021Qual é a diferença entre uma Imagem Docker e um Container?
21 de julho de 2021Com a popularização do acesso à internet, sobretudo na última década, a quantidade de dados disponíveis em páginas da web cresce a cada dia. E mais, a própria taxa de produção desses dados aumenta, o que confere ao crescimento da produção uma tendência exponencial. Em tempos em que muito se fala sobre Big Data, Inteligência Artificial e Ciência de Dados, essa infinidade de dados disponível abertamente (ou “semi abertamente”) pode ser de grande valia para diversos segmentos da indústria. Portanto, extrair informações de páginas da internet pode ser atividade corriqueira na vida de quem trabalha nessas áreas.
Uma das técnicas utilizadas para fazer essa extração é o web scraping (raspagem da web, em tradução livre). Esta consiste em extrair dados de páginas web observando-se a estrutura da página e é um processo que envolve muita análise e testes para se “garimpar” a informação relevante da página. Apesar disso, uma vez a estrutura da página foi entendida e a informação extraída, os dados podem ser facilmente organizados em formas mais estruturadas, como em tabelas, por exemplo.
A beautiful soup é uma das bibliotecas para web scraping mais populares da linguagem Python. Esta biblioteca é relativamente fácil de usar e com o auxílio de bibliotecas de análise de dados (como o Numpy e Pandas) é possível fazer análise de dados extraídos diretamente de páginas da internet.
A seguir temos a saída de um script exemplo que realiza web scraping em um site de Marketplace.
A partir da recuperação desses dados é possível aplicar técnicas de NLP, inferência estatística, pesquisas de mercado e etc. Além disso, uma outra aplicação possível é utilizar dados de páginas web para montar datasets para treino e testes de modelos de machine learning. As aplicações são as mais diversas possíveis!
Em conclusão, a web é uma fonte com uma quantidade quase imensurável de dados e muitos desses dados são completamente abertos. Portanto, o web scraping é uma ótima opção para se enriquecer as análises a fim de se obter insights para apoio à decisões estratégicas.