Tecnologia

Python e Pandas: programador Bendev Junior explica mecanismos de linguagens mais usadas na área de análise de dados e inteligência artificial

Uma das linguagens de programação mais usadas no mundo é o Python. Além de famosa, ela é muito poderosa e isso tem seu porquê.

O Python contém bibliotecas com muitos poderes e, além da sua fácil aprendizagem, ela se mostra como um kit perfeito para quem não vem da área de tecnologia e deseja se aperfeiçoar.

Uma análise de dados ou um analista de dados se baseiam em informações que recebem, seja em excel ou qualquer tipo de banco, para que de uma forma clara eles possam analisar e trazer os resultados. Atualmente muitas empresas adotam esses profissionais, seja em bancos ou outros projetos, como por exemplo a Netflix. O programador Bendev Junior usa a plataforma como exemplo para explicar o porque a análise através da Python é tão usada.

“Imagina que você queira fazer uma análise dos filmes mais assistidos ou algo do tipo. Um analista de dados pegaria essas informações e conseguiria trazer os melhores resultados sejam eles por frequência, por quantidade de visualizações, gostei e estrelas. Mas podem me perguntar: por que Python? Porque além de ser simples de ser interpretada, a gama de bibliotecas que tem no seu ecossistema é muito grande”, respondeu.

Segundo Bendev, a linguagem se assemelha ao Pandas, que é uma biblioteca usada para manipular dados, sejam numéricos ou não, ou para criar um DataFrame com resumos de algo.

“Vamos imaginar uma situação: você tem uma lista de filmes e deseja saber quais idiomas tem mais filmes. Agora imagine que nessa mesma base você tenha mais de 500 mil dados. Como você faria isso? Vamos dificultar um pouco e imaginar que você tenha que apresentar essas informações em gráficos para clientes ou investidores. Seria mais complicado. E qual seria a solução? Usar o Pandas. Nele podemos fazer toda a análise e usando uma outra lib chamada Seaborn e Matolotlib facilmente deixaríamos um gráfico e um resultado satisfatório para o cliente”, explicou.

Ainda falando de Pandas, Junior explicou que nele podemos ler arquivos excel (csv) ou até mesmo json para analisar os dados.

Ele descreveu também como usando uma máquina júpiter com Python facilmente isso seria feito.

“Nós usaríamos o dataset do TMDB disponível na kaggle para essa simples análise. Você pode usar o próprio kaggle para criar seu notebook e fazer seus estudos lá. Mas ele também contém vários desafios. Em resumo, no Dataset você poder testar sua análise.

O passo a passo, segundo o programador, seria: “importar as bibliotecas que iremos usar para, com o import semelhante a imagem; Após essa importação definimos nomenclaturas para elas, como por exemplo para o Python (na importação ele iria se chamar “pd”, porque fica mais simples para uso e essa abreviação de dados é muito vista em análise”.

Após isso, conforme Bendev, o próximo passo é ler o arquivo csv que baixamos na kaggle.

“Pegamos o pd, que foi a abreviação usada no importe para o Pandas e outra função dele chamada read_csv, que é usada para leitura de arquivos compatíveis. Após isso imprimimos os 5 primeiros com o head(), que o variável tmdb recebeu. Feito isso, tudo já se tornaria fácil após a criação em poucas linhas de um dataset de informações”, comentou Bendev.

Mas, ainda assim, também segundo ele, não se chegaria no objetivo.

“Para refinar ainda mais essas informações, podemos selecionar apenas a coluna “original_language” para pegar exatamente as línguas e poder fazer o cálculo. Após isso, iremos usar a função sum() do próprio Pandas para poder calcular todas as línguas. Também usaremos mais uma função chamada loc(), que recebe por parâmetro qual item queremos selecionar. Nesse caso iremos selecionar a língua inglesa que tem a sigla “en”, e por fim pegamos o total de todas, exceto da língua inglesa, subtraindo-a, chegando ao total.

O programador explicou ainda que por fim é criado um objeto simples para jogarmos em um barplot, exibindo um gráfico simples com as informações que queremos.

“Já sabia que nessa base a língua com maior frequência seria o inglês. Mas queria apenas mostrar a diferença dela para outras. Nesse caso, o gráfico obtido foi referente a frequência em que cada uma apareceu”, explicou.

Sobre Bendev Junior

Benedito Manoel da Silva Júnior, ou Bendev Junior, é programador, Tech influencer, especialista em Python pela Universidade de Michigan e em Pandas com certificado na W3Schools. 

Escritor do e-book ‘Transformando códigos em Sonhos’, onde enfatiza dicas para iniciantes na área da programação, disponível de forma gratuita na plataforma Amazon, Google Books e no site do próprio escritor.

Entre suas especializações, Bendev acumula também uma na área feita pela USP.

Artigos relacionados

Botão Voltar ao topo