domingo, 19 de julho de 2020

Introdução ao Pandas

Nesse primeiro post vamos aprender alguns conceitos importantes quando trabalhamos com pandas: estruturas de dados, séries e dataframe. Uma coisa que deve ficar bem clara é a diferença entre uma serie e um dataframe.
A biblioteca pandas é utilizada para trabalhar com dados estruturados. Arquivos CSV, planilhas do Excel e bancos de dados são alguns exemplos de dados estruturados. Dados não estruturados é todo tipo de dado que não tem uma estrutura lógica. Se estiver trabalhando com dados estruturados a biblioteca pandas será útil em algum momento e, às vezes, necessária.
Em primeiro lugar você precisa saber que um dataframa é um conjunto de dados com duas dimensões (bidimensional) e uma serie é um conjunto de dados unidimensional. Nos próximos posts vamos aprender como ler os dados de apenas uma coluna de um dataframe e retornar uma serie.
O que torna a biblioteca Pandas diferente das outras é o index. O index é apenas um número que funciona como rótulo de um dado. Nos próximos posts ficará claro como utilizar o index torna a biblioteca pandas única. Isso será quando utilizamos índices como rótulos dos elementos de uma série.

Dataframe Pandas

Dataframe pode ser encarado como uma matriz bidimensional. Essa matriz é dividida em linhas e colunas. Um dataframe tem três componentes importantes: o index, as colunas e os dados. Você deve aprender a utilizar cada um desses elementos para dominar a biblioteca Pandas.
No exemplo abaixo vamos ler os dados do dataset filmes.csv (você pode baixa o arquivo aqui) e guardar esses dados num dataframe da biblioteca Pandas. Com isso conseguimos um diagrama rotulado dos principais componentes do dataset.

>>> import pandas as pd
>>> filmes = pd.read_csv('filmes.csv', encoding='latin-1')
>>> filmes
      Codigo da obra  ... Data de exibicão
0              15639  ...        06/jul/12
1               7603  ...        13/jul/04
2              26453  ...       26/09/2007
3              17284  ...       16/12/2002
4               4806  ...        15/jan/03
...              ...  ...              ...
9257        16001794  ...        09/jul/20
9258        15000966  ...        25/nov/19
9259        19002684  ...       14/02/2020
9260          609762  ...       20/12/2019
9261        19005137  ...       18/10/2019
    
[9262 rows x 8 columns]

Como funciona...

Primeiro a biblioteca Pandas ler os dados do disco e aloca esses dados na memoria como um dataframe, utilizando o método read_csv(). Utilizamos o index para fazer referencia a uma linha e coluna para fazer referencia a uma coluna.
Com o index e a coluna podemos ler o valor de um elemento isolado. Nos próximos post veremos mais como fazer isso. Ao combinar várias séries, os indexes são alinhados antes que qualquer coisa aconteça.
É comum, nas documentações sobre dataframe, se referir ao índice como eixo 0 e as colunas como eixo 1. No exemplo acima é possível notar linhas e colunas com sequências de três pontos. Isso indica que, pelo menos, uma linha ou coluna não foram mostradas. Outro acontecimento comum é o NaN. Isso indica que o elemento está vazio.

0 comentários:

Postar um comentário