Nesse primeiro post vamos aprender alguns conceitos importantes quando trabalhamos com pandas: estruturas de dados, séries e dataframe. Uma coisa que deve ficar bem clara é a diferença entre uma serie e um dataframe.
A biblioteca pandas é utilizada para trabalhar com dados estruturados. Arquivos CSV, planilhas do Excel e bancos de dados são alguns exemplos de dados estruturados. Dados não estruturados é todo tipo de dado que não tem uma estrutura lógica. Se estiver trabalhando com dados estruturados a biblioteca pandas será útil em algum momento e, às vezes, necessária.
Em primeiro lugar você precisa saber que um dataframa é um conjunto de dados com duas dimensões (bidimensional) e uma serie é um conjunto de dados unidimensional. Nos próximos posts vamos aprender como ler os dados de apenas uma coluna de um dataframe e retornar uma serie.
O que torna a biblioteca Pandas diferente das outras é o index. O index é apenas um número que funciona como rótulo de um dado. Nos próximos posts ficará claro como utilizar o index torna a biblioteca pandas única. Isso será quando utilizamos índices como rótulos dos elementos de uma série.
Dataframe Pandas
Dataframe pode ser encarado como uma matriz bidimensional. Essa matriz é dividida em linhas e colunas. Um dataframe tem três componentes importantes: o index, as colunas e os dados. Você deve aprender a utilizar cada um desses elementos para dominar a biblioteca Pandas.
No exemplo abaixo vamos ler os dados do dataset filmes.csv (você pode baixa o arquivo aqui) e guardar esses dados num dataframe da biblioteca Pandas. Com isso conseguimos um diagrama rotulado dos principais componentes do dataset.
>>> import pandas as pd >>> filmes = pd.read_csv('filmes.csv', encoding='latin-1') >>> filmes Codigo da obra ... Data de exibicão 0 15639 ... 06/jul/12 1 7603 ... 13/jul/04 2 26453 ... 26/09/2007 3 17284 ... 16/12/2002 4 4806 ... 15/jan/03 ... ... ... ... 9257 16001794 ... 09/jul/20 9258 15000966 ... 25/nov/19 9259 19002684 ... 14/02/2020 9260 609762 ... 20/12/2019 9261 19005137 ... 18/10/2019 [9262 rows x 8 columns]
Como funciona...
Primeiro a biblioteca Pandas ler os dados do disco e aloca esses dados na memoria como um dataframe, utilizando o método read_csv()
. Utilizamos o index para fazer referencia a uma linha e coluna para fazer referencia a uma coluna.
Com o index e a coluna podemos ler o valor de um elemento isolado. Nos próximos post veremos mais como fazer isso. Ao combinar várias séries, os indexes são alinhados antes que qualquer coisa aconteça.
É comum, nas documentações sobre dataframe, se referir ao índice como eixo 0 e as colunas como eixo 1. No exemplo acima é possível notar linhas e colunas com sequências de três pontos. Isso indica que, pelo menos, uma linha ou coluna não foram mostradas. Outro acontecimento comum é o NaN. Isso indica que o elemento está vazio.
0 comentários:
Postar um comentário