Nos tutoriais anteriores aprendemos como chamar alguns dos métodos mais utilizados quando trabalhamos com séries da biblioteca Pandas. Os exemplos que usamos foram com apenas uma coluna ou série. Uma parte desses métodos eram de redução ou agregação que retornavam outras séries. Esses mesmo métodos podem ser chamados a partir de um dataframe assim como são chamados a partir de uma série. A diferença é que quando chamamos esses método e atributos a partir de uma série a operação é aplicada a uma coluna apenas. Quando chamamos os métodos e atributos a partir de um dataframe a operação é aplicada para cada coluna do dataframe.
Nesse tutorial vamos aprender a utilizar alguns dos métodos e atributos mais utilizados com dataframes.
Como obter informações básicas de um dataset
Primeiro vamos ler os dados de uma dataset, depois vamos ver algumas informações básicas desse dataset. As informações que estamos procurando são a forma do dataset, o tamanho, o número de dimensões e o seu tamanho. Essas informações podem ser obtidas com os atributos: shape
, size
, ndim
e com a função len()
.
>>> import pandas as pd
>>> filmes = pd.read_csv('filmes.csv')
>>> filmes.shape
(9262, 9) # 9262 linhas e 9 colunas
>>> filmes.size
83358 # número de elementos do dataframe
>>> filmes.ndim
2 # número de dimensões, duas: colunas e linhas
>>> len(filmes)
9262 # número de linhas
Em um dataframe é possível, e até comum, que estejam faltando valores em alguns elementos do dataframe. E se você precisar saber quantos elementos tem valores guardados? A resposta é simples: o método count()
. Esse método retorna uma série com os nomes das colunas e a quantidade de cada elemento dessa coluna que possuí um valor. O método count()
é um exemplo de um método de agregação já que ele resumi os valores em um só.
>>> filmes.count()
indice 9262
codigo_obra 9262
titulo_original 9262
titulo_brasil 9262
ano_producao 9259
diretor 9262
razao_social_requerente 9262
cnpj_requerente 9262
data_exibicao 9262
dtype: int64
Uma coisa comum ao trabalhar com a biblioteca Pandas é saber o valor mínimo, máximo, média e mediana de um dataframe. Para obter essas informações podemos usar os métodos min()
, max()
, mean()
e median()
. Esses métodos retornam uma séries os com valores correspondentes.
>>> filmes.min()
indice 0
codigo_obra 1
titulo_original A PRIMEIRA MISSA""
titulo_brasil A PRIMEIRA MISSA""
ano_producao 200
diretor \t PABLO TRAPERO
razao_social_requerente 13 PRODUÇÕES E LOCAÇÕES LTDA-ME
cnpj_requerente 00.020.648/0001-20
data_exibicao 01/02/2005
dtype: object
>>> filmes.max()
indice 9261
codigo_obra 20002501
titulo_original ÚLTIMO TANGO EM BUENOS AIRES
titulo_brasil ÚLTIMOS DIAS NO DESERTO
ano_producao 2020
diretor ÉRIC WARIN
razao_social_requerente ÍRIS CINEMATOGRÁFICA LTDA
cnpj_requerente 97.533.170/0001-73
data_exibicao 31/mar/17
dtype: object
>>> filmes.mean()
indice 4.630500e+03
codigo_obra 1.053494e+07
ano_producao 2.009945e+03
dtype: float64
>>> filmes.median()
indice 4630.5
codigo_obra 15004498.0
ano_producao 2011.0
dtype: float64
Se você quiser as informações do exemplo acima com um único método, podemos chamar o método describe()
. Esse método vai te fornecer todas as informações do exemplo acima utilizando um único método.
>>> filmes.describe()
indice codigo_obra ano_producao
count 9262.00000 9.262000e+03 9259.000000
mean 4630.50000 1.053494e+07 2009.944918
std 2673.85343 7.714715e+06 20.439854
min 0.00000 1.000000e+00 200.000000
25% 2315.25000 4.165462e+05 2006.000000
50% 4630.50000 1.500450e+07 2011.000000
75% 6945.75000 1.600608e+07 2015.000000
max 9261.00000 2.000250e+07 2020.000000
Nos métodos acima, podemos usar o parâmetro skipna
. Com esse parâmetro definimos se os elementos sem valor devem se incluídos nas estatísticas básicas.
>>> filmes.max(skipna=False)
indice 9261
codigo_obra 20002501
titulo_original ÚLTIMO TANGO EM BUENOS AIRES
titulo_brasil ÚLTIMOS DIAS NO DESERTO
ano_producao 2020
diretor ÉRIC WARIN
razao_social_requerente ÍRIS CINEMATOGRÁFICA LTDA
cnpj_requerente 97.533.170/0001-73
data_exibicao 31/mar/17
dtype: object
Se passamos o valor False
para o parâmetro skipna
os elementos sem valor serão adicionados na estatística. O valor padrão desse parâmetro é True
.