Nos tutoriais anteriores aprendemos como chamar alguns dos métodos mais utilizados quando trabalhamos com séries da biblioteca Pandas. Os exemplos que usamos foram com apenas uma coluna ou série. Uma parte desses métodos eram de redução ou agregação que retornavam outras séries. Esses mesmo métodos podem ser chamados a partir de um dataframe assim como são chamados a partir de uma série. A diferença é que quando chamamos esses método e atributos a partir de uma série a operação é aplicada a uma coluna apenas. Quando chamamos os métodos e atributos a partir de um dataframe a operação é aplicada para cada coluna do dataframe.
Nesse tutorial vamos aprender a utilizar alguns dos métodos e atributos mais utilizados com dataframes.
Como obter informações básicas de um dataset
Primeiro vamos ler os dados de uma dataset, depois vamos ver algumas informações básicas desse dataset. As informações que estamos procurando são a forma do dataset, o tamanho, o número de dimensões e o seu tamanho. Essas informações podem ser obtidas com os atributos: shape
, size
, ndim
e com a função len()
.
>>> import pandas as pd >>> filmes = pd.read_csv('filmes.csv') >>> filmes.shape (9262, 9) # 9262 linhas e 9 colunas >>> filmes.size 83358 # número de elementos do dataframe >>> filmes.ndim 2 # número de dimensões, duas: colunas e linhas >>> len(filmes) 9262 # número de linhas
Em um dataframe é possível, e até comum, que estejam faltando valores em alguns elementos do dataframe. E se você precisar saber quantos elementos tem valores guardados? A resposta é simples: o método count()
. Esse método retorna uma série com os nomes das colunas e a quantidade de cada elemento dessa coluna que possuí um valor. O método count()
é um exemplo de um método de agregação já que ele resumi os valores em um só.
>>> filmes.count() indice 9262 codigo_obra 9262 titulo_original 9262 titulo_brasil 9262 ano_producao 9259 diretor 9262 razao_social_requerente 9262 cnpj_requerente 9262 data_exibicao 9262 dtype: int64
Uma coisa comum ao trabalhar com a biblioteca Pandas é saber o valor mínimo, máximo, média e mediana de um dataframe. Para obter essas informações podemos usar os métodos min()
, max()
, mean()
e median()
. Esses métodos retornam uma séries os com valores correspondentes.
>>> filmes.min() indice 0 codigo_obra 1 titulo_original A PRIMEIRA MISSA"" titulo_brasil A PRIMEIRA MISSA"" ano_producao 200 diretor \t PABLO TRAPERO razao_social_requerente 13 PRODUÇÕES E LOCAÇÕES LTDA-ME cnpj_requerente 00.020.648/0001-20 data_exibicao 01/02/2005 dtype: object >>> filmes.max() indice 9261 codigo_obra 20002501 titulo_original ÚLTIMO TANGO EM BUENOS AIRES titulo_brasil ÚLTIMOS DIAS NO DESERTO ano_producao 2020 diretor ÉRIC WARIN razao_social_requerente ÍRIS CINEMATOGRÁFICA LTDA cnpj_requerente 97.533.170/0001-73 data_exibicao 31/mar/17 dtype: object >>> filmes.mean() indice 4.630500e+03 codigo_obra 1.053494e+07 ano_producao 2.009945e+03 dtype: float64 >>> filmes.median() indice 4630.5 codigo_obra 15004498.0 ano_producao 2011.0 dtype: float64
Se você quiser as informações do exemplo acima com um único método, podemos chamar o método describe()
. Esse método vai te fornecer todas as informações do exemplo acima utilizando um único método.
>>> filmes.describe() indice codigo_obra ano_producao count 9262.00000 9.262000e+03 9259.000000 mean 4630.50000 1.053494e+07 2009.944918 std 2673.85343 7.714715e+06 20.439854 min 0.00000 1.000000e+00 200.000000 25% 2315.25000 4.165462e+05 2006.000000 50% 4630.50000 1.500450e+07 2011.000000 75% 6945.75000 1.600608e+07 2015.000000 max 9261.00000 2.000250e+07 2020.000000
Nos métodos acima, podemos usar o parâmetro skipna
. Com esse parâmetro definimos se os elementos sem valor devem se incluídos nas estatísticas básicas.
>>> filmes.max(skipna=False) indice 9261 codigo_obra 20002501 titulo_original ÚLTIMO TANGO EM BUENOS AIRES titulo_brasil ÚLTIMOS DIAS NO DESERTO ano_producao 2020 diretor ÉRIC WARIN razao_social_requerente ÍRIS CINEMATOGRÁFICA LTDA cnpj_requerente 97.533.170/0001-73 data_exibicao 31/mar/17 dtype: object
Se passamos o valor False
para o parâmetro skipna
os elementos sem valor serão adicionados na estatística. O valor padrão desse parâmetro é True
.
0 comentários:
Postar um comentário