domingo, 19 de julho de 2020

Atributos do dataframe com Pandas

O index, colunas e dados podem ser acessados a partir de um dataframe. Isso é útil quando você precisar acessar um valor especifica e não o dataframe inteiro. Se estamos trabalhando com uma matriz numérica deixamos esses dados numa matriz NumPy, mas se apenas algumas linhas ou colunas são numéricas guardamos esses dados num dataframe Pandas. Com dataframes podemos trabalhar com matrizes que não são numéricas mais possuem linhas ou colunas heterogêneas de dados numéricos.
No exemplo abaixo vamos criar variáveis para visualizar os dados do dataframe individualmente, como o index, as colunas e os dados.

Como fazer isso...

Nesse exemplo vamos usar os atributos do dataframe para colocar cada dado na sua própria variável e depois mostrar o conteúdo de cada uma delas.

>>> import pandas as pd
>>> filmes = pd.read_csv('filmes.csv', encoding='latin-1')
>>> index = filmes.index
>>> colunas = filmes.columns
>>> dados = filmes.to_numpy()
>>> index
RangeIndex(start=0, stop=9262, step=1)
>>> colunas
Index(['Codigo da obra', 'Titulo Original', 'Titulo no Brasil',
       'Ano de producão', 'Diretor', 'Razão Social do Requerente',
       'CNPJ Requerente', 'Data de exibicão'],
      dtype='object')
>>> dados
array([[15639, 'PREÇO DA PAZ O', 'PREÇO DA PAZ O', ...,
        'M A PRODUÇÕES ARTISTICAS E CULTURAIS LTDA ME',
        '00.568.159/0001-07', '06/jul/12'],
       [7603, 'CARTOMANTEA', 'CARTOMANTEA', ...,
        'TAG CULTURAL DISTRIBUIDORA DE FILMES LTDA',
        '03.599.148/0001-82', '13/jul/04'],
       [26453, 'BLACK & WHITE VOL. 9', 'BLACK & WHITE VOL. 9', ...,
        'FALLMS DISTRIBUIÇÃO DE FITAS LTDA', '02.341.697/0001-90',
        '26/09/2007'],
       ...,
       [19002684, 'MILITARY WIVES', 'MILITARY WIVES', ...,
        'ANTONIO FERNANDES FILMES LTDA', '02.668.665/0001-01',
        '14/02/2020'],
       [609762, 'ROBERTO CARLOS EM JERUSALÉM',
        'ROBERTO CARLOS EM JERUSALÉM', ...,
        'H2O DISTRIBUIDORA DE FILMES S/A', '15.372.472/0001-42',
        '20/12/2019'],
       [19005137, 'O POÇO', 'O POÇO', ..., 'ANDRE BORELLI MARTINS',
        '408.504.318-83', '18/10/2019']], dtype=object)

Como funciona…

As colunas e os índices são quase a mesma coisa, o que muda é o sentido de cada um (ou eixo). É comum que o index seja chamado de “eixo 0” e a coluna de “eixo 1”.
Por padrão a biblioteca Pandas usa o tipo de dado RangeIndex, mais existem vários tipos de dados que podem ser usados no seu lugar. Utilizar o tipo RangeIndex tem a vantagem de que apenas os valores necessários são carregados na memória, isso ajuda a economizar memória. Esse tipo de dado consiste no valor de inicio, o valor de parada e o incremento.

Tem mais...

O índices e as colunas são implementados como tabelas de hash. Com isso é possível fazer um alinhamento e uma seleção mais rápida. Os objetos index (índices e colunas) são parecidos com os conjuntos do Python, a diferença é que eles são ordenados e aceitam entradas duplicadas.

0 comentários:

Postar um comentário