domingo, 19 de julho de 2020

Tipos de dados com Pandas

Os tipos de dados utilizados na biblioteca pandas podem ser classificados como contínuos ou categóricos. Os dados contínuos são usados para representar dados numéricos como a distância entre dois pontos, peso ou altura. Já os dados categóricos são usados para representar um dado de uma quantidade finita. Um exemplo de objetos finitos são as cores que um monitor pode mostrar (16,7 milhões de cores). Os dados categóricos são usados para esse tipo de dado, representa um dado entre um número finito de possibilidades.
Na biblioteca Pandas existem alguns tipos de dados específicos. A seguir veja quais são esses tipos de dados:

  • int: Tipo inteiro da biblioteca NumPy. Esse tipo de dado não tem suporte a valores ausentes.
  • int64: Numero nulo inteiros do Pandas.
  • float: Numero de ponto flutuante da biblioteca NumPy. Esse tipo de dado suporta valores ausentes.
  • object: Com esse tipo de dados você trabalhar com sequencias de caracteres. Esses caracteres podem ser números ou letras.
  • category: Tipo categórico da biblioteca Pandas.
  • bool: Tipo booleano da biblioteca NumPy. Esse tipo de dado não suporta dados ausentes.
  • boolean: Tipo booleano que suporta valor nulo.
  • datetime64: Tipos data da biblioteca NumPy. Esse tipo aceita valores ausentes.

Uma coisa muito importante de saber é o tipo de dados usados num dataframe. Esse conhecimento é importante porque é o tipo de dado que determina quais operações são possíveis. Após a criação do dataframe podemos saber quais são os tipos de dados armazenados em cada coluna.

Como verificar o tipo de dados de um dataframe

Para verificar os tipos de dados de um dataframe podemos fazer uso do atributo dtypes, do método value_counts() ou do método info().
Com o atributo dtypes você vai receber uma saída com duas colunas. A primeira coluna contem os valores do primeiro elemento de cada coluna. E a segunda coluna o tipo de dados que a coluna contém.

>>> import pandas as pd
>>> filmes = pd.read_csv('filmes.csv', encoding='latin-1')
>>> filmes.dtypes
Codigo da obra                  int64
Titulo Original                object
Titulo no Brasil               object
Ano de producão               float64
Diretor                        object
Razão Social do Requerente     object
CNPJ Requerente                object
Data de exibicão               object
dtype: object

A saída do método value_counts() são duas colunas. A primeira coluna se refere ao tipo de dados e a segunda a quantidade de colunas que contém dados desse tipo.

>>> filmes.dtypes.value_counts()
object     6
float64    1
int64      1
dtype: int64

Já o método info() nos fornece algumas informações sobre o dataframe como números de colunas, de linhas e a memória que esse dataframe está utilizando.

>>> filmes.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9262 entries, 0 to 9261
Data columns (total 8 columns):
 #   Column                      Non-Null Count  Dtype
---  ------                      --------------  -----
 0   Codigo da obra              9262 non-null   int64
 1   Titulo Original             9262 non-null   object
 2   Titulo no Brasil            9262 non-null   object
 3   Ano de producão             9259 non-null   float64
 4   Diretor                     9262 non-null   object
 5   Razão Social do Requerente  9262 non-null   object
 6   CNPJ Requerente             9262 non-null   object
 7   Data de exibicão            9262 non-null   object
dtypes: float64(1), int64(1), object(6)
memory usage: 361.9+ KB

O tipo de dado object, normalmente, é uma string. Caso esteja faltando algum elemento de uma coluna será atribuído o valor NaN (do tipo float) para o elemento.

0 comentários:

Postar um comentário