Os tipos de dados utilizados na biblioteca pandas podem ser classificados como contínuos ou categóricos. Os dados contínuos são usados para representar dados numéricos como a distância entre dois pontos, peso ou altura. Já os dados categóricos são usados para representar um dado de uma quantidade finita. Um exemplo de objetos finitos são as cores que um monitor pode mostrar (16,7 milhões de cores). Os dados categóricos são usados para esse tipo de dado, representa um dado entre um número finito de possibilidades.
Na biblioteca Pandas existem alguns tipos de dados específicos. A seguir veja quais são esses tipos de dados:
- int: Tipo inteiro da biblioteca NumPy. Esse tipo de dado não tem suporte a valores ausentes.
- int64: Numero nulo inteiros do Pandas.
- float: Numero de ponto flutuante da biblioteca NumPy. Esse tipo de dado suporta valores ausentes.
- object: Com esse tipo de dados você trabalhar com sequencias de caracteres. Esses caracteres podem ser números ou letras.
- category: Tipo categórico da biblioteca Pandas.
- bool: Tipo booleano da biblioteca NumPy. Esse tipo de dado não suporta dados ausentes.
- boolean: Tipo booleano que suporta valor nulo.
- datetime64: Tipos data da biblioteca NumPy. Esse tipo aceita valores ausentes.
Uma coisa muito importante de saber é o tipo de dados usados num dataframe. Esse conhecimento é importante porque é o tipo de dado que determina quais operações são possíveis. Após a criação do dataframe podemos saber quais são os tipos de dados armazenados em cada coluna.
Como verificar o tipo de dados de um dataframe
Para verificar os tipos de dados de um dataframe podemos fazer uso do atributo dtypes
, do método value_counts()
ou do método info()
.
Com o atributo dtypes
você vai receber uma saída com duas colunas. A primeira coluna contem os valores do primeiro elemento de cada coluna. E a segunda coluna o tipo de dados que a coluna contém.
>>> import pandas as pd >>> filmes = pd.read_csv('filmes.csv', encoding='latin-1') >>> filmes.dtypes Codigo da obra int64 Titulo Original object Titulo no Brasil object Ano de producão float64 Diretor object Razão Social do Requerente object CNPJ Requerente object Data de exibicão object dtype: object
A saída do método value_counts()
são duas colunas. A primeira coluna se refere ao tipo de dados e a segunda a quantidade de colunas que contém dados desse tipo.
>>> filmes.dtypes.value_counts() object 6 float64 1 int64 1 dtype: int64
Já o método info()
nos fornece algumas informações sobre o dataframe como números de colunas, de linhas e a memória que esse dataframe está utilizando.
>>> filmes.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 9262 entries, 0 to 9261 Data columns (total 8 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Codigo da obra 9262 non-null int64 1 Titulo Original 9262 non-null object 2 Titulo no Brasil 9262 non-null object 3 Ano de producão 9259 non-null float64 4 Diretor 9262 non-null object 5 Razão Social do Requerente 9262 non-null object 6 CNPJ Requerente 9262 non-null object 7 Data de exibicão 9262 non-null object dtypes: float64(1), int64(1), object(6) memory usage: 361.9+ KB
O tipo de dado object
, normalmente, é uma string. Caso esteja faltando algum elemento de uma coluna será atribuído o valor NaN (do tipo float) para o elemento.
0 comentários:
Postar um comentário