sábado, 25 de julho de 2020

Ordenando colunas do dataframe com Pandas

Uma coisa que vinhamos negligenciando, e uma das primeiras tarefas que devemos fazer quando importamos um dataframe, é analisar a ordem das colunas. No nosso dia-a-dia lemos da esquerda para a direita. E esse comportamento pode afetar como lemos os dados de um dataframe. Sem contar que é mais fácil encontrar um dado quando ele esta armazenado de forma organizada.
É aqui que começa nosso trabalho. Não tem um conjunto de regras que devemos seguir para organizar os dados. Uma boa prática é você mesmo criar um conjunto de regras e seguir sempre essas regras nos seus projetos. Isso se torna mais necessário quando o trabalho é em equipe e existem vários analistas gerando e trocando dados entre se.
Essas são algumas dicas para quando você importar um dataframe:

  • Classifique cada coluna seguindo um critério.
  • Agrupe as colunas mais comuns.
  • Coloque os grupos mais importantes nas primeiras colunas.

Nesse tutorial vamos ordenar as colunas fazendo uso dessas dicas, mas você pode adicionar outras dicas a essas ou não usar nenhuma.

Como ordenar colunas de um dataframe com Pandas

Para ordenar as colunas vamos utilizar o operador de índice.

>>> import pandas as pd
>>> filmes = pd.read_csv('filmes.csv')
>>> filmes.columns
Index(['indice', 'codigo_obra', 'titulo_original', 'titulo_brasil',
       'ano_producao', 'diretor', 'razao_social_requerente', 'cnpj_requerente',
       'data_exibicao'],
      dtype='object')
>>> nova_ordem = [
... 'codigo_obra',
... 'titulo_brasil',
... 'titulo_original',
... 'data_exibicao',
... 'diretor',
... 'ano_producao',
... 'indice'
... ]
>>> filmes = filmes[nova_ordem]
>>> filmes
      codigo_obra                titulo_brasil  ... ano_producao indice
0           15639               PREÇO DA PAZ O  ...       2003.0      0
1            7603                  CARTOMANTEA  ...       2002.0      1
2           26453         BLACK & WHITE VOL. 9  ...       2005.0      2
3           17284               O GURU DO SEXO  ...       2002.0      3
4            4806        O AMERICANO TRANQUILO  ...       2002.0      4
...           ...                          ...  ...          ...    ...
9257     16001794        ROCK OF AGES: O FILME  ...       2012.0   9257
9258     15000966                       MATRIX  ...       1999.0   9258
9259     19002684               MILITARY WIVES  ...       2019.0   9259
9260       609762  ROBERTO CARLOS EM JERUSALÉM  ...       2011.0   9260
9261     19005137                       O POÇO  ...       2019.0   9261

[9262 rows x 7 columns]

Você pode ordenar colunas utilizando outros métodos além de utilizar o operador do índice. Outro método que pode ser utilizado é o filter(), que já vimos o seu funcionamento no tutorial passado.
Uma dica importante para ordenaras colunas é colocar os dados fixos primeiro.

0 comentários:

Postar um comentário