domingo, 25 de abril de 2021

Como obter nomes de linhas/índices no dataframe do Pandas

Ao analisar os conjuntos de dados reais, que geralmente são muito grandes em tamanho, talvez seja necessário obter as linhas ou os nomes dos índices para realizar algumas operações.

Vamos discutir como obter nomes de linhas no dataframe do pandas.

Primeiro, vamos criar um dataframe simples com nba.csv.

import pandas as pd 

data = pd.read_csv("https://media.geeksforgeeks.org/wp-content/uploads/nba.csv") 

data_top = data.head(10)

print(data_top)

Saída:

            Name            Team  Number Position   Age Height  Weight            College      Salary
0  Avery Bradley  Boston Celtics     0.0       PG  25.0    6-2   180.0              Texas   7730337.0
1    Jae Crowder  Boston Celtics    99.0       SF  25.0    6-6   235.0          Marquette   6796117.0
2   John Holland  Boston Celtics    30.0       SG  27.0    6-5   205.0  Boston University         NaN
3    R.J. Hunter  Boston Celtics    28.0       SG  22.0    6-5   185.0      Georgia State   1148640.0
4  Jonas Jerebko  Boston Celtics     8.0       PF  29.0   6-10   231.0                NaN   5000000.0
5   Amir Johnson  Boston Celtics    90.0       PF  29.0    6-9   240.0                NaN  12000000.0
6  Jordan Mickey  Boston Celtics    55.0       PF  21.0    6-8   235.0                LSU   1170960.0
7   Kelly Olynyk  Boston Celtics    41.0        C  25.0    7-0   238.0            Gonzaga   2165160.0
8   Terry Rozier  Boston Celtics    12.0       PG  22.0    6-2   190.0         Louisville   1824360.0
9   Marcus Smart  Boston Celtics    36.0       PG  22.0    6-4   220.0     Oklahoma State   3431040.0

Agora, vamos tentar obter o nome da linha do conjunto de dados acima.

Método #1: simplesmente iterar sobre os índices

import pandas as pd 

# criando um dataframe
data = pd.read_csv("nba.csv") 

# criando um novo dataframe
# com as cinco primeiras linhas
# do dataframe data
data_top = data.head() 

# interando sobre as linhas
for row in data_top.index:
    print(row, end=" ")

Saída:

0 1 2 3 4

Método #2: usando linhas com objeto dataframe

import pandas as pd 

# criando um dataframe
data = pd.read_csv("nba.csv") 

# criando um novo dataframe
# com as cinco primeiras linhas
# do dataframe data
data_top = data.head() 

print(list(data_top.index))

Saída:

[0, 1, 2, 3, 4]

Método #3: o atributo index.values retorna uma matriz de índice.

import pandas as pd 

# criando um dataframe
data = pd.read_csv("nba.csv") 

# criando um novo dataframe
# com as cinco primeiras linhas
# do dataframe data
data_top = data.head() 

print(data_top.index.values)

Saída:

[0 1 2 3 4]

Método #4: usando o método tolist() com valores fornecidos a lista de índice.

import pandas as pd 

# criando um dataframe
data = pd.read_csv("nba.csv") 

# criando um novo dataframe
# com as cinco primeiras linhas
# do dataframe data
data_top = data.head() 

print(data_top.index.values.tolist())

Saída:

[0, 1, 2, 3, 4]

Artigo escrito por Shivam_k e traduzido por Acervolima de How to get rows/index names in Pandas dataframe.

Licença

0 comentários:

Postar um comentário