quarta-feira, 12 de agosto de 2020

Como usar a função groupby() do pandas

Photo by Duy Pham on Unsplash

Python é uma ótima linguagem para fazer análise de dados, principalmente por causa do fantástico ecossistema de pacotes python desenvolvidos para a análise de dados. pandas é um desses pacotes. Com ele podemos importar dados de um dataset e realizar algumas analises facilmente, como agrupar dados. O método groupby é muito utilizado para esse proposito.
O que o método groupby faz é separar os dados por grupos. Com os dados agrupados é comum aplicar uma função e combinar o resultado. Por exemplo, a velocidade de um falcão-peregrino vária de 370km/h à 390km/h e um papagaio de 24km/h à 26km/h. Com esses dados podemos usar o método groupby (para agrupar os dados) e o método mean (média) para saber qual é a velocidade média de cada ave.
Com os dados de cada ave, o método groupby vai agrupar os dados por categoria, no caso a categoria é o animal. Com esses dados agrupados podemos chamar o método mean(), que fornece a média dos valores. Desse modo temos um dataframe com a velocidade média de cada animal.

>>> import pandas as pd
>>> dados = {
... 'Animal': ['Falcao', 'Papagaio', 'Falcao', 'Papagaio'],
... 'Velocidade_maxima':[390, 24, 370, 26]
... }
>>> df = pd.DataFrame(dados)
>>> df
     Animal  Velocidade_maxima
0    Falcao                390
1  Papagaio                 24
2    Falcao                370
3  Papagaio                 26

>>> df.groupby(['Animal']).mean()
          Velocidade_maxima
Animal
Falcao                  380
Papagaio                 25

Quer aprender mais sobre a biblioteca pandas? Comece com nossos tutoriais pandas.

Referência:
Função groupby()
Função DataFrame()

Um comentário: