sábado, 3 de abril de 2021

Que tipo de dados podemos manipular com pandas?

  • Eu quero começar a usar pandas

    In [1]: import pandas as pd

    Para carregar o pacote pandas e começar a trabalhar com ele, importe o pacote. O apelido aceito pela comunidade para os pandas é pd, portanto, carregar o pandas com o apelido pd é uma prática padrão assumida para toda a documentação dos pandas.

representação da tabela de dados do pandas

  • Quero armazenar os dados dos passageiros do Titanic. Para vários passageiros, conheço os dados de nome (caracteres), idade (inteiros) e sexo (masculino / feminino).

    In [2]: df = pd.DataFrame(
       ...:     {
       ...:         "Name": [
       ...:             "Braund, Mr. Owen Harris",
       ...:             "Allen, Mr. William Henry",
       ...:             "Bonnell, Miss. Elizabeth",
       ...:         ],
       ...:         "Age": [22, 35, 58],
       ...:         "Sex": ["male", "male", "female"],
       ...:     }
       ...: )
       ...: 
    
    In [3]: df
    Out[3]: 
                           Name  Age     Sex
    0   Braund, Mr. Owen Harris   22    male
    1  Allen, Mr. William Henry   35    male
    2  Bonnell, Miss. Elizabeth   58  female

    Para armazenar dados manualmente em uma tabela, crie um DataFrame. Ao usar um dicionário de listas Python, as colchetes do dicionário serão usadas como cabeçalhos de coluna e os valores em cada lista como colunas do DataFrame.

Um DataFrame é uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de ponto flutuante, dados categóricos e mais) em colunas. É semelhante a uma planilha, uma tabela SQL ou o data.frame em R.

  • A tabela possui 3 colunas, cada uma delas com um rótulo de coluna. Os rótulos das colunas são Name, Age e Sex, respectivamente.

  • A coluna Name consiste em dados textuais com cada valor com uma string, a coluna Age são números e a coluna Sex são dados textuais.

No software de planilha, a representação da tabela de nossos dados seria muito semelhante:

Cada coluna no DataFrame é uma Series

  • Estou apenas interessado em trabalhar com os dados da coluna Age.

    In [4]: df["Age"]
    Out[4]: 
    0    22
    1    35
    2    58
    Name: Age, dtype: int64
    

    Ao selecionar uma única coluna do DataFrame pandas, o resultado são Series pandas. Para selecionar a coluna, use o rótulo da coluna entre colchetes [].

Observação

Se você estiver familiarizado com os dicionários Python, a seleção de uma única coluna é muito semelhante à seleção dos valores do dicionário com base no colchete.

Você também pode criar uma Series do zero:

In [5]: ages = pd.Series([22, 35, 58], name="Age")

In [6]: ages
Out[6]: 
0    22
1    35
2    58
Name: Age, dtype: int64

Uma Series pandas não tem rótulos de coluna, pois é apenas uma coluna de um DataFrame. A Series tem rótulos de linha.

Faça algo com um DataFrame ou Série

  • Eu quero saber a idade máxima dos passageiros.

    Podemos fazer isso no DataFrame selecionando a coluna Age e aplicando max():

    In [7]: df["Age"].max()
    Out[7]: 58
    

    Ou para a Series:

    In [8]: ages.max()
    Out[8]: 58
    

Conforme ilustrado pelo método max(), você pode fazer coisas com um DataFrame ou Series. O pandas oferece muitas funcionalidades, cada uma delas um método que você pode aplicar a um DataFrame ou Series. Como os métodos são funções, não se esqueça de usar parênteses ().

  • Estou interessado em algumas estatísticas básicas dos dados numéricos da minha tabela de dados.

    In [9]: df.describe()
    Out[9]: 
                 Age
    count   3.000000
    mean   38.333333
    std    18.230012
    min    22.000000
    25%    28.500000
    50%    35.000000
    75%    46.500000
    max    58.000000
    

    O método describe() fornece uma visão geral rápida dos dados numéricos em um DataFrame. Como as colunas Name e Sex são dados textuais, eles, por padrão, não são considerados pelo método describe().

Muitas operações do pandas retornam um DataFrame ou uma Series. O método describe() é um exemplo de uma operação de pandas retornando uma Series pandas.

Observação

Isto é só um ponto de partida. Semelhante ao software de planilha, o pandas representa os dados como uma tabela com colunas e linhas. Além da representação, também as manipulações de dados e cálculos que você faria em um software de planilha são suportados pelo pandas. Continue lendo os próximos tutoriais para começar!

LEMBRAR

  • Importe o pacote, também conhecido como import pandas as pd.

  • Uma tabela de dados é armazenada como um pandas DataFrame.

  • Cada coluna em um DataFrame é uma Series.

  • Você pode fazer coisas aplicando um método a um DataFrame ou Series.

Traduzido por Acervo Lima. O original pode ser acessado aqui.

0 comentários:

Postar um comentário