-
Eu quero começar a usar pandas
In [1]: import pandas as pd
Para carregar o pacote pandas e começar a trabalhar com ele, importe o pacote. O apelido aceito pela comunidade para os pandas é
pd
, portanto, carregar o pandas com o apelidopd
é uma prática padrão assumida para toda a documentação dos pandas.
representação da tabela de dados do pandas
-
Quero armazenar os dados dos passageiros do Titanic. Para vários passageiros, conheço os dados de nome (caracteres), idade (inteiros) e sexo (masculino / feminino).
In [2]: df = pd.DataFrame( ...: { ...: "Name": [ ...: "Braund, Mr. Owen Harris", ...: "Allen, Mr. William Henry", ...: "Bonnell, Miss. Elizabeth", ...: ], ...: "Age": [22, 35, 58], ...: "Sex": ["male", "male", "female"], ...: } ...: ) ...: In [3]: df Out[3]: Name Age Sex 0 Braund, Mr. Owen Harris 22 male 1 Allen, Mr. William Henry 35 male 2 Bonnell, Miss. Elizabeth 58 female
Para armazenar dados manualmente em uma tabela, crie um
DataFrame
. Ao usar um dicionário de listas Python, as colchetes do dicionário serão usadas como cabeçalhos de coluna e os valores em cada lista como colunas doDataFrame
.
Um DataFrame
é uma estrutura de dados bidimensional que pode armazenar dados de diferentes tipos (incluindo caracteres, inteiros, valores de ponto flutuante, dados categóricos e mais) em colunas. É semelhante a uma planilha, uma tabela SQL ou o data.frame
em R.
-
A tabela possui 3 colunas, cada uma delas com um rótulo de coluna. Os rótulos das colunas são Name, Age e Sex, respectivamente.
-
A coluna
Name
consiste em dados textuais com cada valor com uma string, a colunaAge
são números e a colunaSex
são dados textuais.
No software de planilha, a representação da tabela de nossos dados seria muito semelhante:
Cada coluna no DataFrame
é uma Series
-
Estou apenas interessado em trabalhar com os dados da coluna
Age
.In [4]: df["Age"] Out[4]: 0 22 1 35 2 58 Name: Age, dtype: int64
Ao selecionar uma única coluna do
DataFrame
pandas, o resultado sãoSeries
pandas. Para selecionar a coluna, use o rótulo da coluna entre colchetes[]
.
Observação
Se você estiver familiarizado com os dicionários Python, a seleção de uma única coluna é muito semelhante à seleção dos valores do dicionário com base no colchete.
Você também pode criar uma Series
do zero:
In [5]: ages = pd.Series([22, 35, 58], name="Age") In [6]: ages Out[6]: 0 22 1 35 2 58 Name: Age, dtype: int64
Uma Series
pandas não tem rótulos de coluna, pois é apenas uma coluna de um DataFrame
. A Series tem rótulos de linha.
Faça algo com um DataFrame ou Série
-
Eu quero saber a idade máxima dos passageiros.
Podemos fazer isso no
DataFrame
selecionando a colunaAge
e aplicandomax()
:In [7]: df["Age"].max() Out[7]: 58
Ou para a
Series
:In [8]: ages.max() Out[8]: 58
Conforme ilustrado pelo método max()
, você pode fazer coisas com um DataFrame
ou Series
. O pandas oferece muitas funcionalidades, cada uma delas um método que você pode aplicar a um DataFrame
ou Series
. Como os métodos são funções, não se esqueça de usar parênteses ()
.
-
Estou interessado em algumas estatísticas básicas dos dados numéricos da minha tabela de dados.
In [9]: df.describe() Out[9]: Age count 3.000000 mean 38.333333 std 18.230012 min 22.000000 25% 28.500000 50% 35.000000 75% 46.500000 max 58.000000
O método
describe()
fornece uma visão geral rápida dos dados numéricos em umDataFrame
. Como as colunasName
eSex
são dados textuais, eles, por padrão, não são considerados pelo métododescribe()
.
Muitas operações do pandas retornam um DataFrame
ou uma Series
. O método describe()
é um exemplo de uma operação de pandas retornando uma Series
pandas.
Observação
Isto é só um ponto de partida. Semelhante ao software de planilha, o pandas representa os dados como uma tabela com colunas e linhas. Além da representação, também as manipulações de dados e cálculos que você faria em um software de planilha são suportados pelo pandas. Continue lendo os próximos tutoriais para começar!
LEMBRAR
-
Importe o pacote, também conhecido como
import pandas as pd
. -
Uma tabela de dados é armazenada como um pandas
DataFrame
. -
Cada coluna em um
DataFrame
é umaSeries
. -
Você pode fazer coisas aplicando um método a um
DataFrame
ouSeries
.
Traduzido por Acervo Lima. O original pode ser acessado aqui.
0 comentários:
Postar um comentário