sexta-feira, 2 de abril de 2021

Começando em pandas

Instalação

Trabalhando com conda?

O pandas faz parte da distribuição do Anaconda e pode ser instalado com o Anaconda ou Miniconda:

conda install pandas

Prefere pip?

pandas podem ser instalados via pip do PyPI.

pip install pandas

Instruções detalhadas?

Instalando uma versão específica? Instalando da fonte? Verifique a página de instalação avançada.

Introdução ao pandas

Que tipo de dados podemos manipular com pandas?

Ao trabalhar com dados tabulares, como dados armazenados em planilhas ou bancos de dados, o pandas é a ferramenta certa para você. O pandas irá ajudá-lo a explorar, limpar e processar seus dados. No pandas, uma tabela de dados é chamada de DataFrame.

Como leio e escrevo dados tabulares?

O pandas suporta a integração com muitos formatos de arquivo ou fontes de dados fora da caixa (csv, excel, sql, json, parquet, ...). A importação de dados de cada uma dessas fontes de dados é fornecida pela função com o prefixo read_*. Da mesma forma, os métodos to_* são usados para armazenar dados.

Leitura e escrita de dados com pandas

Como seleciono um subconjunto de uma tabela?

Selecionando ou filtrando linhas e/ou colunas específicas? Filtrando os dados em uma condição? Métodos para fatiar, selecionar e extrair os dados de que você precisa estão disponíveis no pandas.

Selecionando subconjuntos com pandas

Como criar um gráfico com pandas?

pandas fornece plotagem de seus dados fora da caixa, usando o poder do Matplotlib. Você pode escolher o tipo de gráfico (dispersão, barra, boxplot, ...) correspondente aos seus dados.

Criando um gráfico com pandas

Como criar novas colunas derivadas de colunas existentes?

Não há necessidade de percorrer todas as linhas de sua tabela de dados para fazer cálculos. As manipulações de dados em uma coluna funcionam de forma elementar. Adicionar uma coluna a um DataFrame com base nos dados existentes em outras colunas é simples.

Adicionando colunas a um dataframe

Como calcular estatísticas resumidas?

As estatísticas básicas (média, mediana, mínimo, máximo, contagens ...) são facilmente calculáveis. Essas agregações personalizadas podem ser aplicadas em todo o conjunto de dados, uma janela deslizante dos dados ou agrupados por categorias. A última também é conhecida como abordagem dividir-aplicar-combinar.

estatísticas resumidas com pandas

Como remodelar o layout das tabelas?

Altere a estrutura de sua tabela de dados de várias maneiras. Você pode fundir (melt()) sua tabela de dados de formato largo para longo / organizado ou girar (pivot()) de formato longo para largo. Com agregações integradas, uma tabela dinâmica é criada com um único comando.

remodelar o layout de tabelas pandas

Como combinar dados de várias tabelas?

Múltiplas tabelas podem ser concatenadas tanto em colunas quanto em linhas e operações de junção / mesclagem do tipo banco de dados são fornecidas para combinar várias tabelas de dados.

Combinar dados de várias tabelas

Como lidar com dados de série temporal?

O pandas tem ótimo suporte para séries temporais e um amplo conjunto de ferramentas para trabalhar com datas, horas e dados indexados por tempo.

Como manipular dados textuais?

Os conjuntos de dados não contêm apenas dados numéricos. O pandas oferece uma ampla gama de funções para limpar dados textuais e extrair informações úteis deles.

Vindo de...

Você está familiarizado com outro software para manipulação de dados tabulares? Aprenda as operações equivalentes do pandas em comparação com o software que você já conhece:

R

A linguagem de programação R fornece a estrutura de dados do dataframe e vários pacotes, como tidyverse e ampliar data.frames para funcionalidades de manipulação de dados convenientes semelhantes ao pandas.

SQL

Já familiarizado com SELECT, GROUP BY, JOIN, etc.? A maioria dessas manipulações SQL tem equivalentes nos pandas.

STATA

O dataset incluído no pacote de software estatístico STATA corresponde aos pandas dataframe. Muitas das operações conhecidas do STATA têm um equivalente em pandas.

SAS

O pacote de software estatístico SAS também fornece o dataset correspondente ao pandas dataframe. Além disso, as operações vetorizadas SAS, filtragem, operações de processamento de strings e muito mais têm funções semelhantes nos pandas.

Tutoriais

Para uma visão geral rápida da funcionalidade do pandas, consulte 10 Minutos para os pandas.

Você também pode consultar a folha de dicas do pandas para obter um guia sucinto sobre como manipular dados com os pandas.

A comunidade produz uma grande variedade de tutoriais disponíveis online. Parte do material é incluída nos tutoriais da comunidade contribuídos pela comunidade.

Traduzido por Acervo Lima. O original pode ser acessado aqui.

0 comentários:

Postar um comentário