sábado, 3 de abril de 2021

Instalação do pandas

A maneira mais fácil de instalar o pandas é instalá-lo como parte da distribuição Anaconda, uma distribuição de plataforma cruzada para análise de dados e computação científica. Este é o método de instalação recomendado para a maioria dos usuários.

Também são fornecidas instruções para instalar a partir do código-fonte, PyPI, ActivePython, várias distribuições Linux ou uma versão de desenvolvimento.

Suporte à versão Python

Oficialmente Python 3.7.1 e superior, 3.8 e 3.9.

Instalando pandas

Instalando com o Anaconda

Instalar o pandas e o resto da pilha do NumPy e do SciPy pode ser um pouco difícil para usuários inexperientes.

A maneira mais simples de instalar não apenas pandas, mas Python e os pacotes mais populares que compõem a pilha SciPy ( IPython, NumPy, Matplotlib, ...) é com Anaconda, uma distribuição Python de plataforma cruzada (Linux, macOS, Windows) para dados análise e computação científica.

Após executar o instalador, o usuário terá acesso ao pandas e ao resto da pilha do SciPy sem precisar instalar mais nada e sem precisar esperar que qualquer software seja compilado.

As instruções de instalação do Anaconda podem ser encontradas aqui.

Uma lista completa dos pacotes disponíveis como parte da distribuição Anaconda pode ser encontrada aqui.

Outra vantagem de instalar o Anaconda é que você não precisa de direitos de administrador para instalá-lo. O Anaconda pode ser instalado no diretório pessoal do usuário, o que torna trivial excluir o Anaconda se você decidir (apenas exclua essa pasta).

Instalando com Miniconda

A seção anterior descreveu como instalar o pandas como parte da distribuição do Anaconda. No entanto, esta abordagem significa que você instalará bem mais de cem pacotes e envolve o download do instalador, que tem algumas centenas de megabytes.

Se você deseja ter mais controle sobre quais pacotes, ou tem uma largura de banda limitada da Internet, instalar o pandas com o Miniconda pode ser uma solução melhor.

Conda é o gerenciador de pacotes sobre o qual a distribuição do Anaconda é construída. É um gerenciador de pacotes que é multiplataforma e agnóstico de linguagem (pode desempenhar uma função semelhante a uma combinação de pip e virtualenv).

O Miniconda permite que você crie uma instalação autônoma mínima do Python e, em seguida, use o comando Conda para instalar pacotes adicionais.

Primeiro, você precisa que o Conda esteja instalado e o download e a execução do Miniconda fará isso para você. O instalador pode ser encontrado aqui

A próxima etapa é criar um novo ambiente conda. Um ambiente conda é como um virtualenv que permite especificar uma versão específica do Python e um conjunto de bibliotecas. Execute os seguintes comandos em uma janela de terminal:

conda create -n name_of_my_env python

Isso criará um ambiente mínimo com apenas Python instalado. Para se colocar dentro desse ambiente, execute:

source activate name_of_my_env

No Windows, o comando é:

activate name_of_my_env

A etapa final necessária é instalar o pandas. Isso pode ser feito com o seguinte comando:

conda install pandas

Para instalar uma versão específica do pandas:

conda install pandas=0.20.3

Para instalar outros pacotes, IPython por exemplo:

conda install ipython

Para instalar a distribuição Anaconda completa:

conda install anaconda

Se você precisa de pacotes que estão disponíveis para o pip, mas não para o conda, instale o pip e use o pip para instalar esses pacotes:

conda install pip
pip install django

Instalando a partir do PyPI

pandas pode ser instalado via pip do PyPI.

pip install pandas

Instalando com ActivePython

As instruções de instalação para ActivePython podem ser encontradas aqui. As versões 2.7, 3.5 e 3.6 incluem pandas.

Instalando usando o gerenciador de pacotes de sua distribuição Linux

Os comandos nesta tabela irão instalar o pandas para Python 3 de sua distribuição.

Distribuição

Status

Link para download/repositório

Método de instalação

Debian

estável

repositório oficial do Debian

sudo apt-get install python3-pandas

Debian e Ubuntu

instável (pacotes mais recentes)

NeuroDebian

sudo apt-get install python3-pandas

Ubuntu

estável

repositório oficial do Ubuntu

sudo apt-get install python3-pandas

OpenSuse

estável

Repositório OpenSuse

zypper in python3-pandas

Fedora

estável

repositório oficial do Fedora

dnf install python3-pandas

Centos / RHEL

estável

Repositório EPEL

yum install python3-panda

No entanto, os pacotes nos gerenciadores de pacotes do Linux geralmente estão algumas versões atrás, portanto, para obter a versão mais recente do pandas, é recomendado instalar usando os métodos pip ou conda descritos acima.

Manipulando ImportErrors

Se você encontrar um ImportError, geralmente significa que o Python não conseguiu encontrar o pandas na lista de bibliotecas disponíveis. O Python possui internamente uma lista de diretórios que procura, para encontrar pacotes. Você pode obter esses diretórios com:

import sys
sys.path

Uma maneira de encontrar esse erro é se você tiver várias instalações do Python em seu sistema e não tiver o pandas instalado na instalação do Python que está usando no momento. No Linux / Mac você pode rodar no seu terminal which python e ele vai te dizer qual instalação do Python você está usando. Se for algo como “/usr/bin/python”, você está usando o Python do sistema, o que não é recomendado.

É altamente recomendável usar conda, para instalação rápida e para atualizações de pacotes e dependências. Você pode encontrar instruções de instalação simples para pandas neste documento: installation instructions </getting_started.html>

Instalando da fonte

Consulte o guia de contribuição para obter instruções completas sobre como compilar a partir da árvore de origem do git. Além disso, consulte a criação de um ambiente de desenvolvimento se desejar criar um ambiente de desenvolvimento do pandas.

Executando o conjunto de testes

O pandas está equipado com um conjunto exaustivo de testes de unidade, cobrindo cerca de 97% da base de código até o momento desta escrita. Para executá-lo em sua máquina para verificar se tudo está funcionando (e se você tem todas as dependências, soft e hard, instaladas), certifique-se de ter pytest > = 5.0.1 e Hypothesis > = 3.58, em seguida, execute:

>>> pd.test()
running: pytest --skip-slow --skip-network C:\Users\TP\Anaconda3\envs\py36\lib\site-packages\pandas
============================= test session starts =============================
platform win32 -- Python 3.6.2, pytest-3.6.0, py-1.4.34, pluggy-0.4.0
rootdir: C:\Users\TP\Documents\Python\pandasdev\pandas, inifile: setup.cfg
collected 12145 items / 3 skipped

..................................................................S......
........S................................................................
.........................................................................

==================== 12130 passed, 12 skipped in 368.339 seconds =====================

Dependências

Pacote

Versão mínima suportada

ferramentas de instalação

24.2.0

NumPy

1,16.5

python-dateutil

2.7.3

pytz

2017.3

Dependências recomendadas

  • numexpr: para acelerar certas operações numéricas. numexpr usa vários núcleos, bem como chunking e cache inteligentes para alcançar grandes acelerações. Se instalado, deve ser a versão 2.6.8 ou superior.

  • bottleneck:: para acelerar certos tipos de avaliações nan. bottleneck usa rotinas de cython especializadas para alcançar grandes acelerações. Se instalado, deve ser a versão 1.2.1 ou superior.

Observação

É altamente recomendável instalar essas bibliotecas, pois elas fornecem melhorias de velocidade, especialmente ao trabalhar com grandes conjuntos de dados.

Dependências opcionais

O pandas tem muitas dependências opcionais que são usadas apenas para métodos específicos. Por exemplo, pandas.read_hdf() requer o pacote pytables, enquanto DataFrame.to_markdown() requer o pacote tabulate. Se a dependência opcional não estiver instalada, o pandas lançará um ImportError quando o método que requer essa dependência for chamado.

Dependência

Versão Mínima

Notas

BeautifulSoup4

4.6.0

Analisador de HTML para read_html (ver nota )

Jinja2

2,10

Formatação condicional com DataFrame.style

PyQt4

E/S da área de transferência

PyQt5

E/S da área de transferência

PyTables

3.5.1

Leitura/gravação baseada em HDF5

SQLAlchemy

1.3.0

Suporte SQL para bancos de dados diferentes de sqlite

SciPy

1.12.0

Funções estatísticas diversas

xlsxwriter

1.0.2

Escrita em Excel

blosc

1.17.0

Compressão para HDF5

fsspec

0.7.4

Manipulação de arquivos além de local e HTTP

fastparquet

0.4.0

Leitura / escrita em parquet

gcsfs

0,6.0

Acesso ao Google Cloud Storage

html5lib

1.0.1

Analisador de HTML para read_html (ver nota )

lxml

4.3.0

Analisador de HTML para read_html (ver nota )

matplotlib

2.2.3

Visualização

numba

0,46,0

Mecanismo de execução alternativo para operações rotativas

openpyxl

2.6.0

Leitura / gravação de arquivos xlsx

pandas-gbq

0,12,0

Acesso ao Google Big Query

psycopg2

2,7

Motor PostgreSQL para sqlalchemy

pyarrow

0,15,0

Parquet, ORC e ​​leitura / escrita de penas

pymysql

0.8.1

Motor MySQL para sqlalchemy

pyreadstat

Leitura de arquivos SPSS (.sav)

pyxlsb

1.0.6

Leitura de arquivos xlsb

qtpy

E / S da área de transferência

s3fs

0.4.0

Acesso Amazon S3

tabular

0.8.3

Impressão em formato compatível com Markdown (consulte a tabela )

raio x

0.12.3

API pandas-like para dados N-dimensionais

xclip

E / S da área de transferência no Linux

xlrd

1.2.0

Leitura de Excel

xlwt

1.3.0

Escrita em Excel

xsel

E / S da área de transferência no Linux

zlib

Compressão para HDF5

Dependências opcionais para analisar HTML

Uma das seguintes combinações de bibliotecas é necessária para usar a função de nível superior read_html():

Aviso

Traduzido por Acervo Lima. O original pode ser acessado aqui.

0 comentários:

Postar um comentário