A maneira mais fácil de instalar o pandas é instalá-lo como parte da distribuição Anaconda, uma distribuição de plataforma cruzada para análise de dados e computação científica. Este é o método de instalação recomendado para a maioria dos usuários.
Também são fornecidas instruções para instalar a partir do código-fonte, PyPI, ActivePython, várias distribuições Linux ou uma versão de desenvolvimento.
Suporte à versão Python
Oficialmente Python 3.7.1 e superior, 3.8 e 3.9.
Instalando pandas
Instalando com o Anaconda
Instalar o pandas e o resto da pilha do NumPy e do SciPy pode ser um pouco difícil para usuários inexperientes.
A maneira mais simples de instalar não apenas pandas, mas Python e os pacotes mais populares que compõem a pilha SciPy ( IPython, NumPy, Matplotlib, ...) é com Anaconda, uma distribuição Python de plataforma cruzada (Linux, macOS, Windows) para dados análise e computação científica.
Após executar o instalador, o usuário terá acesso ao pandas e ao resto da pilha do SciPy sem precisar instalar mais nada e sem precisar esperar que qualquer software seja compilado.
As instruções de instalação do Anaconda podem ser encontradas aqui.
Uma lista completa dos pacotes disponíveis como parte da distribuição Anaconda pode ser encontrada aqui.
Outra vantagem de instalar o Anaconda é que você não precisa de direitos de administrador para instalá-lo. O Anaconda pode ser instalado no diretório pessoal do usuário, o que torna trivial excluir o Anaconda se você decidir (apenas exclua essa pasta).
Instalando com Miniconda
A seção anterior descreveu como instalar o pandas como parte da distribuição do Anaconda. No entanto, esta abordagem significa que você instalará bem mais de cem pacotes e envolve o download do instalador, que tem algumas centenas de megabytes.
Se você deseja ter mais controle sobre quais pacotes, ou tem uma largura de banda limitada da Internet, instalar o pandas com o Miniconda pode ser uma solução melhor.
Conda é o gerenciador de pacotes sobre o qual a distribuição do Anaconda é construída. É um gerenciador de pacotes que é multiplataforma e agnóstico de linguagem (pode desempenhar uma função semelhante a uma combinação de pip e virtualenv).
O Miniconda permite que você crie uma instalação autônoma mínima do Python e, em seguida, use o comando Conda para instalar pacotes adicionais.
Primeiro, você precisa que o Conda esteja instalado e o download e a execução do Miniconda fará isso para você. O instalador pode ser encontrado aqui
A próxima etapa é criar um novo ambiente conda. Um ambiente conda é como um virtualenv que permite especificar uma versão específica do Python e um conjunto de bibliotecas. Execute os seguintes comandos em uma janela de terminal:
conda create -n name_of_my_env python
Isso criará um ambiente mínimo com apenas Python instalado. Para se colocar dentro desse ambiente, execute:
source activate name_of_my_env
No Windows, o comando é:
activate name_of_my_env
A etapa final necessária é instalar o pandas. Isso pode ser feito com o seguinte comando:
conda install pandas
Para instalar uma versão específica do pandas:
conda install pandas=0.20.3
Para instalar outros pacotes, IPython por exemplo:
conda install ipython
Para instalar a distribuição Anaconda completa:
conda install anaconda
Se você precisa de pacotes que estão disponíveis para o pip, mas não para o conda, instale o pip e use o pip para instalar esses pacotes:
conda install pip pip install django
Instalando a partir do PyPI
pandas pode ser instalado via pip do PyPI.
pip install pandas
Instalando com ActivePython
As instruções de instalação para ActivePython podem ser encontradas aqui. As versões 2.7, 3.5 e 3.6 incluem pandas.
Instalando usando o gerenciador de pacotes de sua distribuição Linux
Os comandos nesta tabela irão instalar o pandas para Python 3 de sua distribuição.
Distribuição |
Status |
Link para download/repositório |
Método de instalação |
---|---|---|---|
Debian |
estável |
|
|
Debian e Ubuntu |
instável (pacotes mais recentes) |
|
|
Ubuntu |
estável |
|
|
OpenSuse |
estável |
|
|
Fedora |
estável |
|
|
Centos / RHEL |
estável |
|
No entanto, os pacotes nos gerenciadores de pacotes do Linux geralmente estão algumas versões atrás, portanto, para obter a versão mais recente do pandas, é recomendado instalar usando os métodos pip
ou conda
descritos acima.
Manipulando ImportErrors
Se você encontrar um ImportError, geralmente significa que o Python não conseguiu encontrar o pandas na lista de bibliotecas disponíveis. O Python possui internamente uma lista de diretórios que procura, para encontrar pacotes. Você pode obter esses diretórios com:
import sys
sys.path
Uma maneira de encontrar esse erro é se você tiver várias instalações do Python em seu sistema e não tiver o pandas instalado na instalação do Python que está usando no momento. No Linux / Mac você pode rodar no seu terminal which python
e ele vai te dizer qual instalação do Python você está usando. Se for algo como “/usr/bin/python”, você está usando o Python do sistema, o que não é recomendado.
É altamente recomendável usar conda
, para instalação rápida e para atualizações de pacotes e dependências. Você pode encontrar instruções de instalação simples para pandas neste documento: installation instructions </getting_started.html>
Instalando da fonte
Consulte o guia de contribuição para obter instruções completas sobre como compilar a partir da árvore de origem do git. Além disso, consulte a criação de um ambiente de desenvolvimento se desejar criar um ambiente de desenvolvimento do pandas.
Executando o conjunto de testes
O pandas está equipado com um conjunto exaustivo de testes de unidade, cobrindo cerca de 97% da base de código até o momento desta escrita. Para executá-lo em sua máquina para verificar se tudo está funcionando (e se você tem todas as dependências, soft e hard, instaladas), certifique-se de ter pytest > = 5.0.1 e Hypothesis > = 3.58, em seguida, execute:
>>> pd.test() running: pytest --skip-slow --skip-network C:\Users\TP\Anaconda3\envs\py36\lib\site-packages\pandas ============================= test session starts ============================= platform win32 -- Python 3.6.2, pytest-3.6.0, py-1.4.34, pluggy-0.4.0 rootdir: C:\Users\TP\Documents\Python\pandasdev\pandas, inifile: setup.cfg collected 12145 items / 3 skipped ..................................................................S...... ........S................................................................ ......................................................................... ==================== 12130 passed, 12 skipped in 368.339 seconds =====================
Dependências
Pacote |
Versão mínima suportada |
---|---|
24.2.0 |
|
1,16.5 |
|
2.7.3 |
|
2017.3 |
Dependências recomendadas
-
numexpr: para acelerar certas operações numéricas.
numexpr
usa vários núcleos, bem como chunking e cache inteligentes para alcançar grandes acelerações. Se instalado, deve ser a versão 2.6.8 ou superior. -
bottleneck:: para acelerar certos tipos de avaliações
nan
.bottleneck
usa rotinas de cython especializadas para alcançar grandes acelerações. Se instalado, deve ser a versão 1.2.1 ou superior.
Observação
É altamente recomendável instalar essas bibliotecas, pois elas fornecem melhorias de velocidade, especialmente ao trabalhar com grandes conjuntos de dados.
Dependências opcionais
O pandas tem muitas dependências opcionais que são usadas apenas para métodos específicos. Por exemplo, pandas.read_hdf()
requer o pacote pytables
, enquanto DataFrame.to_markdown()
requer o pacote tabulate
. Se a dependência opcional não estiver instalada, o pandas lançará um ImportError
quando o método que requer essa dependência for chamado.
Dependência |
Versão Mínima |
Notas |
---|---|---|
BeautifulSoup4 |
4.6.0 |
Analisador de HTML para read_html (ver nota ) |
Jinja2 |
2,10 |
Formatação condicional com DataFrame.style |
PyQt4 |
E/S da área de transferência |
|
PyQt5 |
E/S da área de transferência |
|
PyTables |
3.5.1 |
Leitura/gravação baseada em HDF5 |
SQLAlchemy |
1.3.0 |
Suporte SQL para bancos de dados diferentes de sqlite |
SciPy |
1.12.0 |
Funções estatísticas diversas |
xlsxwriter |
1.0.2 |
Escrita em Excel |
blosc |
1.17.0 |
Compressão para HDF5 |
fsspec |
0.7.4 |
Manipulação de arquivos além de local e HTTP |
fastparquet |
0.4.0 |
Leitura / escrita em parquet |
gcsfs |
0,6.0 |
Acesso ao Google Cloud Storage |
html5lib |
1.0.1 |
Analisador de HTML para read_html (ver nota ) |
lxml |
4.3.0 |
Analisador de HTML para read_html (ver nota ) |
matplotlib |
2.2.3 |
Visualização |
numba |
0,46,0 |
Mecanismo de execução alternativo para operações rotativas |
openpyxl |
2.6.0 |
Leitura / gravação de arquivos xlsx |
pandas-gbq |
0,12,0 |
Acesso ao Google Big Query |
psycopg2 |
2,7 |
Motor PostgreSQL para sqlalchemy |
pyarrow |
0,15,0 |
Parquet, ORC e leitura / escrita de penas |
pymysql |
0.8.1 |
Motor MySQL para sqlalchemy |
pyreadstat |
Leitura de arquivos SPSS (.sav) |
|
pyxlsb |
1.0.6 |
Leitura de arquivos xlsb |
qtpy |
E / S da área de transferência |
|
s3fs |
0.4.0 |
Acesso Amazon S3 |
tabular |
0.8.3 |
Impressão em formato compatível com Markdown (consulte a tabela ) |
raio x |
0.12.3 |
API pandas-like para dados N-dimensionais |
xclip |
E / S da área de transferência no Linux |
|
xlrd |
1.2.0 |
Leitura de Excel |
xlwt |
1.3.0 |
Escrita em Excel |
xsel |
E / S da área de transferência no Linux |
|
zlib |
Compressão para HDF5 |
Dependências opcionais para analisar HTML
Uma das seguintes combinações de bibliotecas é necessária para usar a função de nível superior read_html()
:
-
Apenas
lxml
, embora consulte Análise de tabela HTML para saber por que você provavelmente não deve adotar essa abordagem.
Aviso
-
se você instalar o BeautifulSoup4, deverá instalar lxml ou html5lib ou ambos.
read_html()
não vai funcionar com apenas o BeautifulSoup4 instalado. -
Recomendamos que você leia as dicas de análise de tabela HTML. Ele explica os problemas relacionados à instalação e uso das três bibliotecas acima.
Traduzido por Acervo Lima. O original pode ser acessado aqui.
0 comentários:
Postar um comentário