インストール#

pandasをインストールする最も簡単な方法は、データ分析と科学計算のためのクロスプラットフォームディストリビューションであるAnacondaディストリビューションの一部としてインストールすることです。Condaパッケージマネージャーは、ほとんどのユーザーにとって推奨されるインストール方法です。

ソースからPyPI、または開発バージョンからインストールする手順も提供されています。

Pythonのバージョンサポート#

正式にはPython 3.9、3.10、3.11、および3.12です。

pandasのインストール#

Anacondaでのインストール#

Pythonを初めて使用するユーザーにとって、Python、pandas、およびPyDataスタック(SciPyNumPyMatplotlibなど)を構成するパッケージをインストールする最も簡単な方法は、データ分析と科学計算のためのクロスプラットフォーム(Linux、macOS、Windows)PythonディストリビューションであるAnacondaを使用することです。Anacondaのインストール手順はこちらにあります

Minicondaでのインストール#

Pythonに精通したユーザーには、Minicondaを使用してpandasをインストールすることをお勧めします。Minicondaを使用すると、Anacondaと比較して最小限の自己完結型Pythonインストールを作成し、Condaパッケージマネージャーを使用して追加のパッケージをインストールし、インストール用の仮想環境を作成できます。Minicondaのインストール手順はこちらにあります

次のステップは、新しいconda環境を作成することです。conda環境は、特定のバージョンのPythonとライブラリのセットを指定できるvirtualenvのようなものです。ターミナルウィンドウから次のコマンドを実行します。

conda create -c conda-forge -n name_of_my_env python pandas

これにより、Pythonとpandasのみがインストールされた最小限の環境が作成されます。この環境に入るには、以下を実行します。

source activate name_of_my_env
# On Windows
activate name_of_my_env

PyPIからのインストール#

pandasは、PyPIからpip経由でインストールできます。

pip install pandas

PyPIからインストールするには、pip>=19.3が必要です。

Python標準ライブラリのvenvを使用して、仮想環境からpandasをインストールおよび実行することをお勧めします。

pandasは、特定の機能を有効にするために、オプションの依存関係のセットと共にインストールすることもできます。たとえば、Excelファイルを読み取るためのオプションの依存関係を使用してpandasをインストールします。

pip install "pandas[excel]"

インストール可能なエクストラの完全なリストは、依存関係セクションにあります。

ImportErrorの処理#

ImportErrorが発生した場合、通常、Pythonが利用可能なライブラリのリストでpandasを見つけられなかったことを意味します。Pythonには、パッケージを検索するために検索するディレクトリのリストが内部的にあります。これらのディレクトリは以下で取得できます。

import sys
sys.path

このエラーが発生する可能性のある1つの方法は、システムに複数のPythonインストールがあり、現在使用しているPythonインストールにpandasがインストールされていない場合です。Linux/Macでは、ターミナルでwhich pythonを実行すると、使用しているPythonインストールがわかります。それが「/usr/bin/python」のようなものである場合、システムからPythonを使用していますが、これは推奨されません。

迅速なインストールとパッケージおよび依存関係の更新には、condaを使用することを強くお勧めします。pandasの簡単なインストール手順は、このドキュメントにあります。

ソースからのインストール#

gitソースツリーからのビルドの詳細な手順については、貢献ガイドを参照してください。さらに、pandas開発環境を作成する場合は、開発環境の作成を参照してください。

pandasの開発バージョンのインストール#

開発バージョンをインストールすることは、次の最も簡単な方法です。

  • 次のリリースで出荷される予定の新機能(つまり、最近mainブランチにマージされたプルリクエストからの機能)を試す。

  • 発生したバグが、前回のリリース以降に修正されたかどうかを確認する。

開発バージョンは通常、anaconda.orgのPyPIレジストリからscientific-python-nightly-wheelsインデックスに毎日アップロードされます。これは、次を実行してインストールできます。

pip install --pre --extra-index https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas

開発バージョンをインストールするには、既存のpandasバージョンをアンインストールする必要がある場合があることに注意してください。

pip uninstall pandas -y

テストスイートの実行#

pandasには、徹底的なユニットテストセットが装備されています。テストの実行に必要なパッケージは、pip install "pandas[test]"でインストールできます。Pythonターミナルからテストを実行するには、次のようにします。

>>> import pandas as pd
>>> pd.test()
running: pytest -m "not slow and not network and not db" /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

これは、表示される情報の例にすぎません。テストの失敗は、pandasのインストールが壊れていることを必ずしも示すものではありません。

依存関係#

必須の依存関係#

pandasには、次の依存関係が必要です。

パッケージ

サポートされている最小バージョン

NumPy

1.22.4

python-dateutil

2.8.2

pytz

2020.1

tzdata

2022.7

オプションの依存関係#

pandasには、特定のメソッドでのみ使用される多くのオプションの依存関係があります。たとえば、pandas.read_hdf()にはpytablesパッケージが必要ですが、DataFrame.to_markdown()にはtabulateパッケージが必要です。オプションの依存関係がインストールされていない場合、pandasは、その依存関係を必要とするメソッドが呼び出されたときにImportErrorを発生させます。

pipを使用する場合、オプションのpandas依存関係は、オプションのエクストラとして(例:pandas[performance, aws])ファイル(例:requirements.txtまたはpyproject.toml)でインストールまたは管理できます。すべてのオプションの依存関係はpandas[all]でインストールでき、特定の依存関係のセットは以下のセクションにリストされています。

視覚化#

pip install "pandas[plot, output-formatting]"でインストール可能。

依存関係

最小バージョン

pipエクストラ

matplotlib

3.6.3

plot

プロットライブラリ

Jinja2

3.1.2

output-formatting

DataFrame.styleを使用した条件付きフォーマット

tabulate

0.9.0

output-formatting

Markdownフレンドリーな形式での印刷(tabulateを参照)

計算#

pip install "pandas[computation]"でインストール可能。

依存関係

最小バージョン

pipエクストラ

SciPy

1.10.0

computation

その他の統計関数

xarray

2022.12.0

computation

N次元データのpandasのようなAPI

Excelファイル#

pip install "pandas[excel]"でインストール可能。

依存関係

最小バージョン

pipエクストラ

xlrd

2.0.1

excel

Excelの読み取り

xlsxwriter

3.0.5

excel

Excelの書き込み

openpyxl

3.1.0

excel

xlsxファイルの読み取り/書き込み

pyxlsb

1.0.10

excel

xlsbファイルの読み取り

python-calamine

0.1.7

excel

xls/xlsx/xlsb/odsファイルの読み取り

HTML#

pip install "pandas[html]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

BeautifulSoup4

4.11.2

html

read_html用のHTMLパーサー

html5lib

1.1

html

read_html用のHTMLパーサー

lxml

4.9.2

html

read_html用のHTMLパーサー

トップレベルのread_html()関数を使用するには、以下のライブラリの組み合わせのいずれかが必要です。

警告

XML#

pip install "pandas[xml]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

lxml

4.9.2

xml

read_xml用のXMLパーサーとto_xml用のツリービルダー

SQLデータベース#

従来のドライバーは、pip install "pandas[postgresql, mysql, sql-other]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

SQLAlchemy

2.0.0

postgresql、mysql、sql-other

sqlite以外のデータベースのSQLサポート

psycopg2

2.9.6

postgresql

sqlalchemy用のPostgreSQLエンジン

pymysql

1.0.2

mysql

sqlalchemy用のMySQLエンジン

adbc-driver-postgresql

0.8.0

postgresql

PostgreSQL用のADBCドライバー

adbc-driver-sqlite

0.8.0

sql-other

SQLite用のADBCドライバー

その他のデータソース#

pip install "pandas[hdf5, parquet, feather, spss, excel]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

PyTables

3.8.0

hdf5

HDF5ベースの読み取り/書き込み

blosc

1.21.3

hdf5

HDF5の圧縮。condaでのみ利用可能です。

zlib

hdf5

HDF5の圧縮

fastparquet

2022.12.0

Parquetの読み取り/書き込み(pyarrowがデフォルト)

pyarrow

10.0.1

parquet、feather

Parquet、ORC、およびfeatherの読み取り/書き込み

pyreadstat

1.2.0

spss

SPSSファイル(.sav)の読み取り

odfpy

1.4.1

excel

オープン ドキュメント フォーマット(.odf、.ods、.odt)の読み取り/書き込み

警告

  • read_orc()を使用する場合は、condaを使用してpyarrowをインストールすることを強くお勧めします。read_orc()は、pyarrowがpypiからインストールされた場合、失敗する可能性があり、read_orc()はWindows OSと互換性がありません。

クラウドでのデータアクセス#

pip install "pandas[fss, aws, gcp]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

fsspec

2022.11.0

fss、gcp、aws

単純なローカルおよびHTTP以外のファイルの処理(s3fs、gcsfsの必須依存関係)。

gcsfs

2022.11.0

gcp

Google Cloud Storageへのアクセス

pandas-gbq

0.19.0

gcp

Google BigQueryへのアクセス

s3fs

2022.11.0

aws

Amazon S3へのアクセス

クリップボード#

pip install "pandas[clipboard]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

PyQt4/PyQt5

5.15.9

clipboard

クリップボードI/O

qtpy

2.3.0

clipboard

クリップボードI/O

オペレーティングシステムによっては、システムレベルのパッケージをインストールする必要がある場合があります。Linuxでクリップボードを動作させるには、CLIツールxclipまたはxselのいずれかがシステムにインストールされている必要があります。

圧縮#

pip install "pandas[compression]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

Zstandard

0.19.0

compression

Zstandard圧縮

コンソーシアム標準#

pip install "pandas[consortium-standard]"でインストールできます。

依存関係

最小バージョン

pipエクストラ

dataframe-api-compat

0.1.7

consortium-standard

pandasに基づいたコンソーシアム標準互換の実装