インストール#

pandasをインストールする最も簡単な方法は、データ分析と科学計算のためのクロスプラットフォーム配布であるAnacondaディストリビューションの一部としてインストールすることです。Condaパッケージマネージャーは、ほとんどのユーザーに推奨されるインストール方法です。

ソースから、PyPIから、または開発バージョンのインストール手順も提供されています。

Pythonバージョンのサポート#

公式にはPython 3.9、3.10、3.11、3.12。

pandasのインストール#

Anacondaでのインストール#

Pythonの初心者にとって、Python、pandas、およびPyDataスタックを構成するパッケージ（SciPy、NumPy、Matplotlib、その他）をインストールする最も簡単な方法は、データ分析および科学計算のためのクロスプラットフォーム（Linux、macOS、Windows）PythonディストリビューションであるAnacondaを使用することです。Anacondaのインストール手順はこちらで確認できます。

Minicondaでのインストール#

Pythonの経験者にとって、pandasをインストールする推奨される方法はMinicondaを使用することです。Minicondaを使用すると、Anacondaと比較して最小限の自己完結型Pythonインストールを作成し、Condaパッケージマネージャーを使用して追加のパッケージをインストールし、インストール用の仮想環境を作成できます。Minicondaのインストール手順はこちらで確認できます。

次のステップは、新しいconda環境を作成することです。conda環境は、特定のバージョンのPythonとライブラリのセットを指定できるvirtualenvのようなものです。ターミナルウィンドウから以下のコマンドを実行します。

conda create -c conda-forge -n name_of_my_env python pandas

これにより、Pythonとpandasのみがインストールされた最小限の環境が作成されます。この環境に入るには、以下を実行します。

source activate name_of_my_env
# On Windows
activate name_of_my_env

PyPIからのインストール#

pandasはPyPIからpip経由でインストールできます。

pip install pandas

注

PyPIからインストールするにはpip>=19.3が必要です。

注

Python標準ライブラリのvenvなどを使用して、仮想環境からpandasをインストールして実行することをお勧めします。

pandasは、特定の機能を有効にするためのオプションの依存関係のセットと一緒にインストールすることもできます。たとえば、Excelファイルを読み取るためのオプションの依存関係と一緒にpandasをインストールするには。

pip install "pandas[excel]"

インストールできる追加機能の完全なリストは、依存関係のセクションで見つけることができます。

ImportErrorの処理#

ImportErrorが発生した場合、それは通常、Pythonが利用可能なライブラリのリストでpandasを見つけられなかったことを意味します。Pythonは内部的にパッケージを検索するためのディレクトリのリストを持っています。これらのディレクトリは以下で取得できます。

import sys
sys.path

このエラーに遭遇する可能性のある1つの方法は、システムに複数のPythonインストールがあり、現在使用しているPythonインストールにpandasがインストールされていない場合です。Linux/Macでは、ターミナルでwhich pythonを実行すると、どのPythonインストールを使用しているかがわかります。それが「/usr/bin/python」のようなものである場合、システムのPythonを使用しており、これは推奨されません。

迅速なインストールとパッケージおよび依存関係の更新には、condaを使用することを強くお勧めします。pandasの簡単なインストール手順はこのドキュメントで見つけることができます。

ソースからのインストール#

gitソースツリーからビルドするための完全な手順については、貢献ガイドを参照してください。さらに、pandas開発環境を作成する場合は、開発環境の作成を参照してください。

pandas開発バージョンのインストール#

開発バージョンのインストールは、以下の目的で最も迅速な方法です。

次回のリリースで提供される新機能（つまり、最近メインブランチにマージされたプルリクエストからの機能）を試す。
前回リリース以降に遭遇したバグが修正されているかどうかを確認する。

開発バージョンは通常、anaconda.orgのPyPIレジストリからscientific-python-nightly-wheelsインデックスに毎日アップロードされます。以下を実行してインストールできます。

pip install --pre --extra-index https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas

開発バージョンをインストールするには、既存のpandasバージョンをアンインストールする必要がある場合があります。

pip uninstall pandas -y

テストスイートの実行#

pandasには、包括的な単体テストが用意されています。テストを実行するために必要なパッケージは、pip install "pandas[test]"でインストールできます。Pythonターミナルからテストを実行するには。

>>> import pandas as pd
>>> pd.test()
running: pytest -m "not slow and not network and not db" /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

注

これは表示される情報の一例です。テストの失敗は必ずしもpandasのインストールが壊れていることを示すものではありません。

依存関係#

必須依存関係#

pandasには以下の依存関係が必要です。

パッケージ	サポートされる最小バージョン
NumPy	1.22.4
python-dateutil	2.8.2
pytz	2020.1
tzdata	2022.7

オプションの依存関係#

pandasには、特定のメソッドでのみ使用される多くのオプションの依存関係があります。たとえば、pandas.read_hdf()にはpytablesパッケージが必要であり、DataFrame.to_markdown()にはtabulateパッケージが必要です。オプションの依存関係がインストールされていない場合、その依存関係を必要とするメソッドが呼び出されたときにpandasはImportErrorを発生させます。

pipを使用する場合、オプションのpandas依存関係は、オプションのエキストラ（例: pandas[performance, aws]）としてファイル（例: requirements.txtまたはpyproject.toml）でインストールまたは管理できます。すべてのオプションの依存関係はpandas[all]でインストールでき、特定の依存関係のセットは以下のセクションにリストされています。

パフォーマンス依存関係（推奨）#

注

これらのライブラリは、特に大規模なデータセットを扱う場合に速度改善をもたらすため、インストールすることを強くお勧めします。

pip install "pandas[performance]"でインストール可能

依存関係	最小バージョン	pip extra	注記
numexpr	2.8.4	パフォーマンス	複数のコアとスマートなチャンキングおよびキャッシングを使用することで、特定の数値演算を高速化し、大幅な高速化を実現します
bottleneck	1.3.6	パフォーマンス	特殊なCythonルーチンを使用することで、特定の種類の`nan`を高速化し、大幅な高速化を実現します。
numba	0.56.4	パフォーマンス	LLVMコンパイラを使用してPython関数を最適化されたマシンコードに変換するJITコンパイラを使用して、`engine="numba"`を受け入れる操作の代替実行エンジン。

視覚化#

pip install "pandas[plot, output-formatting]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
matplotlib	3.6.3	プロット	プロットライブラリ
Jinja2	3.1.2	出力フォーマット	DataFrame.styleによる条件付きフォーマット
表計算	0.9.0	出力フォーマット	Markdownフレンドリーな形式での印刷（tabulateを参照）

計算#

pip install "pandas[computation]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
SciPy	1.10.0	計算	その他の統計関数
xarray	2022.12.0	計算	N次元データのためのpandasライクなAPI

Excelファイル#

pip install "pandas[excel]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
xlrd	2.0.1	Excel	Excelの読み込み
xlsxwriter	3.0.5	Excel	Excelへの書き込み
openpyxl	3.1.0	Excel	xlsxファイルの読み書き
pyxlsb	1.0.10	Excel	xlsbファイルの読み込み
python-calamine	0.1.7	Excel	xls/xlsx/xlsb/odsファイルの読み込み

HTML#

pip install "pandas[html]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
BeautifulSoup4	4.11.2	HTML	read_html用のHTMLパーサー
html5lib	1.1	HTML	read_html用のHTMLパーサー
lxml	4.9.2	HTML	read_html用のHTMLパーサー

トップレベルのread_html()関数を使用するには、以下のライブラリの組み合わせのいずれかが必要です

BeautifulSoup4とhtml5lib
BeautifulSoup4とlxml
BeautifulSoup4とhtml5libとlxml
lxmlのみですが、このアプローチを避けるべき理由についてはHTMLテーブル解析を参照してください。

警告

BeautifulSoup4をインストールする場合、lxmlまたはhtml5lib、またはその両方をインストールする必要があります。read_html()は、BeautifulSoup4がのみインストールされている状態では動作しません。
HTML Table Parsing gotchasを読むことを強くお勧めします。これは、上記の3つのライブラリのインストールと使用に関する問題を説明しています。

XML#

pip install "pandas[xml]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
lxml	4.9.2	XML	read_xml用のXMLパーサーとto_xml用のツリービルダー

SQLデータベース#

従来のドライバーはpip install "pandas[postgresql, mysql, sql-other]"でインストール可能

依存関係	最小バージョン	pip extra	注記
SQLAlchemy	2.0.0	postgresql, mysql, sql-other	sqlite以外のデータベースのSQLサポート
psycopg2	2.9.6	postgresql	SQLAlchemy用のPostgreSQLエンジン
pymysql	1.0.2	mysql	SQLAlchemy用のMySQLエンジン
adbc-driver-postgresql	0.8.0	postgresql	PostgreSQL用ADBCドライバー
adbc-driver-sqlite	0.8.0	sql-other	SQLite用ADBCドライバー

その他のデータソース#

pip install "pandas[hdf5, parquet, feather, spss, excel]"でインストール可能

依存関係	最小バージョン	pip extra	注記
PyTables	3.8.0	hdf5	HDF5ベースの読み書き
blosc	1.21.3	hdf5	HDF5の圧縮。これは`conda`でのみ利用可能です。
zlib		hdf5	HDF5の圧縮
fastparquet	2022.12.0		Parquetの読み書き（pyarrowがデフォルト）
pyarrow	10.0.1	parquet, feather	Parquet, ORC, およびfeatherの読み書き
pyreadstat	1.2.0	spss	SPSSファイル (.sav) の読み込み
odfpy	1.4.1	Excel	Open Document Format (.odf, .ods, .odt) の読み書き

警告

read_orc()を使用する場合は、condaを使用してpyarrowをインストールすることを強くお勧めします。pyarrowがpypiからインストールされた場合、read_orc()は失敗する可能性があり、read_orc()はWindows OSと互換性がありません。

クラウドのデータにアクセスする#

pip install "pandas[fss, aws, gcp]"でインストール可能

依存関係	最小バージョン	pip extra	注記
fsspec	2022.11.0	fss, gcp, aws	単純なローカルファイルやHTTP以外のファイルの処理 (s3fs, gcsfsの必須依存関係)。
gcsfs	2022.11.0	gcp	Google Cloud Storageへのアクセス
pandas-gbq	0.19.0	gcp	Google Big Queryへのアクセス
s3fs	2022.11.0	aws	Amazon S3へのアクセス

クリップボード#

pip install "pandas[clipboard]"でインストール可能。

依存関係	最小バージョン	pip extra	注記
PyQt4/PyQt5	5.15.9	クリップボード	クリップボードI/O
qtpy	2.3.0	クリップボード	クリップボードI/O

注

OSによっては、システムレベルのパッケージをインストールする必要がある場合があります。Linuxでクリップボードを動作させるには、CLIツールxclipまたはxselのいずれかがシステムにインストールされている必要があります。

圧縮#

pip install "pandas[compression]"でインストール可能

依存関係	最小バージョン	pip extra	注記
Zstandard	0.19.0	圧縮	Zstandard圧縮

コンソーシアム標準#

pip install "pandas[consortium-standard]"でインストール可能

依存関係	最小バージョン	pip extra	注記
dataframe-api-compat	0.1.7	コンソーシアム標準	pandasに基づいたコンソーシアム標準互換の実装