インストール#
pandasをインストールする最も簡単な方法は、データ分析と科学計算のためのクロスプラットフォーム配布であるAnacondaディストリビューションの一部としてインストールすることです。Condaパッケージマネージャーは、ほとんどのユーザーに推奨されるインストール方法です。
ソースから、PyPIから、または開発バージョンのインストール手順も提供されています。
Pythonバージョンのサポート#
公式にはPython 3.9、3.10、3.11、3.12。
pandasのインストール#
Anacondaでのインストール#
Pythonの初心者にとって、Python、pandas、およびPyDataスタックを構成するパッケージ(SciPy、NumPy、Matplotlib、その他)をインストールする最も簡単な方法は、データ分析および科学計算のためのクロスプラットフォーム(Linux、macOS、Windows)PythonディストリビューションであるAnacondaを使用することです。Anacondaのインストール手順はこちらで確認できます。
Minicondaでのインストール#
Pythonの経験者にとって、pandasをインストールする推奨される方法はMinicondaを使用することです。Minicondaを使用すると、Anacondaと比較して最小限の自己完結型Pythonインストールを作成し、Condaパッケージマネージャーを使用して追加のパッケージをインストールし、インストール用の仮想環境を作成できます。Minicondaのインストール手順はこちらで確認できます。
次のステップは、新しいconda環境を作成することです。conda環境は、特定のバージョンのPythonとライブラリのセットを指定できるvirtualenvのようなものです。ターミナルウィンドウから以下のコマンドを実行します。
conda create -c conda-forge -n name_of_my_env python pandas
これにより、Pythonとpandasのみがインストールされた最小限の環境が作成されます。この環境に入るには、以下を実行します。
source activate name_of_my_env
# On Windows
activate name_of_my_env
PyPIからのインストール#
pandasはPyPIからpip経由でインストールできます。
pip install pandas
注
PyPIからインストールするにはpip>=19.3が必要です。
注
Python標準ライブラリのvenvなどを使用して、仮想環境からpandasをインストールして実行することをお勧めします。
pandasは、特定の機能を有効にするためのオプションの依存関係のセットと一緒にインストールすることもできます。たとえば、Excelファイルを読み取るためのオプションの依存関係と一緒にpandasをインストールするには。
pip install "pandas[excel]"
インストールできる追加機能の完全なリストは、依存関係のセクションで見つけることができます。
ImportErrorの処理#
ImportErrorが発生した場合、それは通常、Pythonが利用可能なライブラリのリストでpandasを見つけられなかったことを意味します。Pythonは内部的にパッケージを検索するためのディレクトリのリストを持っています。これらのディレクトリは以下で取得できます。
import sys
sys.path
このエラーに遭遇する可能性のある1つの方法は、システムに複数のPythonインストールがあり、現在使用しているPythonインストールにpandasがインストールされていない場合です。Linux/Macでは、ターミナルでwhich pythonを実行すると、どのPythonインストールを使用しているかがわかります。それが「/usr/bin/python」のようなものである場合、システムのPythonを使用しており、これは推奨されません。
迅速なインストールとパッケージおよび依存関係の更新には、condaを使用することを強くお勧めします。pandasの簡単なインストール手順はこのドキュメントで見つけることができます。
ソースからのインストール#
gitソースツリーからビルドするための完全な手順については、貢献ガイドを参照してください。さらに、pandas開発環境を作成する場合は、開発環境の作成を参照してください。
pandas開発バージョンのインストール#
開発バージョンのインストールは、以下の目的で最も迅速な方法です。
次回のリリースで提供される新機能(つまり、最近メインブランチにマージされたプルリクエストからの機能)を試す。
前回リリース以降に遭遇したバグが修正されているかどうかを確認する。
開発バージョンは通常、anaconda.orgのPyPIレジストリからscientific-python-nightly-wheelsインデックスに毎日アップロードされます。以下を実行してインストールできます。
pip install --pre --extra-index https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas
開発バージョンをインストールするには、既存のpandasバージョンをアンインストールする必要がある場合があります。
pip uninstall pandas -y
テストスイートの実行#
pandasには、包括的な単体テストが用意されています。テストを実行するために必要なパッケージは、pip install "pandas[test]"でインストールできます。Pythonターミナルからテストを実行するには。
>>> import pandas as pd
>>> pd.test()
running: pytest -m "not slow and not network and not db" /home/user/anaconda3/lib/python3.9/site-packages/pandas
============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [ 0%]
........................................................................ [ 99%]
....................................... [100%]
==================================== ERRORS ====================================
=================================== FAILURES ===================================
=============================== warnings summary ===============================
=========================== short test summary info ============================
= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =
注
これは表示される情報の一例です。テストの失敗は必ずしもpandasのインストールが壊れていることを示すものではありません。
依存関係#
必須依存関係#
pandasには以下の依存関係が必要です。
パッケージ |
サポートされる最小バージョン |
|---|---|
1.22.4 |
|
2.8.2 |
|
2020.1 |
|
2022.7 |
オプションの依存関係#
pandasには、特定のメソッドでのみ使用される多くのオプションの依存関係があります。たとえば、pandas.read_hdf()にはpytablesパッケージが必要であり、DataFrame.to_markdown()にはtabulateパッケージが必要です。オプションの依存関係がインストールされていない場合、その依存関係を必要とするメソッドが呼び出されたときにpandasはImportErrorを発生させます。
pipを使用する場合、オプションのpandas依存関係は、オプションのエキストラ(例: pandas[performance, aws])としてファイル(例: requirements.txtまたはpyproject.toml)でインストールまたは管理できます。すべてのオプションの依存関係はpandas[all]でインストールでき、特定の依存関係のセットは以下のセクションにリストされています。
パフォーマンス依存関係(推奨)#
注
これらのライブラリは、特に大規模なデータセットを扱う場合に速度改善をもたらすため、インストールすることを強くお勧めします。
pip install "pandas[performance]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
2.8.4 |
パフォーマンス |
複数のコアとスマートなチャンキングおよびキャッシングを使用することで、特定の数値演算を高速化し、大幅な高速化を実現します |
|
1.3.6 |
パフォーマンス |
特殊なCythonルーチンを使用することで、特定の種類の |
|
0.56.4 |
パフォーマンス |
LLVMコンパイラを使用してPython関数を最適化されたマシンコードに変換するJITコンパイラを使用して、 |
視覚化#
pip install "pandas[plot, output-formatting]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
matplotlib |
3.6.3 |
プロット |
プロットライブラリ |
Jinja2 |
3.1.2 |
出力フォーマット |
DataFrame.styleによる条件付きフォーマット |
表計算 |
0.9.0 |
出力フォーマット |
Markdownフレンドリーな形式での印刷(tabulateを参照) |
計算#
pip install "pandas[computation]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
SciPy |
1.10.0 |
計算 |
その他の統計関数 |
xarray |
2022.12.0 |
計算 |
N次元データのためのpandasライクなAPI |
Excelファイル#
pip install "pandas[excel]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
xlrd |
2.0.1 |
Excel |
Excelの読み込み |
xlsxwriter |
3.0.5 |
Excel |
Excelへの書き込み |
openpyxl |
3.1.0 |
Excel |
xlsxファイルの読み書き |
pyxlsb |
1.0.10 |
Excel |
xlsbファイルの読み込み |
python-calamine |
0.1.7 |
Excel |
xls/xlsx/xlsb/odsファイルの読み込み |
HTML#
pip install "pandas[html]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
BeautifulSoup4 |
4.11.2 |
HTML |
read_html用のHTMLパーサー |
html5lib |
1.1 |
HTML |
read_html用のHTMLパーサー |
lxml |
4.9.2 |
HTML |
read_html用のHTMLパーサー |
トップレベルのread_html()関数を使用するには、以下のライブラリの組み合わせのいずれかが必要です
lxmlのみですが、このアプローチを避けるべき理由についてはHTMLテーブル解析を参照してください。
警告
BeautifulSoup4をインストールする場合、lxmlまたはhtml5lib、またはその両方をインストールする必要があります。
read_html()は、BeautifulSoup4がのみインストールされている状態では動作しません。HTML Table Parsing gotchasを読むことを強くお勧めします。これは、上記の3つのライブラリのインストールと使用に関する問題を説明しています。
XML#
pip install "pandas[xml]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
lxml |
4.9.2 |
XML |
read_xml用のXMLパーサーとto_xml用のツリービルダー |
SQLデータベース#
従来のドライバーはpip install "pandas[postgresql, mysql, sql-other]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
SQLAlchemy |
2.0.0 |
postgresql, mysql, sql-other |
sqlite以外のデータベースのSQLサポート |
psycopg2 |
2.9.6 |
postgresql |
SQLAlchemy用のPostgreSQLエンジン |
pymysql |
1.0.2 |
mysql |
SQLAlchemy用のMySQLエンジン |
adbc-driver-postgresql |
0.8.0 |
postgresql |
PostgreSQL用ADBCドライバー |
adbc-driver-sqlite |
0.8.0 |
sql-other |
SQLite用ADBCドライバー |
その他のデータソース#
pip install "pandas[hdf5, parquet, feather, spss, excel]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
PyTables |
3.8.0 |
hdf5 |
HDF5ベースの読み書き |
blosc |
1.21.3 |
hdf5 |
HDF5の圧縮。これは |
zlib |
hdf5 |
HDF5の圧縮 |
|
fastparquet |
2022.12.0 |
Parquetの読み書き(pyarrowがデフォルト) |
|
pyarrow |
10.0.1 |
parquet, feather |
Parquet, ORC, およびfeatherの読み書き |
pyreadstat |
1.2.0 |
spss |
SPSSファイル (.sav) の読み込み |
odfpy |
1.4.1 |
Excel |
Open Document Format (.odf, .ods, .odt) の読み書き |
警告
read_orc()を使用する場合は、condaを使用してpyarrowをインストールすることを強くお勧めします。pyarrowがpypiからインストールされた場合、read_orc()は失敗する可能性があり、read_orc()はWindows OSと互換性がありません。
クラウドのデータにアクセスする#
pip install "pandas[fss, aws, gcp]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
fsspec |
2022.11.0 |
fss, gcp, aws |
単純なローカルファイルやHTTP以外のファイルの処理 (s3fs, gcsfsの必須依存関係)。 |
gcsfs |
2022.11.0 |
gcp |
Google Cloud Storageへのアクセス |
pandas-gbq |
0.19.0 |
gcp |
Google Big Queryへのアクセス |
s3fs |
2022.11.0 |
aws |
Amazon S3へのアクセス |
クリップボード#
pip install "pandas[clipboard]"でインストール可能。
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
PyQt4/PyQt5 |
5.15.9 |
クリップボード |
クリップボードI/O |
qtpy |
2.3.0 |
クリップボード |
クリップボードI/O |
注
OSによっては、システムレベルのパッケージをインストールする必要がある場合があります。Linuxでクリップボードを動作させるには、CLIツールxclipまたはxselのいずれかがシステムにインストールされている必要があります。
圧縮#
pip install "pandas[compression]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
Zstandard |
0.19.0 |
圧縮 |
Zstandard圧縮 |
コンソーシアム標準#
pip install "pandas[consortium-standard]"でインストール可能
依存関係 |
最小バージョン |
pip extra |
注記 |
|---|---|---|---|
dataframe-api-compat |
0.1.7 |
コンソーシアム標準 |
pandasに基づいたコンソーシアム標準互換の実装 |