インストール#

pandasをインストールする最も簡単な方法は、データ分析と科学計算のためのクロスプラットフォーム配布であるAnacondaディストリビューションの一部としてインストールすることです。Condaパッケージマネージャーは、ほとんどのユーザーに推奨されるインストール方法です。

ソースからPyPIから、または開発バージョンのインストール手順も提供されています。

Pythonバージョンのサポート#

公式にはPython 3.9、3.10、3.11、3.12。

pandasのインストール#

Anacondaでのインストール#

Pythonの初心者にとって、Python、pandas、およびPyDataスタックを構成するパッケージ(SciPyNumPyMatplotlibその他)をインストールする最も簡単な方法は、データ分析および科学計算のためのクロスプラットフォーム(Linux、macOS、Windows)PythonディストリビューションであるAnacondaを使用することです。Anacondaのインストール手順はこちらで確認できます

Minicondaでのインストール#

Pythonの経験者にとって、pandasをインストールする推奨される方法はMinicondaを使用することです。Minicondaを使用すると、Anacondaと比較して最小限の自己完結型Pythonインストールを作成し、Condaパッケージマネージャーを使用して追加のパッケージをインストールし、インストール用の仮想環境を作成できます。Minicondaのインストール手順はこちらで確認できます

次のステップは、新しいconda環境を作成することです。conda環境は、特定のバージョンのPythonとライブラリのセットを指定できるvirtualenvのようなものです。ターミナルウィンドウから以下のコマンドを実行します。

conda create -c conda-forge -n name_of_my_env python pandas

これにより、Pythonとpandasのみがインストールされた最小限の環境が作成されます。この環境に入るには、以下を実行します。

source activate name_of_my_env
# On Windows
activate name_of_my_env

PyPIからのインストール#

pandasはPyPIからpip経由でインストールできます。

pip install pandas

PyPIからインストールするにはpip>=19.3が必要です。

Python標準ライブラリのvenvなどを使用して、仮想環境からpandasをインストールして実行することをお勧めします。

pandasは、特定の機能を有効にするためのオプションの依存関係のセットと一緒にインストールすることもできます。たとえば、Excelファイルを読み取るためのオプションの依存関係と一緒にpandasをインストールするには。

pip install "pandas[excel]"

インストールできる追加機能の完全なリストは、依存関係のセクションで見つけることができます。

ImportErrorの処理#

ImportErrorが発生した場合、それは通常、Pythonが利用可能なライブラリのリストでpandasを見つけられなかったことを意味します。Pythonは内部的にパッケージを検索するためのディレクトリのリストを持っています。これらのディレクトリは以下で取得できます。

import sys
sys.path

このエラーに遭遇する可能性のある1つの方法は、システムに複数のPythonインストールがあり、現在使用しているPythonインストールにpandasがインストールされていない場合です。Linux/Macでは、ターミナルでwhich pythonを実行すると、どのPythonインストールを使用しているかがわかります。それが「/usr/bin/python」のようなものである場合、システムのPythonを使用しており、これは推奨されません。

迅速なインストールとパッケージおよび依存関係の更新には、condaを使用することを強くお勧めします。pandasの簡単なインストール手順はこのドキュメントで見つけることができます。

ソースからのインストール#

gitソースツリーからビルドするための完全な手順については、貢献ガイドを参照してください。さらに、pandas開発環境を作成する場合は、開発環境の作成を参照してください。

pandas開発バージョンのインストール#

開発バージョンのインストールは、以下の目的で最も迅速な方法です。

  • 次回のリリースで提供される新機能(つまり、最近メインブランチにマージされたプルリクエストからの機能)を試す。

  • 前回リリース以降に遭遇したバグが修正されているかどうかを確認する。

開発バージョンは通常、anaconda.orgのPyPIレジストリからscientific-python-nightly-wheelsインデックスに毎日アップロードされます。以下を実行してインストールできます。

pip install --pre --extra-index https://pypi.anaconda.org/scientific-python-nightly-wheels/simple pandas

開発バージョンをインストールするには、既存のpandasバージョンをアンインストールする必要がある場合があります。

pip uninstall pandas -y

テストスイートの実行#

pandasには、包括的な単体テストが用意されています。テストを実行するために必要なパッケージは、pip install "pandas[test]"でインストールできます。Pythonターミナルからテストを実行するには。

>>> import pandas as pd
>>> pd.test()
running: pytest -m "not slow and not network and not db" /home/user/anaconda3/lib/python3.9/site-packages/pandas

============================= test session starts ==============================
platform linux -- Python 3.9.7, pytest-6.2.5, py-1.11.0, pluggy-1.0.0
rootdir: /home/user
plugins: dash-1.19.0, anyio-3.5.0, hypothesis-6.29.3
collected 154975 items / 4 skipped / 154971 selected
........................................................................ [  0%]
........................................................................ [ 99%]
.......................................                                  [100%]

==================================== ERRORS ====================================

=================================== FAILURES ===================================

=============================== warnings summary ===============================

=========================== short test summary info ============================

= 1 failed, 146194 passed, 7402 skipped, 1367 xfailed, 5 xpassed, 197 warnings, 10 errors in 1090.16s (0:18:10) =

これは表示される情報の一例です。テストの失敗は必ずしもpandasのインストールが壊れていることを示すものではありません。

依存関係#

必須依存関係#

pandasには以下の依存関係が必要です。

パッケージ

サポートされる最小バージョン

NumPy

1.22.4

python-dateutil

2.8.2

pytz

2020.1

tzdata

2022.7

オプションの依存関係#

pandasには、特定のメソッドでのみ使用される多くのオプションの依存関係があります。たとえば、pandas.read_hdf()にはpytablesパッケージが必要であり、DataFrame.to_markdown()にはtabulateパッケージが必要です。オプションの依存関係がインストールされていない場合、その依存関係を必要とするメソッドが呼び出されたときにpandasはImportErrorを発生させます。

pipを使用する場合、オプションのpandas依存関係は、オプションのエキストラ(例: pandas[performance, aws])としてファイル(例: requirements.txtまたはpyproject.toml)でインストールまたは管理できます。すべてのオプションの依存関係はpandas[all]でインストールでき、特定の依存関係のセットは以下のセクションにリストされています。

視覚化#

pip install "pandas[plot, output-formatting]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

matplotlib

3.6.3

プロット

プロットライブラリ

Jinja2

3.1.2

出力フォーマット

DataFrame.styleによる条件付きフォーマット

表計算

0.9.0

出力フォーマット

Markdownフレンドリーな形式での印刷(tabulateを参照)

計算#

pip install "pandas[computation]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

SciPy

1.10.0

計算

その他の統計関数

xarray

2022.12.0

計算

N次元データのためのpandasライクなAPI

Excelファイル#

pip install "pandas[excel]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

xlrd

2.0.1

Excel

Excelの読み込み

xlsxwriter

3.0.5

Excel

Excelへの書き込み

openpyxl

3.1.0

Excel

xlsxファイルの読み書き

pyxlsb

1.0.10

Excel

xlsbファイルの読み込み

python-calamine

0.1.7

Excel

xls/xlsx/xlsb/odsファイルの読み込み

HTML#

pip install "pandas[html]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

BeautifulSoup4

4.11.2

HTML

read_html用のHTMLパーサー

html5lib

1.1

HTML

read_html用のHTMLパーサー

lxml

4.9.2

HTML

read_html用のHTMLパーサー

トップレベルのread_html()関数を使用するには、以下のライブラリの組み合わせのいずれかが必要です

警告

  • BeautifulSoup4をインストールする場合、lxmlまたはhtml5lib、またはその両方をインストールする必要があります。read_html()は、BeautifulSoup4のみインストールされている状態では動作しません

  • HTML Table Parsing gotchasを読むことを強くお勧めします。これは、上記の3つのライブラリのインストールと使用に関する問題を説明しています。

XML#

pip install "pandas[xml]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

lxml

4.9.2

XML

read_xml用のXMLパーサーとto_xml用のツリービルダー

SQLデータベース#

従来のドライバーはpip install "pandas[postgresql, mysql, sql-other]"でインストール可能

依存関係

最小バージョン

pip extra

注記

SQLAlchemy

2.0.0

postgresql, mysql, sql-other

sqlite以外のデータベースのSQLサポート

psycopg2

2.9.6

postgresql

SQLAlchemy用のPostgreSQLエンジン

pymysql

1.0.2

mysql

SQLAlchemy用のMySQLエンジン

adbc-driver-postgresql

0.8.0

postgresql

PostgreSQL用ADBCドライバー

adbc-driver-sqlite

0.8.0

sql-other

SQLite用ADBCドライバー

その他のデータソース#

pip install "pandas[hdf5, parquet, feather, spss, excel]"でインストール可能

依存関係

最小バージョン

pip extra

注記

PyTables

3.8.0

hdf5

HDF5ベースの読み書き

blosc

1.21.3

hdf5

HDF5の圧縮。これはcondaでのみ利用可能です。

zlib

hdf5

HDF5の圧縮

fastparquet

2022.12.0

Parquetの読み書き(pyarrowがデフォルト)

pyarrow

10.0.1

parquet, feather

Parquet, ORC, およびfeatherの読み書き

pyreadstat

1.2.0

spss

SPSSファイル (.sav) の読み込み

odfpy

1.4.1

Excel

Open Document Format (.odf, .ods, .odt) の読み書き

警告

  • read_orc()を使用する場合は、condaを使用してpyarrowをインストールすることを強くお勧めします。pyarrowがpypiからインストールされた場合、read_orc()は失敗する可能性があり、read_orc()はWindows OSと互換性がありません。

クラウドのデータにアクセスする#

pip install "pandas[fss, aws, gcp]"でインストール可能

依存関係

最小バージョン

pip extra

注記

fsspec

2022.11.0

fss, gcp, aws

単純なローカルファイルやHTTP以外のファイルの処理 (s3fs, gcsfsの必須依存関係)。

gcsfs

2022.11.0

gcp

Google Cloud Storageへのアクセス

pandas-gbq

0.19.0

gcp

Google Big Queryへのアクセス

s3fs

2022.11.0

aws

Amazon S3へのアクセス

クリップボード#

pip install "pandas[clipboard]"でインストール可能。

依存関係

最小バージョン

pip extra

注記

PyQt4/PyQt5

5.15.9

クリップボード

クリップボードI/O

qtpy

2.3.0

クリップボード

クリップボードI/O

OSによっては、システムレベルのパッケージをインストールする必要がある場合があります。Linuxでクリップボードを動作させるには、CLIツールxclipまたはxselのいずれかがシステムにインストールされている必要があります。

圧縮#

pip install "pandas[compression]"でインストール可能

依存関係

最小バージョン

pip extra

注記

Zstandard

0.19.0

圧縮

Zstandard圧縮

コンソーシアム標準#

pip install "pandas[consortium-standard]"でインストール可能

依存関係

最小バージョン

pip extra

注記

dataframe-api-compat

0.1.7

コンソーシアム標準

pandasに基づいたコンソーシアム標準互換の実装