はじめに#

インストール#

condaを使っていますか?

pandasはAnacondaディストリビューションの一部であり、AnacondaまたはMinicondaでインストールできます。

pipを使いたいですか?

pandasはPyPIからpip経由でインストールできます。

詳細な手順は?

特定のバージョンをインストールしますか? ソースからインストールしますか? 詳細なインストールページを確認してください。

pandas入門#

スプレッドシートやデータベースに保存されているデータなどの表形式のデータを扱う場合、pandasは最適なツールです。 pandasは、データの探索、クリーニング、処理に役立ちます。 pandasでは、データテーブルはDataFrameと呼ばれます。

../_images/01_table_dataframe.svg

pandasは、多くのファイル形式やデータソース(csv、excel、sql、json、parquetなど)との統合をすぐにサポートしています。 これらの各データソースからのデータのインポートは、プレフィックスread_*が付いた関数によって提供されます。 同様に、to_*メソッドはデータを保存するために使用されます。

../_images/02_io_readwrite.svg

特定の行または列を選択またはフィルタリングしますか? 条件に基づいてデータをフィルタリングしますか? スライス、選択、および必要なデータの抽出のためのメソッドがpandasで利用可能です。

../_images/03_subset_columns_rows.svg

pandasは、Matplotlibの機能を使用して、すぐにデータをプロットできます。 データに対応するプロットタイプ(散布図、棒グラフ、箱ひげ図など)を選択できます。

../_images/04_plot_overview.svg

計算を行うために、データテーブルのすべての行をループする必要はありません。 列に対するデータ操作は要素ごとに機能します。 他の列の既存のデータに基づいてDataFrameに列を追加するのは簡単です。

../_images/05_newcolumn_2.svg

基本的な統計量(平均、中央値、最小値、最大値、カウントなど)は簡単に計算できます。 これらまたはカスタム集計は、データセット全体、データのスライディングウィンドウ、またはカテゴリ別にグループ化して適用できます。 後者は、分割-適用-結合アプローチとしても知られています。

../_images/06_groupby.svg

データテーブルの構造をさまざまな方法で変更します。 データテーブルをワイド形式からロング/タイディ形式にmelt()したり、ロング形式からワイド形式にpivot()したりできます。 集計が組み込まれているため、ピボットテーブルは単一のコマンドで作成されます。

../_images/07_melt.svg

データベースのような結合/マージ操作が複数のデータテーブルを結合するために提供されるため、複数のテーブルを列方向と行方向の両方で連結できます。

../_images/08_concat_row.svg

pandasは時系列を強力にサポートしており、日付、時刻、および時間索引データの操作のための広範なツールセットを備えています。

データセットには数値データだけが含まれているわけではありません。 pandasは、テキストデータをクリーニングし、そこから有用な情報を抽出するための幅広い関数を備えています。

からの移行#

表形式データを操作するための他のソフトウェアに精通していますか? 既に知っているソフトウェアと比較して、pandasで同等の操作を学びましょう。

Rプログラミング言語は、data.frameデータ構造と、tidyverseなどの複数のパスケージを提供し、pandasと同様に便利なデータ処理機能のためにdata.frameを使用および拡張します。

既にSELECTGROUP BYJOINなどに精通していますか? これらのSQL操作のほとんどは、pandasで同等のものがあります。

STATA統計ソフトウェアスイートに含まれるdata setは、pandasのDataFrameに対応しています。 STATAで知られている操作の多くは、pandasで同等のものがあります。

Excelなどのスプレッドシートプログラムのユーザーは、多くの概念がpandasに転送可能であることに気付くでしょう。

SAS統計ソフトウェアスイートも、pandasのDataFrameに対応するdata setを提供しています。 また、SASのベクトル化操作、フィルタリング、文字列処理操作なども、pandasで同様の関数を持っています。

チュートリアル#

pandasの機能の概要については、pandas 10分入門を参照してください。

また、pandasのチートシートを参照して、pandasでデータを操作するための簡潔なガイドを入手することもできます。

コミュニティは、オンラインで利用できるさまざまなチュートリアルを作成しています。 一部の資料は、コミュニティが貢献したコミュニティチュートリアルに掲載されています。