はじめに#
インストール#
pandas の概要#
スプレッドシートやデータベースに保存されているような表形式データを扱う場合、pandas は最適なツールです。pandas はデータの探索、クリーニング、処理をサポートします。pandas では、データテーブルは DataFrame と呼ばれます。
pandas は、多くのファイル形式やデータソース (csv, excel, sql, json, parquet など) との統合をそのままサポートしています。これらのデータソースからのデータインポートは、read_* のプレフィックスを持つ関数によって提供されます。同様に、to_* メソッドはデータを保存するために使用されます。
特定の行や列を選択またはフィルタリングしますか?条件に基づいてデータをフィルタリングしますか?必要なデータをスライス、選択、抽出するためのメソッドが pandas で利用できます。
pandas は Matplotlib の力を利用して、データをそのままプロットする機能を提供します。データに対応するプロットタイプ (散布図、棒グラフ、ボックスプロットなど) を選択できます。
計算のためにデータテーブルのすべての行をループする必要はありません。列に対するデータ操作は要素ごとに行われます。他の列の既存データに基づいて DataFrame に列を追加するのは簡単です。
基本的な統計量 (平均、中央値、最小値、最大値、カウントなど) は簡単に計算できます。これらまたはカスタム集計は、データセット全体、データの移動ウィンドウ、またはカテゴリ別にグループ化して適用できます。後者は、split-apply-combine アプローチとしても知られています。
pandas は時系列データを強力にサポートしており、日付、時刻、時刻インデックス付きデータを扱うための幅広いツールセットを備えています。
データセットには数値データだけが含まれているわけではありません。pandas は、テキストデータをクリーニングし、そこから有用な情報を抽出するための幅広い機能を提供します。
…から移行する#
表形式データを操作する他のソフトウェアに精通していますか?既に知っているソフトウェアと比較して、pandas の同等の操作を学びましょう。
R プログラミング言語は data.frame データ構造を提供し、tidyverse のような複数のパッケージが data.frame を使用して拡張し、pandas と同様の便利なデータ処理機能を提供しています。
SELECT、GROUP BY、JOIN などに既に慣れていますか?これらの SQL 操作のほとんどは pandas にも同等のものがあります。
STATA 統計ソフトウェアスイートに含まれる data set は、pandas の DataFrame に相当します。STATA で知られている多くの操作は pandas にも同等のものがあります。
Excel や他のスプレッドシートプログラムのユーザーは、多くの概念が pandas にも適用可能であることに気づくでしょう。
SAS 統計ソフトウェアスイートも、pandas の DataFrame に相当する data set を提供しています。SAS のベクトル化された操作、フィルタリング、文字列処理操作なども、pandas に同様の機能があります。
チュートリアル#
pandas の機能の概要については、10 Minutes to pandas を参照してください。
pandas を使ったデータ操作の簡潔なガイドとして、pandas の チートシートも参照できます。
コミュニティは、オンラインで利用可能な多種多様なチュートリアルを作成しています。一部の資料は、コミュニティが寄稿した コミュニティチュートリアルに記載されています。