はじめに#
インストール#
pandas入門#
スプレッドシートやデータベースに保存されているデータなどの表形式のデータを扱う場合、pandasは最適なツールです。 pandasは、データの探索、クリーニング、処理に役立ちます。 pandasでは、データテーブルはDataFrame
と呼ばれます。
pandasは、多くのファイル形式やデータソース(csv、excel、sql、json、parquetなど)との統合をすぐにサポートしています。 これらの各データソースからのデータのインポートは、プレフィックスread_*
が付いた関数によって提供されます。 同様に、to_*
メソッドはデータを保存するために使用されます。
特定の行または列を選択またはフィルタリングしますか? 条件に基づいてデータをフィルタリングしますか? スライス、選択、および必要なデータの抽出のためのメソッドがpandasで利用可能です。
pandasは、Matplotlibの機能を使用して、すぐにデータをプロットできます。 データに対応するプロットタイプ(散布図、棒グラフ、箱ひげ図など)を選択できます。
計算を行うために、データテーブルのすべての行をループする必要はありません。 列に対するデータ操作は要素ごとに機能します。 他の列の既存のデータに基づいてDataFrame
に列を追加するのは簡単です。
基本的な統計量(平均、中央値、最小値、最大値、カウントなど)は簡単に計算できます。 これらまたはカスタム集計は、データセット全体、データのスライディングウィンドウ、またはカテゴリ別にグループ化して適用できます。 後者は、分割-適用-結合アプローチとしても知られています。
pandasは時系列を強力にサポートしており、日付、時刻、および時間索引データの操作のための広範なツールセットを備えています。
データセットには数値データだけが含まれているわけではありません。 pandasは、テキストデータをクリーニングし、そこから有用な情報を抽出するための幅広い関数を備えています。
からの移行#
表形式データを操作するための他のソフトウェアに精通していますか? 既に知っているソフトウェアと比較して、pandasで同等の操作を学びましょう。
Rプログラミング言語は、data.frame
データ構造と、tidyverseなどの複数のパスケージを提供し、pandasと同様に便利なデータ処理機能のためにdata.frame
を使用および拡張します。
既にSELECT
、GROUP BY
、JOIN
などに精通していますか? これらのSQL操作のほとんどは、pandasで同等のものがあります。
STATA統計ソフトウェアスイートに含まれるdata set
は、pandasのDataFrame
に対応しています。 STATAで知られている操作の多くは、pandasで同等のものがあります。
Excelなどのスプレッドシートプログラムのユーザーは、多くの概念がpandasに転送可能であることに気付くでしょう。
SAS統計ソフトウェアスイートも、pandasのDataFrame
に対応するdata set
を提供しています。 また、SASのベクトル化操作、フィルタリング、文字列処理操作なども、pandasで同様の関数を持っています。
チュートリアル#
pandasの機能の概要については、pandas 10分入門を参照してください。
また、pandasのチートシートを参照して、pandasでデータを操作するための簡潔なガイドを入手することもできます。
コミュニティは、オンラインで利用できるさまざまなチュートリアルを作成しています。 一部の資料は、コミュニティが貢献したコミュニティチュートリアルに掲載されています。