pandasについて
開発の歴史
2008年、AQRキャピタル・マネジメントでpandasの開発が始まりました。2009年末にはオープンソース化され、現在では世界中の志を同じくする個人コミュニティによって積極的にサポートされており、彼らは貴重な時間とエネルギーを捧げてオープンソースのpandasを可能にしています。すべての貢献者の皆様に感謝いたします。
2015年以降、pandasはNumFOCUSのスポンサープロジェクトとなっています。これは、pandasが世界クラスのオープンソースプロジェクトとして成功するための開発を確実にするのに役立つでしょう。
タイムライン
- 2008年: pandasの開発が開始
- 2009年: pandasがオープンソース化
- 2012年: 『Pythonによるデータ分析入門』初版発行
- 2015年: pandasがNumFOCUSのスポンサープロジェクトになる
- 2018年: 初めての対面でのコア開発者スプリント
ライブラリのハイライト
-
統合されたインデックスを持つデータ操作のための高速で効率的なDataFrameオブジェクト。
-
インメモリデータ構造と異なる形式(CSVおよびテキストファイル、Microsoft Excel、SQLデータベース、高速HDF5形式)の間でデータを読み書きするためのツール。
-
インテリジェントなデータアライメントと欠損データの統合された処理:計算における自動的なラベルベースのアライメントと、乱雑なデータを整然とした形式に簡単に操作する機能。
-
データセットの柔軟な再整形とピボット。
-
大規模データセットのインテリジェントなラベルベースのスライス、ファンシーインデックス、サブセット化。
-
サイズ変更可能なデータ構造への列の挿入および削除。
-
データセットに対してスプリット・アプライ・コンバイン操作を可能にする強力なグループ化エンジンによるデータの集計または変換。
-
データセットの高性能なマージと結合。
-
階層軸インデックスは、低次元データ構造で高次元データを扱う直感的な方法を提供。
-
時系列機能:日付範囲の生成と頻度変換、移動窓統計、日付シフトと遅延。ドメイン固有のタイムオフセットを作成したり、データを失うことなく時系列を結合したりすることも可能。
-
パフォーマンスが高度に最適化されており、重要なコードパスはCythonまたはCで記述。
-
pandasを使用するPythonは、金融、神経科学、経済学、統計学、広告、ウェブ解析など、幅広い学術および商業分野で使用されています。
ミッション
pandasは、Pythonで実用的で現実世界でのデータ分析を行うための基本的な高レベルビルディングブロックとなることを目指しています。さらに、あらゆる言語で利用可能な最も強力で柔軟なオープンソースのデータ分析/操作ツールとなるというより広範な目標を持っています。
ビジョン
データ分析および操作ソフトウェアが
- 誰もが利用できる
- ユーザーが自由に使用・変更できる
- 柔軟である
- 強力である
- 使いやすい
- 速い
価値観
pandasの核となるのは、経験レベル、性別、性自認と表現、性的指向、障がい、外見、体型、人種、民族、年齢、宗教、国籍にかかわらず、ユーザー、貢献者、そしてより広範なコミュニティのすべての人々を尊重し、歓迎することです。