pandasについて
開発履歴
2008 年、pandas の開発が AQR Capital Management で始まりました。2009 年の終わりにはオープンソース化され、現在は世界中の似た志を持つ人たちのコミュニティが時間を割いて精力的にサポートしており、オープンソースの pandas を実現しています。すべての貢献者に感謝します。
2015 年以降、pandas は NumFOCUS スポンサープロジェクト になりました。これにより、世界クラスのオープンソースプロジェクトとして pandas の開発を確実に進めることができます。
タイムライン
- 2008: pandas の開発が開始
- 2009: pandas がオープンソースに
- 2012: Python for Data Analysis の第 1 版が発行
- 2015: pandas が NumFOCUS スポンサープロジェクト に
- 2018: 最初の対面コア開発スプリント
ライブラリのハイライト
-
データ処理向けの高速で効率的な DataFrame オブジェクトで、インデックス統合;
-
インメモリデータ構造とさまざまなフォーマット間で データを読み書きするためのツール: CSV およびテキストファイル、Microsoft Excel、SQL データベース、および高速な HDF5 フォーマット;
-
インテリジェントな データの整列 と統合的な 欠損データ の処理: 計算における自動的なラベルベースの整列を実現し、乱雑なデータを容易に整然とした形式に操作できます。
-
データセットの柔軟な リシェイピング とピボット;
-
インテリジェントなラベルベースの スライス、ファンシーインデックス、および大規模データセットの サブセット化;
-
サイズ可変性 のためにデータ構造から列を挿入したり削除したりできます。
-
データセットに対するスプリット・アプライ・コンバイン操作を可能にする強力な group by エンジンでデータを収集または変換;
-
データセットの マージ と 結合 の高パフォーマンス;
-
階層軸のインデックス は、より低次元のデータ構造で高次元のデータを使用するための直感的な方法を提供します;
-
時系列 機能: 日付範囲の生成と頻度の変換、移動窓統計、日付のシフトと遅延。データを失うことなく、ドメイン固有の時間オフセットを作成したり、時系列を結合したりすることもできます;
-
Cython または C で記述された重要なコードパスで、パフォーマンスの最適化 を図っています。
-
pandas を搭載した Python は、金融、神経科学、経済学、統計学、広告、ウェブ分析など、さまざまな 学術および商業 ドメインで使用されています。
使命
pandas は、Python における実践的かつ現実的なデータ分析を行うための基本的で高レベルの構成要素になることを目指します。さらに、あらゆる言語で利用可能な最も強力で柔軟なオープンソースデータ分析/操作ツールとなるというより広範な目標があります。
ビジョン
データ分析および操作ソフトウェアがすべての人に
- 利用可能な世界
- ユーザーは無料で使用および修正できます
- 柔軟
- 強力
- 使いやすい
- 高速
価値
pandas の核となるのは、ユーザー、コントリビューター、および大規模なコミュニティに関わらず、すべての人を尊重し、歓迎することです。経験レベル、性別、性自認および表現、性的指向、障害、外見、体型、人種、民族、年齢、宗教、または国籍に関係なく。