2019 pandas ユーザー調査

Pandas は最近、将来の開発をガイダンスするためにユーザー調査を実施しました。参加してくださった皆さん、ありがとうございます。この投稿ではハイレベルな結果をご紹介します。

この分析と生データは GitHub で見ることができ、Binder で実行できます

Binder

2019 年の夏に 15 日間調査を実施して、約 1,250 件の回答を得ました。

回答者について

Pandas の経験や使用頻度に関する表現はかなりの量ありましたが、回答者の大多数は経験豊富です。

png

png

Pandas の全体像と Python の全体像を比較できるように、Python デベロッパーズ調査でも行われた質問をいくつか含めました。

回答者の 90% が Python を第一言語として使用しています (PSF 調査の 84% と比較)。

Yes    90.67%
No      9.33%
Name: Is Python your main language?, dtype: object

Windows ユーザーは十分に表現されています (このトピックに関する Steve Dower の話を参照)。

Linux      61.57%
Windows    60.21%
MacOS      42.75%
Name: What Operating Systems do you use?, dtype: object

環境のアイソレーションに関しては、conda が最も人気がありました。

png

ほとんどの回答者は Python 3 のみを使用しています。

3        92.39%
2 & 3     6.80%
2         0.81%
Name: Python 2 or 3?, dtype: object

Pandas API

オープンソースプロジェクトでは、実際に使用されている機能を把握することが難しい場合があります。アイデアを得るためにいくつかの質問をしました。

とにかく、CSV と Excel が最も一般的な形式です。

png

pandas 内部をリファクタする可能性に備え、列が広い (100 列以上) DataFrames の一般的さを把握したいと思いました。

png

pandas は徐々に新しい拡張タイプを追加しています。カテゴリが最も人気があり、null 可能整数タイプはタイムゾーン付きの日時にほぼ匹敵するほど人気があります。

png

より多くの優れた例が優先順位の高い開発項目であると思われます。Pandas は最近、ドキュメントの改善のために NumFOCUS 助成金を受け取りました。これを使用してチュートリアルスタイルのドキュメントを作成しており、このニーズを満たすのに役立つはずです。

png

特定の、一般に要求される機能についても尋ねました。

png

それらの中で、際立ったものは大規模なデータセットへの「スケーリング」です。いくつかの観察

  1. Pandas のドキュメントでは、スケーラブルなデータフレームを提供するライブラリを宣伝するのに役立つ可能性があります (例: Daskvaexmodin)
  2. メモリ効率 (おそらくネイティブ文字データ型、内部コピーの削減など) は、価値の高い目標です。

それから、次に重要な改善点は整数欠損値です。それらは実際に Pandas 0.24 で追加されましたが、デフォルトではなく、pandas API の他の部分との間にはまだいくつかの非互換性があります。

Pandasは、たとえばNumPyよりも保守的なライブラリではありません。1.0に近づいていますが、その過程で、多くの非推奨化と少数のAPIブレーキング変更が行われました。幸い、たいていの人はトレードオフを受け入れています。

Yes    94.89%
No      5.11%
Name: Is Pandas stable enough for you?, dtype: object

(pandasの管理者の多くが共有している)見解では、pandasのAPIは大きすぎるとされています。それを測るために、ユーザーにpandasのAPIは大きすぎるか、小さすぎるか、適切であるかを尋ねました。

png

最後に、ライブラリについての全般的な満足度を1(ほとんど不満がない)から5(非常に満足している)の範囲で尋ねました。

png

多くの人が非常に満足しています。平均回答は4.39です。この数字を時間の経過とともに追跡することを楽しみにしています。

rawデータを分析している場合は、結果を@pandas_devでシェアしてください。