2019 pandas ユーザー調査
Pandas は最近、将来の開発をガイダンスするためにユーザー調査を実施しました。参加してくださった皆さん、ありがとうございます。この投稿ではハイレベルな結果をご紹介します。
この分析と生データは GitHub で見ることができ、Binder で実行できます
2019 年の夏に 15 日間調査を実施して、約 1,250 件の回答を得ました。
回答者について
Pandas の経験や使用頻度に関する表現はかなりの量ありましたが、回答者の大多数は経験豊富です。
Pandas の全体像と Python の全体像を比較できるように、Python デベロッパーズ調査でも行われた質問をいくつか含めました。
回答者の 90% が Python を第一言語として使用しています (PSF 調査の 84% と比較)。
Yes 90.67%
No 9.33%
Name: Is Python your main language?, dtype: object
Windows ユーザーは十分に表現されています (このトピックに関する Steve Dower の話を参照)。
Linux 61.57%
Windows 60.21%
MacOS 42.75%
Name: What Operating Systems do you use?, dtype: object
環境のアイソレーションに関しては、conda が最も人気がありました。
ほとんどの回答者は Python 3 のみを使用しています。
3 92.39%
2 & 3 6.80%
2 0.81%
Name: Python 2 or 3?, dtype: object
Pandas API
オープンソースプロジェクトでは、実際に使用されている機能を把握することが難しい場合があります。アイデアを得るためにいくつかの質問をしました。
とにかく、CSV と Excel が最も一般的な形式です。
pandas 内部をリファクタする可能性に備え、列が広い (100 列以上) DataFrames の一般的さを把握したいと思いました。
pandas は徐々に新しい拡張タイプを追加しています。カテゴリが最も人気があり、null 可能整数タイプはタイムゾーン付きの日時にほぼ匹敵するほど人気があります。
より多くの優れた例が優先順位の高い開発項目であると思われます。Pandas は最近、ドキュメントの改善のために NumFOCUS 助成金を受け取りました。これを使用してチュートリアルスタイルのドキュメントを作成しており、このニーズを満たすのに役立つはずです。
特定の、一般に要求される機能についても尋ねました。
それらの中で、際立ったものは大規模なデータセットへの「スケーリング」です。いくつかの観察
- Pandas のドキュメントでは、スケーラブルなデータフレームを提供するライブラリを宣伝するのに役立つ可能性があります (例: Dask、vaex、modin)
- メモリ効率 (おそらくネイティブ文字データ型、内部コピーの削減など) は、価値の高い目標です。
それから、次に重要な改善点は整数欠損値です。それらは実際に Pandas 0.24 で追加されましたが、デフォルトではなく、pandas API の他の部分との間にはまだいくつかの非互換性があります。
Pandasは、たとえばNumPyよりも保守的なライブラリではありません。1.0に近づいていますが、その過程で、多くの非推奨化と少数のAPIブレーキング変更が行われました。幸い、たいていの人はトレードオフを受け入れています。
Yes 94.89%
No 5.11%
Name: Is Pandas stable enough for you?, dtype: object
(pandasの管理者の多くが共有している)見解では、pandasのAPIは大きすぎるとされています。それを測るために、ユーザーにpandasのAPIは大きすぎるか、小さすぎるか、適切であるかを尋ねました。
最後に、ライブラリについての全般的な満足度を1(ほとんど不満がない)から5(非常に満足している)の範囲で尋ねました。
多くの人が非常に満足しています。平均回答は4.39です。この数字を時間の経過とともに追跡することを楽しみにしています。
rawデータを分析している場合は、結果を@pandas_devでシェアしてください。