この記事では、データの操作と分析のための Python の一般的なライブラリである Pandas DataFrame に新しい列を追加するプロセスについて説明します。 この問題の解決策について説明し、コードを順を追って説明し、Pandas ライブラリの関連トピックと関数について説明します。 Pandas は、高レベルのデータ構造とツールを備えた広く使用されているライブラリであり、効率的なデータ分析と処理タスクに最適です。
まず、Pandas DataFrame の形式のデータセットがあり、それに新しい列を追加するとします。 これはデータ準備段階での一般的な要件であり、多くの場合、機能エンジニアリングや既存の列に基づいて追加情報を生成するために必要です。 これを実現する方法を詳しく見ていきましょう。
Pandas DataFrame に新しい列を追加する
必要なライブラリをインポートし、サンプル DataFrame を作成することから始めます。
import pandas as pd data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']} df = pd.DataFrame(data)
ここで、「USA」などのデフォルト値を使用して、新しい列「Country」を DataFrame に追加しましょう。
df['Country'] = 'USA'
この単純なコード行は、既存のデータフレーム「df」に「Country」という名前の新しい列を追加し、そのすべての行に値「USA」を指定します。 更新された DataFrame は次のようになります。
Name Age City Country 0 Alex 25 NY USA 1 Tom 28 LA USA 2 Nick 23 SF USA 3 Sam 22 Chicago USA
ステップバイステップのコード説明
コードを分解して、段階的に理解していきましょう。
1. まず、標準エイリアス「pd」を使用して Pandas ライブラリをインポートします。 これにより、「pd」プレフィックスを使用して Pandas の関数とクラスにアクセスできます。
import pandas as pd
2. 次に、いくつかのサンプル データを含む辞書「データ」を作成します。 ディクショナリの各キーは列名を表し、対応する値はその列の値のリストです。
data = {'Name': ['Alex', 'Tom', 'Nick', 'Sam'], 'Age': [25, 28, 23, 22], 'City': ['NY', 'LA', 'SF', 'Chicago']}
3. 次に、`pd.DataFrame()` 関数を使用して、この辞書を Pandas DataFrame オブジェクトに変換します。
df = pd.DataFrame(data)
4. 最後に、新しい列を追加するには、DataFrame で代入演算子「=」を使用し、角括弧内に新しい列名を指定し、デフォルト値を指定します。 この例では、「国」列にデフォルト値「USA」を追加しました。
df['Country'] = 'USA'
Pandas ライブラリと関連機能
Pandas は強力な Python ライブラリであり、特にデータ処理、クリーニング、および分析タスクに適しています。 XNUMX つの主要なデータ構造を提供します。 データフレーム & シリーズ. DataFrame は、ラベル付きの軸 (行と列) を持つ XNUMX 次元の表形式のデータ構造です。 一方、シリーズは、任意のタイプのデータを保持できる XNUMX 次元のラベル付き配列です。
DataFrame の列の追加、変更、および削除に関連する一般的な Pandas 関数は次のとおりです。
- 入れる(): 指定した位置に列を挿入します。
- 落とす(): DataFrame から列を削除するには。
- リネーム(): DataFrame の列の名前を変更するには。
- 割当(): 式の結果に基づいて新しい列を作成すること。
そのため、Pandas DataFrame に新しい列を追加するのは簡単で効率的です。 この記事では、デフォルト値を持つ新しい列を追加する基本的な方法について説明し、関連する手順の詳細な説明を提供しました。 また、強力なデータ操作ライブラリとして Pandas を紹介し、DataFrame 列を管理するためのいくつかの関連関数について説明しました。 これらの手法を習得することで、Python でさまざまなデータ処理タスクを処理できるようになります。