【pandas】loc,iloc,at,iatで要素を抽出する

インデクス属性
1. loc, iloc
2. at, iat

インデクス属性

Series や DataFrame には、要素を抽出するためのインデクス属性 (loc, iloc, at, iat) が備えられています。

loc, iloc

Series や DataFrame の要素の参照方法は、時としてユーザーを混乱させることがあります。たとえば、次のように偶数ラベルを付した Series オブジェクトを生成したとします。

# PANDAS_SERIES_LOC

# In[1]

import numpy as np
import pandas as pd

# Seriesオブジェクトを生成
data = pd.Series(["apple", "orange", "banana", "grape", "strawberry"],
                 index = {2, 4, 6, 8, 10})

data[2] によるアクセスはラベル 2 にマップされた要素 “apple” を取得します (ディクショナリでいえばキー 2 に対応する値 “apple” を取り出すことに対応します)。

# In[2]

print(data[2])
# apple

しかし、data[1] と記述すると、1 というキーは存在しないので KeyError を発生します。

# In[3]

print(data[1])
# KeyError: 1

そうすると、data[1:3] のようなスライス表記もエラーを返しそうですが、実際には予想に反して 2 番目と 3 番目の要素を抽出します。

# In[4]

print(data[1:3])
# 4    orange
# 6    banana
# dtype: object

スライス表記は一般的な Python や NumPy と同じく、各要素に連番 0, 1, 2, 3, … を割り当てる方式でアクセスするからです。このようなスタイル混合は様々なミスを引き起こす要因となるので、アクセスのスタイルを明確にするために、loc と iloc という属性が用意されています。

loc属性はラベルを介して要素にアクセスします：

# In[5]

# ラベルを使ってスライス
print(data.loc[2:5])

# 2     apple
# 4    orange
# dtype: object

iloc属性は従来の Python スタイルにしたがって要素にアクセスします：

# In[6]

# 従来のPython方式でスライス
print(data.iloc[2:5])

# 6         banana
# 8          grape
# 10    strawberry
# dtype: object

DataFrame における loc と iloc 属性の使い方も確認しておきましょう。
次のコードで東北地方の面積と人口の表を作成します (Wikipedia から抜粋した 2015年の国勢調査にもとづくデータです)。

# PANDAS_DATAFRAME_LOC

# In[1]

# 東北地方の県別面積一覧(平方キロメートル)
area = pd.Series({"岩手":15275,
                  "福島":13784,
                  "秋田":11638,
                  "青森":9646,
                  "山形":9323,
                  "宮城":7282})

# 東北地方の県別人口一覧(人)
pop = pd.Series({"岩手":1279594,
                 "福島":1914039,
                 "秋田":1023119,
                 "青森":1308265,
                 "山形":1123891,
                 "宮城":2333899})

# 列ラベルの割り当て
columns = {"面積":area, "人口":pop}

# DataFrameを作成
data = pd.DataFrame(columns)

print(data)
#        面積       人口
# 岩手  15275  1279594
# 福島  13784  1914039
# 秋田  11638  1023119
# 青森   9646  1308265
# 山形   9323  1123891
# 宮城   7282  2333899

DataFrame の loc属性は行ラベルと列ラベルを使ってデータにアクセスします。たとえば、秋田県の人口を参照したいときは次のように記述します。

# In[2]

# 秋田県の人口密度を取得
print(data.loc["秋田", "人口"])

# 1023119

山形県の面積を取得する場合は次のように記述します。

# In[3]

# 山形県の面積を取得
print(data.loc["山形", "面積"])

# 9323

スライスを使って複数項目を参照することもできます。

# In[4]

# 福島、秋田、青森の面積と人口を取得
print(data.loc["福島":"青森"])

#        面積       人口
# 福島  13784  1914039
# 秋田  11638  1023119
# 青森   9646  1308265

実行結果を見てわかるように、ラベルによるスライスは NumPy 配列のインデックスによるスライスとは異なり、指定ラベルに対応する要素をすべて返します。

コロン (:) を使って行や列を参照することもできます。
たとえば、面積一覧が欲しい場合は次のように記述します。

# In[5]

# 東北地方の面積一覧を取得
print(data.loc[:, "面積"])

# 岩手    15275
# 福島    13784
# 秋田    11638
# 青森     9646
# 山形     9323
# 宮城     7282
# Name: 面積, dtype: int64

DataFrame の iloc属性は行と列に割り振られた連番 (暗黙的インデクス) を使ってデータにアクセスします。つまり NumPy の二次元配列と同じアクセススタイルとなります。たとえば、秋田県の人口密度にアクセスする場合は以下のように記述します。

# In[6]

# 秋田県の人口密度を取得
print(data.iloc[2, 0])

# 11638

ある行や列を参照したい場合なども、NumPy のアクセス方式に準じます。たとえば、青森県の面積と人口密度にアクセスしたい場合は data.iloc[3, :] と記述します。

# In[7]

# 青森県の面積と人口密度を取得
print(data.iloc[3, :])

# 面積       9646
# 人口    1308265
# Name: 青森, dtype: int64

このとき、上のプログラムの実行結果にあるように、参照した行のラベルも Name として表示されます。

at, iat

at と iat は１つの要素しか参照できないという点を除いて、それぞれ loc, iloc と同じはたらきをします。loc, iloc があれば事足りるので、at, iat を積極的に使用する利点は特にありませんが、一応以下に使用例を載せておきます。最初に四国の各県の面積と人口の表を作成しておきます。

# PANDAS_AT

# In[1]

# 四国の県別面積一覧(平方キロメートル)
area = pd.Series({"徳島":4147,
                  "香川":1877,
                  "愛媛":5676,
                  "高知":7104})

# 四国の県別人口一覧(人)
pop = pd.Series({"徳島":755733,
                 "香川":976263,
                 "愛媛":1385262,
                 "高知":728276})

# 列ラベルの割り当て
columns = {"面積":area, "人口":pop}

# DataFrameを作成
data = pd.DataFrame(columns)

print(data)
#       面積       人口
# 徳島  4147   755733
# 香川  1877   976263
# 愛媛  5676  1385262
# 高知  7104   728276

at を使って愛媛県の面積にアクセスしてみます。

# In[2]

# 愛媛県の面積を取得
print(data.at["愛媛", "面積"])

# 5676

iat は 0 から始まる連番ラベルでアクセスします。
たとえば、香川県の人口を参照する場合は次のように記述します。

# In[3]

# 香川県の人口を取得
print(data.iat[1, 1])

# 976263

≫【次の記事】欠損値の処理

HNaito より:

2023年2月18日 1:49 PM

下記は誤植と思われますので、ご確認ください。
　
SERIES_LOC In[1] プログラムで下記の2行を追加。
import numpy as np
import pandas as pd
　
SERIES_LOC In[7] プログラムのコメントで、# 秋田県の → # 青森県の
SERIES_LOC In[7] プロクラムの下の文で、コード PD_16_7 の → 上のプログラムの

返信
- あとりえこばとより:
  
  2023年2月20日 7:02 AM
  
  修正しました。
  ありがとうございます。m(_ _)m
  
  返信