データ分析

  • 2019.07.10

[pandas] GroupByオブジェクト

groupby操作  部分的なデータについての集約操作は、groupby とよばれる操作によって実現できます。具体例を使って説明するために、重複要素を含むデータフレームを作成しておきます。 # リストPD38-1 import numpy as np import pandas as pd # 重複要素を含むデータフレームを作成 df = pd.DataFrame({"key":["A", "B" […]

  • 2019.07.09

[pandas] 集約メソッド

集約メソッド  pandas の Series や DataFrame には列について合計や平均、標準偏差などを求める 集約メソッド が用意されています。以下のコードで太陽系の惑星一覧表を取得して DataFrame を作成します (planets.csv は Wikipedia から得たデータを元に作成しました)。 # リストPD35-1 import numpy as np import pa […]

  • 2019.07.08

データセットの結合② pandas.merge()

pandas.merge()  pandas.merge() はデータセットを横方向に連結し、重複項目を適切な形で保存する機能をもっています。 キーの自動選択  具体例を使って説明します。最初に社員ID、氏名・年齢・所属部署が記録されたデータフレームを作成しておきます。 # リストPD28-1 import numpy as np import pandas as pd # 社員ID i_d = […]

  • 2019.07.05

データセットの結合① pandas.concat()

pandas.concat()  pandas.concat() はデータセットの連結に用いられる関数です。  最初に重複ラベルのない Series同士を連結してみます。 # リストPD25-1 import numpy as np import pandas as pd # Seriesオブジェクトを作成 s1 = pd.Series([1, 2], index=list("ab")) s2 = […]

  • 2019.07.04

[pandas] 欠損値 (NA) の処理

欠損値 (NA)  一般に pandas ではデータの 欠損値 (NA : Not Available) に NaN (Not a Number ) とよばれる特殊な浮動小数点数を割り当てます。たとえば、互いに異なるラベルをもつ Series 同士で演算を実行すると NaN が現れます。 # リストPD20-1 import numpy as np import pandas as pd # Se […]

  • 2019.06.27

[pandas] インデクス属性

インデクス属性  Series や DataFrame には、要素を抽出するためのインデクス属性 (loc, iloc, at, iat) が備えられています。 loc, iloc  Series や DataFrame の要素の参照方法は、時としてユーザーを混乱させることがあります。たとえば、次のように偶数ラベルを付した Seriesオブジェクトを生成したとします。 # リストPD15-1 # […]

  • 2019.06.15

[pandas] Indexオブジェクト

Indexオブジェクト  Seriesオブジェクトや DataFrameオブジェクトのラベリングに用いられる Indexオブジェクト は pandas.Index() を使って生成することもできます。 # リストPD10-1 # Indexオブジェクトを生成 idx_1 = pd.Index([1, 2, 3]) print(idx_1) print(type(idx_1)) Int64Index […]

  • 2019.06.14

[pandas] DataFrameオブジェクト

DataFrame  pandas の DataFrameオブジェクト は NumPy の二次元配列に行方向 (axis=0) と列方向 (axis=1) のラベルを割り当てます。 配列からDataFrameを生成する  pandas.DataFrame() に二次元配列を渡すと、行と列に 0 から始まる整数が自動的に割り振られます。 # リストPD06-1 import numpy as np […]

  • 2019.06.13

[pandas] Seriesオブジェクト

Series  pandas の Seriesオブジェクト は NumPy の一次元配列に明示的なインデクス (ラベル) をマップする構造体です。pandas.Series() にシーケンスまたは配列を渡すと Seriesオブジェクトが生成されます。 # リストPD01-1 # NumPyとpandasをインポート import numpy as np import pandas as pd # […]