データ分析

1/2ページ
  • 2019.09.11

【pandas】Excelファイルへの書き出し

pandas.DataFrame.to_excel()  pandas.DataFrame.to_excel() を使うと、データフレームを Excelファイルに書き出すことができます。引数で指定したファイル名がすでに存在している場合はファイルを上書きし、存在しない場合は新規ファイルを作成します。Excel ファイルから読み込んだデータをデータフレームに格納する関数については以下の記事を参照してください。 ≫ [pandas] Excelファイルの読み込み  最初に国別の人口と面積を格納したデータフレーム df1 を作成しておきます (出典:Wikipedia)。 # PANDAS […]

  • 2019.09.10

【pandas】Excelファイルの読み込み

pandas.read_excel()  pandas.read_excel() を使うと、Excel ファイルをデータフレームに読み込むことができます。この関数は xls と xlsx ファイルをサポートします。xls は Excel 2003 以前、xlsx は Excel 2007 以降のバージョンで使用されている Excel ファイルの形式です。データフレームを Excel ファイルへ書き込む方法については以下の記事を参照してください。 ≫【pandas】Excelファイルへの書き出し Excelファイルを読み込む  当サイトの上位サイト atelierkobato.com […]

  • 2019.07.10

【pandas】GroupBy

≪【前の記事】集約メソッド   groupby操作による部分的なデータ集約  部分的なデータについての集約は、groupby とよばれる操作によって実現できます。具体例を使って説明するために、重複ラベルを含むデータフレームを作成しておきます。 # PANDAS_GROUPBY_BASIC # In[1] import numpy as np import pandas as pd # 重複要素を含むデータフレームを作成 df = pd.DataFrame({"key":["A", "B", "A", "A", "B"], "X":[1, 2, 4, 8, 16], "Y":[1, […]

  • 2019.07.09

【pandas】要約統計量

  ≪【前の記事】pandas.merge() データの集約と要約統計量  pandas の Series や DataFrame には列について合計や平均、標準偏差などを求める 集約メソッド が用意されています。以下のコードで太陽系の惑星一覧表を取得して DataFrame を作成します (planets.csv は Wikipedia から得たデータを元に作成しました)。 # PANDAS_AGGREGATION_METHODS # In[1] import numpy as np import pandas as pd # ファイルのパス u = "https://pytho […]

  • 2019.07.08

pandas.merge()

  ≪【前の記事】pandas.concat()   pandas.merge()  pandas.merge() はデータセットを横方向に連結し、重複項目を適切な形で保存する機能をもっています。具体例を使って説明します。最初に社員ID、氏名・年齢・所属部署が記録された データフレーム を作成しておきます。 # PANDAS_MERGE # In[1] import numpy as np import pandas as pd # 社員ID i_d = [105, 109, 203, 211, 307] # 氏名 name = ["筈山亜希子", "砂田夏樹", "谷古ゆうみ", […]

  • 2019.07.05

pandas.concat()

≪【前の記事】欠損値の処理 【pandas】データセットの連結   pandas.concat() は DataFrame や Series の連結に用いられる関数です。  最初に重複ラベルのない Series 同士を連結してみます。 # PANDAS_CONCAT # In[1] import numpy as np import pandas as pd # Seriesオブジェクトを作成 s1 = pd.Series(["E01", "E02"], index=list("ab")) s2 = pd.Series(["E03", "E04"], index=list("cd" […]

  • 2019.07.04

【pandas】欠損値 (NaN) の処理

≪【前の記事】Index属性   【pandas】欠損値の処理  一般に pandas ではデータの 欠損値 (NA : Not Available) に NaN (Not a Number) とよばれる特殊な浮動小数点数を割り当てます。たとえば、互いに異なるラベルをもつ Series 同士で演算を実行すると NaN が現れます。 # PANDAS_NAN # In[1] import numpy as np import pandas as pd # Seriseオブジェクトを作成 a = pd.Series([10, 20, 30], index=list("ABC")) b […]

  • 2019.06.27

【pandas】インデクス属性

≪【前の記事】Indexオブジェクト   インデクス属性  Series や DataFrame には、要素を抽出するためのインデクス属性 (loc, iloc, at, iat) が備えられています。 loc, iloc  Series や DataFrame の要素の参照方法は、時としてユーザーを混乱させることがあります。たとえば、次のように偶数ラベルを付した Series オブジェクトを生成したとします。 # PANDAS_SERIES_LOC # In[1] import numpy as np import pandas as pd # Seriesオブジェクトを生成 d […]

  • 2019.06.15

pandas.Index

≪【前の記事】DataFrameオブジェクト   【pandas】データのラベリング  Series オブジェクトや DataFrame オブジェクトのラベリングに用いられる Indexオブジェクト は pandas.Index() を使って生成することもできます。 # PANDAS_INDEX_01 # In[1] import numpy as np import pandas as pd # Indexオブジェクトを生成 idx1 = pd.Index([1, 2, 3]) print(idx1) # Int64Index([1, 2, 3], dtype='int64') […]

  • 2019.06.14

pandas.DataFrame

≪【前の記事】Seriesオブジェクト DataFrameの構造と作成方法  pandas.DataFrame は NumPy の二次元配列に列方向 (axis=0) と行方向 (axis=1) のラベルを割り当てたオブジェクトです。    pandas.DataFrame() に二次元配列を渡すと、行と列に 0 から始まる整数が自動的に割り振られた DataFrame(データフレーム)が生成されます。 # PANDAS_DATAFRAME_01 # In[1] import numpy as np import pandas as pd # [[ 1 2 3 4] # [ 5 6 […]