■Pandas(データ解析支援)
データ解析を支援する機能を提供するライブラリ
以下でインストールできる
$ sudo pip3 install pandas
データ分析で頻出のPandas基本操作 - Qiita
https://qiita.com/ysdyt/items/9ccca82fc5b504e7913a
pandas の loc、iloc、ix の違い - python | コード7区
http://ailaby.com/lox_iloc_ix/
■1次元のデータ構造
import pandas as pd
label = ['a', 'b', 'c', 'd', 'e']
data = [1, 2, 3, 4, 5]
s = pd.Series(data, index=label) # 行ラベル付きの1次元データ構造
# 内容をすべて表示
print(s)
$ python3 test.py
a 1
b 2
c 3
d 4
e 5
dtype: int64
■2次元のデータ構造
import pandas as pd
data = {
'col1': [1, 2, 3, 4, 5],
'col2': [2, 3, 4, 5, 6],
'col3': [3, 4, 5, 6, 7],
}
index_name = ['zero', 'one', 'two', 'three', 'four']
df = pd.DataFrame(data, index=index_name) # 行ラベル・列ラベル付きの2次元データ構造
# 内容をすべて表示
print(df)
# ラベルによるデータ選択
print(df.loc['one', 'col2']) # 「one」行、「col2」列のデータを選択
print(df.loc['one':'three', :]) # 「one」から「three」行のすべての列のデータを選択
print(df.loc[['one', 'four'], ['col1', 'col3']]) # 「one」と「four」行の「col1」と「col3」列のデータを選択
# 位置番号によるデータ選択(一番号は0始まり / 結果は上と同じ)
print(df.iloc[1, 1])
print(df.iloc[1:4, :])
print(df.iloc[[1, 4], [0, 2]])
$ python3 2.py
col1 col2 col3
zero 1 2 3
one 2 3 4
two 3 4 5
three 4 5 6
four 5 6 7
3
col1 col2 col3
one 2 3 4
two 3 4 5
three 4 5 6
col1 col3
one 2 4
four 5 7
3
col1 col2 col3
one 2 3 4
two 3 4 5
three 4 5 6
col1 col3
one 2 4
four 5 7
■CSVファイルを読み込み
import pandas as pd
# CSVファイルを読み込み
df = pd.read_csv('sample.csv', index_col=0, encoding='shift-jis')
# 次元をタプルに格納して返す
print(df.shape)
# 簡素な情報を出力する
print(df.info())
# 最初の5行を表示
print(df.head())
# 最後の5行を表示
print(df.tail())
■Excelファイルを読み込み
import pandas as pd
# Excelファイルを読み込み
#excel = pd.read_excel('sample.xlsx', index_col=0)
excel = pd.read_excel('sample.xlsx', index_col=0, engine='openpyxl')
# 次元をタプルに格納して返す
print(excel.shape)
# 簡素な情報を出力する
print(excel.info())
# 最初の5行を表示
print(excel.head())
# 最後の5行を表示
print(excel.tail())
「ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.」
のエラーになる場合、xlrdをインストールする必要がある
$ sudo pip3 install xlrd
インストールしても
「ValueError: Your version of xlrd is 2.0.1. In xlrd >= 2.0, only the xls format is supported. Install openpyxl instead.」
のエラーが表示される
xlrd 2.0.0 からxlsxがサポートされなくなったらしい
対策に、openpyxlをインストールする
$ sudo pip3 install openpyxl
これでExcelファイルの読み込み時、「engine='openpyxl'」を指定すると読み込める