幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。 時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。 多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。 折れ線グラフを眺めると、トレンド(上昇傾向や下降傾向)や季節性などが見て取れるケースがあります。 そこで、サクッとトレンドや季節性などを掴む手法がSTL分解(Seasonal Decomposition Of Time Series By Loess)です。 STL分解(Seasonal Decomposition Of Time Series By Loess)を実施することで、元データをトレンド、季節性、残差に分解することができます。 元データ = トレンド + 季節性 + 残差 STL分解(Seas
ヒストグラムを作成するhist関数 基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示する まとめ 参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。 本記事では ヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法 について解説します。 今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。 (ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する 複数要素を元に多層化させる データの個数をカウントする 列ごとと行ごとの合計を表示 複数の統計量を表示させる 関数を使って統計処理を指定する 欠損値を補完 欠損値があるデータも表示させる まとめ 参考 ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。 複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。 そこで本記事ではpivot_table関数
前回の記事の続きです。 参考:scipyで階層的クラスタリング 前回の記事で階層的クラスタリングを実行し可視化するところまで紹介しましたが、 今回は一歩戻ってlinkage関数の戻り値の中身を見てみます。 とりあえず、 linkage matrix をprintして結果を見てみましょう。 from sklearn.datasets import load_iris from scipy.cluster.hierarchy import linkage X = load_iris().data[::10, 2:4] print(X.shape) # (15, 2) # ユークリッド距離とウォード法を使用してクラスタリング z = linkage(X, metric='euclidean', method='ward') print(z.shape) # (14, 4) print(z) #
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く