サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
デスク環境を整える
uribo.github.io
実践的データサイエンス はじめに データ分析のためにコンピュータを利用する際、RおよびPython言語のいずれかを使うことが多いと思います(Julia言語は高レベル・高パフォーマンスな技術計算のための言語で今後期待が膨らみます)。これらの2つの言語では、データ操作や可視化、データ分析、モデリングに使われるライブラリが豊富にあり、 どれを使うのが良いのか迷うような状況が続いていました。しかしその状態は落ち着きを見せ、成熟期を迎えつつあります。 R言語ではパイプ演算子の登場によりデータフレームに対する操作に大きな変化が生じ、tidyverseによるデータ読み込みからデータ整形、可視化までが可能になりました。またtidyverseのような、機械や人間の双方が扱いやすいパッケージが増えてきました。特にR言語の強力な一面でもあったデータ分析の操作はtidymodelsに代表されるパッケージがユーザの
class: center, middle, inverse, title-slide # データ分割 ## Part of 📖Data Preprocessing Cookbook 👨🍳 ### Uryu Shinya ### <span style="font-size: 70%;"><i class="fab fa-github "></i> uribo <i class="fab fa-twitter "></i> u_ribo</span> ### 2019-06-30 (updated: 2019-06-30) --- # 概要 - 予測モデルの性能を評価、過学習を防ぐためにデータ分割の処理が必要となる - データセットをモデル構築用と評価用のデータに分ける - データセットの大きさ、特性(クラスやグループが存在するか、時系列かどうか)に応じてリサンプリングの方法を変え
📖 Data Preprocessing Cookbook 👨🍳 R言語でのモデリングおよび統計解析のためのパッケージを扱うtidymodelsの中から{recipes}, {embed}, {textrecipes} パッケージを使ったデータ前処理、特徴量エンジニアリングの手法を紹介します。 (余力があればPython、scikit-learn preprocessing等を利用した処理手順についても書きます) TOC パッケージ全般 データ整形 スケーリング処理 特徴量選択(フィルタ法) 次元削減 不均衡データに対する調整 欠損値への対応 kNN データ分割 特徴量エンジニアリング numeric categorical text date and time coordinates モデル・アルゴリズムあれこれ 線形回帰 ランダムフォレスト 評価指標あれこれ パラメータ探索 D
このページを最初にブックマークしてみませんか?
『uribo.github.io』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く