[B! statistics] teddy-gのブックマーク

teddy-g id:teddy-g

statisticsに関するteddy-gのブックマーク (106)

Cybersecurity Supply And Demand Heat Map
teddy-g 2024/06/01
セキュリティ関連職のオープンポジションとかの統計をインタラクティブなヒートマップで調べることができる。便利。

cybersecurity

statistics

stats

biz
リンク
因子分析をExcelで理解する - Qiita
主成分分析とは似て非なる手法として﹁因子分析﹂(Factor Analysis) があります。主成分分析(PCA)では、説明変数に対して重み行列︵固有ベクトル︶aを線形結合した﹁主成分﹂yPC1を合成しました。ここで、主成分は、説明変数と同じ数だけ定義します。yPC1 = a1,1 x1 + a1,2 x2 + a1,3 x3 + a1,4 x4 + a1,5 + ... 因子分析では、説明変数︵観測変数︶xが﹁因子﹂(factor) という潜在変数から合成されるという考え方に基づき、その因子得点fと重み行列︵因子負荷︶w、そして独自因子eを特定します︵主成分分析に独自因子という考え方はありません︶。 x1 = w1,1 f1 + w1,2 f2 + e1 x2 = w2,1 f1 + w2,2 f2 + e2 x3 = w3,1 f1 + w3,2 f2 + e3
teddy-g 2023/10/14
因子分析をEXCELでやる方法…なんだけど、この通り進めていくと途中で手詰まりになる。おとなしくRかPython使った方が早い。

datascience

analysis

data

excel

math

statistics

stats
リンク
Ransomware Posts
teddy-g 2023/08/24
RansomWatchのデータを2020年から収集している。

cybersecurity

cyberattacks

ransomware

malware

threatactors

threats

statistics

stats

biz
リンク
(Python編) 時系列データをサクッとSTLでトレンド・季節性に分解
幸か不幸か、ビジネス系のデータの多くは時系列データです。売上データもホームーページのアクセスログもセンサーデータも時系列データです。時系列データを手にしたとき、どのようなデータなのか見てみたい、ということは多々あります。多くの場合、折れ線グラフを描き傾向を掴む、ということをやります。折れ線グラフを眺めると、トレンド（上昇傾向や下降傾向）や季節性などが見て取れるケースがあります。そこで、サクッとトレンドや季節性などを掴む手法がSTL分解（Seasonal Decomposition Of Time Series By Loess）です。 STL分解（Seasonal Decomposition Of Time Series By Loess）を実施することで、元データをトレンド、季節性、残差に分解することができます。元データ　＝　トレンド　＋　季節性　＋　残差 STL分解（Seas
teddy-g 2023/06/20
STL分解すれば時系列のトレンドをざっくり捉えることができる。ビジネスデータの場合、Seasonal Factorは12ヶ月と思っておけば大体OK。

python

data

analysis

bigdata

statistics

stats

timeseries

pandas

matplotlib
リンク
25+ Crucial Average Cost Per Hire Facts [2023]: All Cost Of Hiring Statistics - Zippia
teddy-g 2022/09/13
米国の採用コストは通常の従業員で$5,000、エグゼクティブだと$15,000。そして小規模企業の方が教育コストがかかる。

US

biz

statistics

stats
リンク
Cyber Security Market Size, Share & Growth | Forecast, [2030]
teddy-g 2022/02/28
セキュリティの世界市場統計。MSSPだけではなくすべてが対象。備忘。

●marketing

●market

●statistics

●stats

●cybsersecurity

●MSSP
リンク
Managed Security Services Market Size - Growth & Trends
teddy-g 2022/02/28
Managed Security Servicesの市場統計。備忘。

marketing

market

statistics

stats

cybersecurity

MSSP
リンク
Managed Security Services (MSS) Market : US, Canada, China, Germany, UK - Size and Forecast 2023-2027
teddy-g 2022/02/28
Managed Security Servicesの市場統計。備忘。

marketing

market

statistics

stats

cybersecurity

MSSP
リンク
COVID-19 Impact & Recovery Analysis - Managed Security Services Market 2020-2024 | Increase in Adoption of Cloud-based Services to Boost Growth | Technavio
teddy-g 2022/02/28
Managed Security Servicesの市場統計。備忘。

market

stats

statistics

marketing

cybersecurity

MSSP
リンク
大企業･中小企業の定義と企業数、従業者数 | 転職グッド｜転職前に必ず見ておきたい情報サイト
転職にあたって、﹁大企業以外考えていない﹂﹁中小企業に入って一緒に成長したい﹂などのように、企業の規模を表すものとしてよく用いられます。実は日本国内の就業者数の約3分の2は中小企業が雇用しており、国には﹁中小企業庁﹂という中小企業の育成、発展に関する事務などを所掌する専門の省庁を設置しているくらい、その動向はとても重要なものなのです。今回は大企業と中小企業の違い、その定義と企業数、従業者数についてわかりやすく解説いたします。まず最初にどういう場合に大企業と呼び、どういう場合に中小企業と呼ぶのか、その定義についてご説明いたします。中小企業の定義は、中小企業基本法において定められており製造業の場合、資本金3億円以下または従業者数300人以下卸売業の場合、資本金1億円以下または従業者数100人以下小売業の場合、資本金5千万円以下または従業者数50人以下サービス業の場合、資
teddy-g 2021/08/19
日本の大企業・中堅企業・中小企業の数と従業員数が説明されてるページ。元ネタの経済センサス調べる手間が省ける。ざっくり言うと平均従業員数は大企業1,300人、中堅企業40人、小企業3人。

biz

statistics

stats
リンク
Cyberpunk Style with Matplotlib
teddy-g 2020/10/21
Matplotlibを使って黒背景・ネオン効果ありのクールなグラフを作る方法。小ネタ。

python

matplotlib

statistics

stats

graph

data

datascience
リンク
Bubble map with Python and Basemap | The Python Graph Gallery
teddy-g 2020/10/08
とにかくBasemapのことは忘れるんだ！MapBoxを思い出せ！

python

python3

basemap

mapbox

data

datascience

bigdata

statistics
リンク
Basemapをインストールしようとしたらつまづいたので忘備録 - Qiita
本屋で立ち読みしたらBasemap( pythonで簡単に地図をプロットできるモジュール。データの可視化を地図上にしたいときにとても重宝します。)っていうなんかかっこよさそうなものがあるってことで帰って早速インストールしてみました。以下のようなシンプルなコードでかっこいい地図が描けます。インストールまで結構つまづいたので忘備録としてのメモ。 import matplotlib.pyplot as plt from mpl_toolkits.basemap import Basemap %matplotlib inline m = Basemap() m.bluemarble()
teddy-g 2020/10/08
地図可視化ではBasemapは諦めてMapBoxでやりなはれ、と将来の自分に警告を送るべく残しておく。

python

python3

basemap

mapbox

tips

map

data

bigdata

statistics

datascience
リンク
Pythonで地名から住所と座標を割り出すジオコーディングを試してみる
2020年新年最初の投稿です色々とPython製のライブラリについて調べていたら、仕事でも使えそうなライブラリを見つけたので、今回はそれを試してみます。地名から座標を割り出す今回はジオコーディングの一種でもある地名や住所から座標を割り出してくれるPython Geocoderというのを使っていきます。Geocoderというものは、多言語にもあるライブラリだそうです。 Geocoderの特徴は、複数のマップサービスのAPIを統一されたスキーマや文法などで代わりに呼び出してくれます。約30個近くのマップサービスに対応しており、GeocoderからGoogle Map、OpenStreetMapとあらゆるマップサービスからマップの情報を引き出してくれます。ちなみにGoogle MapなどはAPI Keyが必要ですが、API Keyを設定していなくても、API Key不要なOpenStreet
teddy-g 2020/10/08
地名だけじゃなくランドマークとかMountain View, CAみたいな表現からもGeocodingできるスグレモノ。毎度取りに行かずGeocoding結果をcsvにして再利用すれば良い。Excelの地図可視化がヘボくなったのでこっち推奨。

●python

●python3

●geocoding

●map

●data

●bigdata

●datascience

●tips

●statistics
リンク
Pandasでヒストグラムの作成や頻度を出力する方法
ヒストグラムを作成するhist関数基数の数を変更する (bins) ラベルを元にヒストグラムを作成する by 非数値データの頻度をヒストグラムで表示するまとめ参考 Pandasにもヒストグラムを作成する関数hist()が存在します。この関数は値を表示するのではなく、ヒストグラムをmatplotlibを使ってプロットします。単純に頻度の数値データが欲しい場合はvalues_counts関数が便利な関数です。本記事ではヒストグラムの作成の仕方 value_counts関数を使った非数値データの頻度の出力方法について解説します。今回扱うサンプルデータはKaggleのチュートリアルからとってきたものです。 Titanic - Kaggle ここのtrain.csvという名前のファイルを使います。（ダウンロードするためにはユーザー登録が必要ですが簡単なものなのでしておくことをお勧めし
teddy-g 2020/10/08
Pandasでヒストグラムを書くときのポイントをいくつか。備忘まで。

python

python3

pandas

data

bigdata

datascience

statistics

tips
リンク
主成分分析を Python で理解する - Qiita
主成分分析︵principal component analysis︶とは多変量解析手法のうち次元削減手法としてよく用いられる手法の一種で、相関のある多変数から、相関のない少数で全体のばらつきを最もよく表す変数を合成します。主成分分析を行う便利なツールとして、Pythonで利用可能なScikit-learnなどがありますが、ここではScikit-learnでのPCAの使い方を概観したあと、Scikit-learnを使わずにpandasとnumpyだけでPCAをしてみることで、Pythonの勉強とPCAの勉強を同時に行いたいと思います。プログラミングにおいて大事なのは﹁コピペ・タブ補完・ヒストリー機能を極力使うこと﹂、﹁一字一句を理解できないと先に進めないのではなく、まずは全部を理解できなくてもいいからゴールまで辿り着き、中身の理解はその後ですること﹂、﹁出来上がっているコードの中で、ど
teddy-g 2020/10/03
PCAをPythonでやるときの参考に。

python

scikit-learn

pca

datascience

statistics
リンク
Pandasでピボットテーブルを手軽に作成するpivot_table関数の使い方
pivot_table関数 APIドキュメント params: returns: ピボットテーブルを作成する複数要素を元に多層化させるデータの個数をカウントする列ごとと行ごとの合計を表示複数の統計量を表示させる関数を使って統計処理を指定する欠損値を補完欠損値があるデータも表示させるまとめ参考ピボットテーブルとはエクセルで有名な機能の1つで馴染みの方も多いかもしれません。複雑なデータ構造を一目で分かりやすくする目的でよく使われるもので、クロス集計したものをまとめたものとなります。 2つの要素間の相関が分かりやすく現れるので使いこなせると重宝するでしょう。例えば男女間での科目ごとの平均点といったものをひと目で把握することができます。 Pandasでも手軽にピボットテーブルを作成できるpivot_table関数が実装されています。そこで本記事ではpivot_table関数
teddy-g 2020/08/17
PandasでEXCELのピボットと同じことができる。インデックスがmulti-indexになるのでその辺の値の操作は注意する必要がある。関数を柔軟に適用できるのでEXCELより凝った集計・統計を作りたいときは便利。

python

data

datascience

statistics

stats

tips

pandas
リンク
階層的クラスタリングと、任意の数のクラスタへの分割 - Qiita
2016年に作った資料を公開します。もう既にいろいろ古くなってる可能性が高いです。︵追記‥新しい記事は階層的クラスタリングとシルエット係数をご覧ください。︶本実習では教師なし学習の一種である階層的クラスタリングを行ないます。 * 階層的クラスタリングとは何か、知らない人は下記リンク参照↓ * 階層的クラスタリングとは * クラスタリング (クラスター分析) まずはサンプルデータの取得から # URL によるリソースへのアクセスを提供するライブラリをインポートする。 import urllib # ウェブ上のリソースを指定する url = 'https://raw.githubusercontent.com/maskot1977/ipython_notebook/master/toydata/iris.txt' # 指定したURLからリソースをダウンロードし、名前をつける。 url
teddy-g 2020/07/06
Pythonで階層的クラスタリングをやる方法について。距離行列を作った後のステップも説明されていて丁寧。

python

scipy

clustering

datascience

statistics

machinelearning
リンク
scipyのlinkage関数の結果について | 分析ノート
前回の記事の続きです。参考:scipyで階層的クラスタリング前回の記事で階層的クラスタリングを実行し可視化するところまで紹介しましたが、今回は一歩戻ってlinkage関数の戻り値の中身を見てみます。とりあえず、 linkage matrix をprintして結果を見てみましょう。 from sklearn.datasets import load_iris from scipy.cluster.hierarchy import linkage X = load_iris().data[::10, 2:4] print(X.shape) # (15, 2) # ユークリッド距離とウォード法を使用してクラスタリング z = linkage(X, metric='euclidean', method='ward') print(z.shape) # (14, 4) print(z) #
teddy-g 2020/07/06
scipyのlinkage関数を使って得た結果は、ノード1、ノード2、距離、ノード数となっている。ポイントはこうしてペアが作られる度に新しいノードIDが追加されていること。

●python

●clustering

●machinelearning

●datascience

●statistics

●scipy
リンク
「階層的クラスタリング」の「最短距離法（Single Linkage Method）」とは？初学者の方でもわかりやすいようにまとめました
クラスター分析でわかること︵前回までの復習をかねているので、わかる方は読み飛ばしてください︶﹁クラスター分析﹂というのは、バラバラでよくわからないものを、似ているものは同じグループに、似ていないものは違うグループに分けることをいいます。﹁グループ分け﹂することで、よくわからないものが、わりと分かりやすい感じになります。たとえば、タイトルも目次もない、順序もバラバラの本の原稿用紙を大量に受け取っても、その中身が何なのか理解するのは大変だと思います。でももしも、タイトルや目次がついていたり、文章の構成が前もって分かっていれば、中身の概要はつかめるはずです。この目次や文章の構成というのは、原稿用紙全体をグループ分けしているわけです。バラバラの内容もグルーピングすることで、中身が理解しやすくなります。テキストマイニングでのクラスター分析も、大量の文書の内容が、おおよそどんなものか
teddy-g 2020/07/05
階層的クラスタリングの簡潔だが詳細な説明。ロジックがわかる。

datascience

statistics

clustering
リンク
1 2 3 4 5 6 次のページ