mixi engineer blog

*** 引っ越しました。最新の情報はこちら → https://medium.com/mixi-developers *** ミクシィ・グループで、実際に開発に携わっているエンジニア達が執筆している公式ブログです。様々なサービスの開発や運用を行っていく際に得た技術情報から採用情報まで、有益な情報を幅広く取り扱っています。

軽量データクラスタリングツールbayon


13fujisawa


調

3

クラスタリング
K-means


 ()

Wikipedia: 

bayon


bayon


fujimizu/bayon · GitHub

bayon - simple and fast clustering tool (, )


bayon5012
データ数クラスタ数実行時間(秒)
1000 10 0.17
50000 1000 36
500000 10000 720

bayonRepeated BisectionCLUTO使CLUTOGUI便CLUTO使CLUTO使bayonGPL2

CLUTObayonCLUTObayon


bayon11ID
% cat input.tsv
阿佐田  J-POP      10  J-R&B     6   ロック4小島    ジャズ8レゲエ9古川    クラシック4ワールド4田村    ジャズ9メタル2レゲエ6青柳    J-POP       4  ロック    3   HIPHOP   3
三輪    クラシック8ロック1

11ID()J-POPJ-R&B

使3
% bayon -n 3 input.tsv > output.tsv

11IDID
% cat output.tsv
1       小島    田村2阿佐田  青柳3古川    三輪

J-POP



bayonRepeated BisectionRepeated BisectionCLUTO使2K-means

Repeated Bisection11-42


(一)1()

(二)22

(三)2

(四)2()


repeated bisection
2-42K-meansRepeated BisectionK-means

14cosineCLUTO

使


bayon bayon使調