LoginSignup
1843
1806

More than 5 years have passed since last update.

自然言語処理における前処理の種類とその威力

Last updated at Posted at 2017-04-17

Web HTML  JavaScript 

スクリーンショット 2017-04-04 9.20.08.png : Deep learning for computational biology

1.2.3.() 


551.2.3.

スクリーンショット 2017-04-13 10.09.02.png


JavaScriptHTML:
スクリーンショット 2017-04-03 11.20.10.png
JavaScriptHTML使使

https://regex101.com/
regexp.mov.gif
Python Beautiful Soup  lxml 便
BeautifulSoup:
preprocessings/ja/cleaning.py


 MeCab  Juman++ Janome 

:
スクリーンショット 2017-04-03 13.54.31.png
3使Web

 NEologd NEologd NEologd使NEologd使:
スクリーンショット 2017-04-03 14.01.58.png
Python:
preprocessings/ja/tokenizer.py


使

3









Naturalnatural
スクリーンショット 2017-04-05 9.50.55.png


(0)201711000
スクリーンショット 2017-04-05 9.34.29.png


()


SonySony2
スクリーンショット 2017-04-05 10.03.54.png
(loooooooooooool -> lol)(4eva -> forever)( -> )

:
preprocessings/ja/normalization.py


()

2







 Slothlib 300:
あそこ
あたり
あちら
あっち
あと
あな
あなた
あれ
いくつ
いつ
いま
いや
いろいろ
...

使:
スクリーンショット 2017-04-03 10.52.06.png


()50:
figure_1.png50the of50%

:
preprocessings/ja/stopwords.py


2


one-hot



One-hot


one-hotone-hot101 0 

one-hotpython(nlp, python, word, ruby, one-hot)5python
スクリーンショット 2017-03-03 15.18.11.png
one-hotone-hot10011


50300
スクリーンショット 2017-03-03 15.46.50.png
使one-hotpython  ruby  python  word 

:
preprocessings/ja/word_vector.py



使


 livedoor 使livedoor  livedoor HTML9:




Sports Watch

IT



MOVIE ENTER





livedoor HOMME

Peachy

使




(ipadic)BoWTF-IDF

3:


URL






 NEologd 使2:







BoWTF-IDF RandomForest 


(accuracy)
前処理あり 前処理なし
0.917 0.898


 1.91.9

600
スクリーンショット 2017-04-17 22.25.57.png

notebooks/document_classification.ipynb




Twitter
@Hironsan


参考文献

1843
1806
0

Register as a new user and use Qiita more conveniently

  1. You get articles that match your needs
  2. You can efficiently read back useful information
  3. You can use dark theme
What you can do with signing up

1843
1806