[B! 自然言語処理] yukiyan_wのブックマーク

2019年末版形態素解析器の比較 - Qiita

形態素解析は日本語処理の初歩であり、文を単語に分割したり、品詞や活用形、基本形を分析するために行います。本記事では形態素解析のツールをいくつかの出力例を交えて比較していきます。︵SentencePieceでいいじゃん、という人はお呼びでないですが、そういう方には、Twitterのトレンドが変な分割になってたら嫌では？と申し上げておきたいです︶ MeCab 言わずと知れた形態素解析器。とりあえずMeCabを使うという人は今なお多いことでしょう。とにかく高速であるということと、システムと辞書が分離されているのが特徴です。またPythonから使うのも簡単になりました︵Janomeというものがありましたがmecab-python3の方が高速です︶。Javaから使いたい人はKuromojiを使えばmecab(+ipadic)相当の結果が得られるはずです。辞書はIPA辞書が推奨されていますが、Un

yukiyan_w 2019/12/18

自然言語処理

リンク

spaCyを使ってルールベースの記述をシンプルに！ - Qiita

この記事は自然言語処理アドベントカレンダー 2019の12日目です。昨今自然言語処理界隈ではBERTを始めとする深層学習ベースの手法が注目されています。一方それらのモデルは計算リソースや推論速度の観点で制約が大きく、プロダクション運用の際は留意すべき事項を多く持ちます。（googleが検索にBERTを導入というニュースを見た時はとても驚きました）そこで本記事では自然言語処理タスクのシンプルかつ運用しやすい実装方法を考えていきます。実装にはpythonと以降説明するspaCyとGiNZAの2つのライブラリを使います。環境: ubuntu18.04 python 3.6.8 ライブラリインストールはpipから行います pip install spacy pip install "https://github.com/megagonlabs/ginza/releases/downlo

yukiyan_w 2019/12/12

リンク

内橋堅志 / yuni代表 | uchi_k on Twitter: "日本語形態素解析器、ノータイムで MeCab だったけど nagisa も結構良さそう Python による日本語自然言語処理〜系列ラベリングによる実世界テキスト分析〜 / PyCon JP 2019 https://t.co/MVvXXfUlhJ"

yukiyan_w 2019/10/02

自然言語処理

リンク

[Python]文書分類における文書ベクトル表現手法の精度比較 - Qiita

TL; DR 日本語文書分類タスクを機械学習で解くとき、下記の文書ベクトル表現手法ごとの精度を比較しました。 Github: https://github.com/nekoumei/Comparison-DocClassification/tree/master/src ※最近のGithub、jupyter notebookのレンダリングがよく失敗するのでnbviewerも貼っておきます https://nbviewer.jupyter.org/github/nekoumei/Comparison-DocClassification/tree/master/src/ Bag of Words TF-IDF Word2Vecの平均値 Doc2Vec SCDV SWEM 結論としては下記の3点です。問題によるので銀の弾丸はない（あたりまえ） BoW, TF-IDFのような古典的手法も案外悪く

yukiyan_w 2019/05/10

リンク

乃木坂46・欅坂46・けやき坂46のブログから単語分散表現を学習 - myaun’s blog

1. はじめに特定ドメインのテキストから単語分散表現を学習することに興味があったので実験しました。今回実施した内容乃木坂46・欅坂46・けやき坂46のブログを収集してテキストへ前処理をする fastTextにより収集したブログのテキストから単語分散表現を学習する学習した単語分散表現による類似単語の検索や2次元空間へのプロットの結果を確認する 2. 単語分散表現とは単語分散表現は、文書から学習される単語の意味を表すベクトルです。学習されたベクトルが「“King” – “Man” + “Woman” = “Queen”」のような足し算、引き算ができることで話題になりました。この話題になったミコロフの論文が発表されたのは2013年でした。そこから早6年、学術領域でその方法論や応用が盛んに議論されております。*1 fastText 今回採用したfastTextは、Facebookによ

yukiyan_w 2019/03/01

自然言語処理

リンク

自然言語処理における、前処理のポータビリティを向上させる

皆さん前処理してますか？どの分野の機械学習でも前処理は重要ですが、自然言語処理は元のデータが数値でないこともあり、処理ステップが多くなりがちです(テキスト=>単語=>単語ID)。また、処理の一貫性を保つには実装コードだけでなくパラメーター(ストップワードなど)も管理する必要があったりします。 Photo by Ramnath Bhat端的には、自然言語処理では前処理のポータビリティを保つのが難しいです。そこで、それを実現するツールを開発しました(Star頂けたら幸いです！)。

yukiyan_w 2019/02/25

便利そう

自然言語処理

リンク

要望分析のための投稿テキストのカテゴリ分類支援 / Assisting Text Classification for Request Post Analysis

■イベント第14回テキストアナリティクス・シンポジウム http://www.ieice.org/~nlc/tm14.html ■登壇概要タイトル：要望分析のための投稿テキストのカテゴリ分類支援登壇者：高橋寛治 ■文献情報髙橋寛治, 奥田裕樹. 要望分析のための投稿テキストのカテゴリ分類支援. 電子情報通信学会テキストアナリティクス・シンポジウム, 信学技報, Vol.118, No.439, NLC2018-48, pp. 69-74, (2019.2) ▼Sansan Builders Box https://buildersbox.corp-sansan.com/

yukiyan_w 2019/02/13

リンク

MeCabをブーストさせよう - Qiita

はじめに MeCabとは日本語の形態素解析器をいいます。ここで、形態素というのは言語で意味を持つ最小単位のことです。分割された単語をベクトル化したり、各語彙の頻度を調べたりするために、最小単位に分割するモチベーションが生じます。そもそもなぜ、形態素解析なんかやるの？っていう動機については、http://qiita.com/Hironsan/it ems/2466fe0f344115aff177 とかに書かれている通り、(上記の記事では、単語の分割が形態素解析に当たります)、分割された単語をベクトル化したり、各語彙の頻度を調べたりするためです。今回は、MeCabを用いて、できるだけ、精度高く分かち書きできるように頑張ります。1追記) もう一つのMecabをブーストさせよう(Google Search Console編: https://qiita.com/knknkn1162/it ems/

yukiyan_w 2018/08/29

リンク

Private Presentation

yukiyan_w 2018/06/22

自然言語処理

リンク

モダリティ変換と画像生成 SSII OS2 マルチモーダル深層学習

[OS2-04] モダリティ変換と画像生成加藤大晴 (東京大学) 深層学習によるエンコーダ・デコーダを用いたモダリティの変換は、機械翻訳(言語→他言語)で成功を収めたのち、画像の説明文の生成(画像→言語)や音声認識(音声→言語)などへと展開されてきました。この枠組みを用いて画像を生成する、つまり深層学習で画像デコーダを実現することはできるのでしょうか? 本講演では、このような観点から近年の画像生成手法の動向と私たちの取り組みを紹介します。Lire moins

yukiyan_w 2018/06/15

自然言語処理

リンク

GitHub - facebook/duckling: Language, engine, and tooling for expressing, testing, and evaluating composable language rules on input strings.

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukiyan_w 2018/06/15

テキストから時刻表現を抽出するライブラリ。Haskell製。

自然言語処理

リンク

Spacyでお手軽NLP / NLP with spacy

2018/06/13のレトリバセミナーのスライドです

yukiyan_w 2018/06/15

自然言語処理

リンク

spaCy - Industrial-strength Natural Language Processing in Python

Get things done spaCy is designed to help you do real work — to build real products, or gather real insights. The library respects your time, and tries to avoid wasting it. It's easy to install, and its API is simple and productive. Blazing fast spaCy excels at large-scale information extraction tasks. It's written from the ground up in carefully memory-managed Cython. If your application needs to

yukiyan_w 2018/06/13

自然言語処理

リンク

Python3×日本語：自然言語処理の前処理まとめ - Qiita

初めに方針・pandasは、CSVや、Mysql、SQLiteなど様々なデータベースから、取り扱いやすい自身のDataFrameに変換することができる。・pandasのDataFrameはscikit-learnとの連携も容易である。・自然言語処理を日本語で行う場合、適切に前処理を行わなければ、良い結果をだすことはできない。今回は自然言語処理における前処理の種類とその威力を参考にさせていただき、具体的にpandasのDataFrameの形で存在する日本語データの前処理について考えていきます。 ※引用文は記載が無い場合、上記の記事からのものです。準備と想定 sqlite3からpandasのデータフレームへ変換しています。 import pandas as pd import sqlite3 con = sqlite3.connect("db/development.sqlite

yukiyan_w 2018/06/13

自然言語処理

リンク

機械学習分類器が載ったモバイルブラウザを作った話 - 変なサービスを作るのが好き

はじめに半年ほどかけてアプリのプロトタイプを製作したので、開発の動機や使用したツールなどをまとめてみる。作ったものはページを自動分類するモバイルブラウザでWWDC2017で発表されたCore MLを使用している。機械学習を用いたサービスを製作したのは初めてだったけれど、scikit-learn等のライブラリやgoogle custom search等のAPIが充実しているので比較的容易に開発を始めることができた。しかしパラメータの設定等まだまだ試していないことが多くあったり、教師データの質と数の問題から分類の精度は現時点であまり良いものではない。しかし、精度を向上する仕組みなどを取り入れているので今後の改善に期待して欲しい。開発の動機友人と会った時、この漫画が面白いとか、あの映画が面白かったとかそんな話しをよくする。後でそのコンテンツを読みたい、観たいと思ったものを忘れないよ

yukiyan_w 2018/06/12

自然言語処理

リンク

[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」

最新版のJSAI2018でのチュートリアル資料です。 --- 6月7日（木）　13:50-15:30 I会場（2F ロイヤルガーデンA） ---

yukiyan_w 2018/06/10

自然言語処理

リンク

【python】nltkで英語のStemmingとLemmatization - 静かなる名辞

Stemming︵ステミング︶は単語の語幹を取り出したいとき、Lemmatization︵レンマ化、敢えてカタカナ表記するとレンマタイゼーション︶はカテゴリごとにグルーピングしたりしたいときに使う。公式ドキュメントはここ。 nltk.stem package — NLTK 3.4 documentation 目次Stemming 概要 Porterを使う Lancasterを使ってみるLemmatizing 結論スポンサーリンクStemming 概要 nltkでStemmingに使えるクラスはたくさんある︵ように見える︶。nltk.stemに実装されているものだけでも、 ARLSTem ArabicStemmer*1 アラビア語用 ISRI ArabicStemmer*2 アラビア語用 Lancaster Stemmer*3 英語用。古い︵1990年︶ Porter Stem

yukiyan_w 2018/06/07

自然言語処理

リンク

[旧版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」

最新版はこちら！：https://www.slideshare.net/yukiarase/jsai2018-101054060 JSAI2018でのチュートリアル資料です。 --- 6月7日（木）　13:50-15:30 I会場（2F ロイヤルガーデンA） ---Read less

yukiyan_w 2018/06/06

自然言語処理

リンク

「OK word2vec ! "マジ卍"の意味を教えて」 Pythonでword2vec実践してみた - Np-Urのデータ分析教室

さて、今回はPythonによるword2vecの実践編です！ word2vecって何？？という方は、こちらの記事を一読してから本記事に入って頂くといいかと思います。 www.randpy.tokyo (こちらとても高評価頂いております。ありがとうございます！！︶上のリンク先でも書きましたが、簡単にまとめると、word2vecを使うことで単語の意味をベクトル表現化することができます。単語の意味をベクトル表現できると、近い意味の単語を調べる単語同士の意味を足したり引いたりといった嬉しいことが実現できます。ということで今回は、タイトルにもある通りJK用語の代表格である”マジ卍”という言葉の意味を、word2vecに聞いてみたいと思います。本当は"マジ卍"の意味を直接JKに聞きたいのですが、JKの知り合いも当然いないですし……まぁここは頭を使ってデータを使えばなんか分かるっしょという

yukiyan_w 2018/06/06

自然言語処理

リンク

word2vec（Skip-Gram Model）の仕組みを恐らく日本一簡潔にまとめてみたつもり - これで無理なら諦めて！世界一やさしいデータ分析教室

久しぶりの記事更新です。今回はかねてより書いてみたかったword2vecについて。 word2vecはとても面白い考え方なのですが、個人的には仕組みがちょっと捉えづらく、理解するのに結構時間がかかりました。そこで今回は、過去の自分を救えるように、word2vecをできるだけ簡潔に、そして直観的に理解できるように解説していきます。なお、word2vecについては以下書籍でよくまとまっているので、よろしければ是非！ Pythonと実データで遊んで学ぶデータ分析講座作者: 梅津雄一,中野貴広出版社/メーカー: シーアンドアール研究所発売日: 2019/08/10メディア: 単行本︵ソフトカバー︶この商品を含むブログを見る ※追記※ スマホのAMPだと、行列や数式がうまく表示されない可能性がありますので、こちらのリンクかPCから購読頂けますと幸いです。 word2vecを使うと何ができる

yukiyan_w 2018/06/06

自然言語処理

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

自然言語処理に関するyukiyan_wのブックマーク (43)

お知らせ

月間はてなブックマーク数ランキング（2024年6月）

今週のはてなブックマーク数ランキング（2024年6月第5週）

今週のはてなブックマーク数ランキング（2024年6月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス