サクサク読めて、
アプリ限定の機能も多数!
アプリで開く
●はてなブックマークって?
●アプリ・拡張の紹介
●ユーザー登録
●ログイン
●ログアウト
検索対象
●すべて
●タグ
●タイトル
●本文
並び順
●新着
●人気
ブックマーク数
●1 user
●3 users
●50 users
●100 users
●500 users
セーフサーチ
●オン
●オフ
期間指定
●すべて
●1週間
●1ヶ月
●1年
まで
1 - 7 件 / 7件
新着順
人気順
絞り込み
検索対象
ブックマーク数
期間
セーフサーチ
n-gramの検索結果1 - 7 件 / 7件
●
6 users
●
qiita.com/nymwa
●
テクノロジー
●2022/06/02
最近ではニューラルネットを使った言語モデルがよく用いられていますが,N-gram言語モデルをいまさら実装し,いまどきKneser-Neyスムージングで遊んで知見を深めようという気持ちの記事です.せっかくなので,﹁Basic English﹂や﹁やさしい日本語﹂よりもかんたんで,単語が120語しかないミニマリズム言語トキポナの言語モデルを作成し,その挙動を観察します. ︵この記事と同じ実装をgithubで公開しています https://github.com/nymwa/knlm ︶ N-gram 言語モデル 言語モデルとは,単語の列の出現確率を与える確率モデルです.単語列 $a_1, a_2, a_3, \cdots, a_n$ の確率を $$p(a_1, a_2, a_3, \cdots, a_n)$$ として計算します.言語モデルは,﹁ことば﹂を確率で表したモデルと言うことができます.
●あとで読む
●
6 users
●
srbrnote.work
●
テクノロジー
●2021/08/25
日本語の全文検索ぜんぶんけんさく (full-text search, FTS) を、高速に実行する Python コード例です。 Python の標準モジュール sqlite3 を使用しました。 sqlite3 から、SQLiteエスキューライト の全文検索 (FTSエフティーエス) を使ってみました。 試したのは、FTS4エフティーエスフォー と FTS5エフティーエスファイブ の2種類です。 ところで、SQLite の読み方は色々ありました。YouTube では、エスキューライト、エスキューエライト、スィクライト、スィクエライト、などの発音を聞きました。 全文検索の使い方︵FTS の使い方︶ですが、テキストを N-Gram にして、FTS4 か FTS5 の仮想テーブルに INSERT するだけでした。 ︵2022年2月5日 追記︶MeCab の使い方も書きました。 MeCab で
●
33 users
●
blog.goo.ne.jp/kosei-gooblog
●
学び
●2021/02/03
先日、勤務先で教員向けに N-gramを用いたコンピュータ処理による古典研究法の講習をし、例として三経義疏の分析をやってみました。文系のパソコンおたく仲間である漢字文献情報処理研究会のメンバーたちで開発したこのNGSM︵N-Gram based System for Multiple document comparison and analysis︶という比較分析法に関しては、2002年に東京大学東洋文化研究所の﹃明日の東洋学﹄No.8 に簡単な概説︵こちら︶を載せ、その威力を強調してあります。それ以来、宣伝し続けてきたのですが、文系の研究者には処理が複雑すぎたため、まったく広まりませんでした。 ところが、一昨年の暮に、上記の主要な開発メンバーであった師茂樹さんが、私の要望に応えてきわめて簡単で高速な形に改善してくれました。その結果、大学院の私の演習に出ている院生たちは、1回講習したらほと
●テキストマイニング
●仏教
●歴史
●宗教
●Tech
●
4 users
●
qiita.com/y_itoh
●
テクノロジー
●2020/09/16
自然言語処理には2つの手法があります。 統計情報から単語を表現する手法を﹁カウントベース﹂といい、ニューラルネットワークによる手法を﹁推論ベース﹂といいます。 カウントベースの手法として、文字や単語の﹁連なり﹂の頻度分布N-gramをもとに文を生成するプログラムを考えます。 ⑴ テキストデータの読み込み
●Python
●
7 users
●
blog.kozakana.net
●
テクノロジー
●2020/06/11
今回MySQL5.7.22を用いて検証しています。 初期設定 データベース作成 mysql> CREATE DATABASE fts; Query OK, 1 row affected (0.00 sec) mysql> use fts; Database changed テーブル作成 テーブル作成時に全文検索をするカラムの型をFULLTEXTにし、パーサーにngramを指定します。 mysql> CREATE TABLE documents (id SERIAL PRIMARY KEY, content VARCHAR(255), FULLTEXT(content) WITH PARSER ngram) CHARACTER SET utf8; Query OK, 0 rows affected (0.10 sec) レコード挿入 レコードの挿入は通常の文字列同様に入れられます。 mysq
●tech search
●tech search fulltext
●mysql
●search
●Article
●検索
●Tech
●
80 users
●
blog.kozakana.net
●
テクノロジー
●2019/12/24
プラコレアドベントカレンダーもラストスパート!こんにちは、森です! 仕組みをちゃんと理解するには実装してみることが一番!ということで、N-gramの中でも一番実装が簡単なuni-gramをjsで実装してみました! 目次 全文検索とは uni-gram インデックスの作成 文章にdocument IDを振る 文字列の分割 文字位置付与 トークンごとに位置情報をまとめる トークンをキーに引けるように保存 インデックスから検索 検索文字列をトークンに分割 インデックスからトークンのデータを取得 取得したデータをつなぎ合わせる 実装 動かし方 インデックスの作成 インデックスから文字列を検索 コード 参考文献 最後に 全文検索とは まず最初に全文検索とはなにかってことですが、Wikipediaで調べてみました﹁コンピュータにおいて、複数の文書︵ファイル︶から特定の文字列を検索すること。﹁ファイル名
●javascript
●N-gram
●全文検索
●言語処理
●あとで読む
●
3 users
●
horizoon.jp
●
テクノロジー
●2019/11/05
※ この記事は以前Mediumで公開した記事 の転載です MySQL5.7・InnoDB・N-gram という環境下で全文検索の挙動やパフォーマンスについて検証を行った。FULLTEXT INDEXは以前はMyISAMでしか利用できなかったが、 5.6.4からInnoDBでのサポートが始まっていた。 InnoDBの全文検索は5.7、特に5.7.6以降でいわゆるCJK︵中国語・日本語・韓国語︶がN-gramで標準サポートされ始め、 CREATE TABLE文で簡単にパーサーを指定できる構文のサポート、 設定やクエリの組立で考えないといけない事が減った事で導入障壁がかなり下がっている。 ※4.1と5.0でサービス導入経験がある私の個人的な比較感想です。 FULLTEXT INDEXも他のINDEXと同様にデータ更新・削除の際にINDEXのrebuildが走るので更新時の負荷には注意が必要で、F
●全文検索
●mysql
1
キーボードショートカット一覧
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く
●総合
●一般
●世の中
●政治と経済
●暮らし
●学び
●テクノロジー
●エンタメ
●アニメとゲーム
●おもしろ
●アプリ・拡張機能
●開発ブログ
●ヘルプ
●お問い合わせ
●ガイドライン
●利用規約
●プライバシーポリシー
●利用者情報の外部送信について
●ガイドライン
●利用規約
●プライバシーポリシー
●利用者情報の外部送信について
●公式アカウント
●ホットエントリー
●はてなブログ
●はてなブログPro
●人力検索はてな
●はてなブログ タグ
●はてなニュース
●ソレドコ
Copyright © 2005-2024 Hatena. All Rights Reserved.
設定を変更しましたx