音声処理の人気記事 154件 - はてなブックマーク

1 - 40 件 / 154件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

音声処理の検索結果1 - 40 件 / 154件

音声処理に関するエントリは154件あります。 AI、人工知能、音声などが関連タグです。人気エントリには﹃﹁コピペできるようになったら神→対応しました﹂Google、驚異のリアルタイム文字変換の進化﹄などがあります。

「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
- 953 users
- www.buzzfeed.com
- テクノロジー
- 2019/09/02
Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換（Live Transcribe）アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。
3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した（CloseBox） | テクノエッジ TechnoEdge
- 736 users
- www.techno-edge.net
- テクノロジー
- 2023/08/28
わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。
- AI
- あとで読む
- 技術
- voice
- 音声合成
- 機械学習
- 英語
- 音声
- 人工知能
- oss
高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応（CloseBox） | テクノエッジ TechnoEdge
- 622 users
- www.techno-edge.net
- テクノロジー
- 2023/04/17
オープンソースのAI声質変換（ボイスチェンジャー）ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC（Retrieval-based Voice Changer）に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。
- AI
- あとで読む
- 音声合成
- webサービス
- 技術
- 日本語
- ソフトウェア
- 音声
- 音声処理
- 変換
AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース｜DTMステーション
- 608 users
- www.dtmstation.com
- テクノロジー
- 2020/09/18
今年に入り、AI歌声合成の動きが激しく、その進化のすごさ、クオリティーの高さには驚くばかりです。中でも注目すべきは今年2月に彗星のように登場し、フリーウェアとして公開されたNEUTRINO︵ニュートリノ︶です。これはSHACHI(@SHACHI_NEUTRINO)さんが開発するフリーのソフトであり、これまで東北きりたん、謡子、そしてJSUT︵いずれも学術的に公開されている歌声データベースを利用して開発している︶の3つの歌声ライブラリが同梱されてました。そこに9月18日、新たに東北イタコが追加されたのです︵9月18日現在、公開されている0.400には東北きりたん、東北イタコのみが同梱。それ以外については後日公開される模様です︶。先日、﹁AIきりたんに次ぐ第2のAIシンガー、東北イタコの歌唱データベース制作プロジェクトのクラウドファンディングスタート﹂という記事でも紹介し、無事にクラウドファ
- AI
- あとで読む
- vocaloid
- 技術
- DTM
- 音楽
- 機械学習
- ボカロ
- これはすごい
- テクノロジー

19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界｜DTMステーション
- 576 users
- www.dtmstation.com
- アニメとゲーム
- 2021/05/07
4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO（コエ・フォント・スタジオ）は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先
- 技術
- あとで読む
- サービス
- webサービス
- ビジネス
- 音声
- DTM
- font
- 会社
- sound
Clubhouse リアルタイム配信の仕組みについて (妄想編)
- 546 users
- zenn.dev/voluntas
- テクノロジー
- 2021/01/30
Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようですライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 @suthio_さんがつぶやいていたのがきっかけ https://twitter.com/suthio_/status/1353945619577008128?s=20 招待してくれた @dmnlk さんに感謝 DNS パケット見ただけ他の方の解析は見ていないクライアント側の処理は知らない気が向いたら更新している著者商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 IRIAM 配信サーバ設計者妄想求人にメディアサーバ
- clubhouse
- WebRTC
- あとで読む
- webサービス
- SNS
- server
- network
- privacy
- サーバ
- architecture
Clubhouse リアルタイム配信の仕組みについて (解説編)
- 535 users
- zenn.dev/voluntas
- テクノロジー
- 2021/02/14
Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようですライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提ざっくりと雑に解説。どんな技術を使っていてこんな感じだろうという妄想は以下をどうぞ。 Clubhouse リアルタイム配信の仕組みについて (妄想編) 著者商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 Clubhouse の仕組みはとてもシンプルで配信者が N 人で、それを数千人が聞くという co-streaming と呼ばれる仕組みの一つ。この方式は今までは主に映像ありでパネルディスカッション的な使い方が主だっだ。それを
- clubhouse
- あとで読む
- WebRTC
- webサービス
- ネットワーク
- network
- SNS
- 技術
- 開発
- web
AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能（CloseBox） | テクノエッジ TechnoEdge
- 479 users
- www.techno-edge.net
- テクノロジー
- 2023/04/09
おいおいまたかよ、驚き屋かお前はと言われそうですが、またゲームチェンジャーなんですよ。ほんとすいません。全部AIが悪いんです。AI関連はちょっと目を離すと取り残されてしまいます。後から来たのに追い越され、泣くのが嫌なら歩いていくしかないのです。今回、それが再びAI音声合成で起きました。筆者はAIアートグランプリを受賞したおかげでいろいろなところから取材を受けたり自分でも解説記事を書いたりしていますが、その中で、Diffusion︵拡散︶モデルを使ったDiff-SVCというAI声質変換によってリアルな元音声を再現できると説明してきました。ですが、これからは﹁実は今は新しいAI技術を使っているんですよ﹂と付け加えなければいけません。妻の歌声を合成するのに使っていたDiff-SVCから別の新しい技術に乗り換えてしまったのです。 Diff-SVCが出た後に、So-VITS-SVC︵SoftV
- AI
- あとで読む
- 音声
- 音声合成
- 機械学習
- DTM
- 学習
- voice
- ソフトウェア
- 人工知能
AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】
- 477 users
- av.watch.impress.co.jp
- テクノロジー
- 2022/12/05
- DTM
- あとで読む
- AI
- 音楽
- 人工知能
- music
- audio
- 機械学習
- オーディオ
- ソフトウェア
超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
- 450 users
- prtimes.jp
- テクノロジー
- 2023/01/19
株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日株式会社レアゾン・ホールディングス(本社：東京都新宿区、代表取締役：渡邉真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。プロジェクトwebサイト：https://
- AI
- あとで読む
- 日本語
- 音声認識
- 音声
- voice
- 技術
- フリーソフト
- コーパス
- 機械学習
AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること｜DTMステーション
- 417 users
- www.dtmstation.com
- テクノロジー
- 2020/03/03
すでにご存じの方も多いと思いますが、2月22日にAIきりたんなるものが登場し、大騒ぎとなりました。正確にはSHACHI(@SHACHI_KRTN)さんという方が開発したNEUTRINOというAI歌声合成ソフトがフリーウェアで公開されるとともに、それで歌わせた楽曲が、くろ州さんなどによって公開され、話題になったのです。2月22日は、ちょうどMIDI 2.0の日米合意があった日で、そのドタバタでネットをチェックできておらず、私が気づいたのは24日になってから。その歌声を聴いて驚愕しました。実際どんなものなのかと、さっそくNEUTRINOをダウンロードし、手元にあったMusicXMLデータを元に歌わせてみると、従来のVOCALOIDなどとは別次元の人間的な歌声で、東北きりたんが歌ってくれてさらに驚いたのです。どういうことなのか知りたいと思い、開発者のSHACHIさんに連絡してみたところ「種々の
- AI
- DTM
- あとで読む
- NEUTRINO
- vocaloid
- 音楽
- 研究
- 学習
- 開発
- voice
高品質な音声変換ソフトウェア | Seiren Voice
- 404 users
- seiren-voice.dmv.nico
- テクノロジー
- 2020/09/14
AIの技術を用いてクオリティを追求した、今までにない音声変換ソフトウェア。いつもと違う声で表現することの楽しさを、ぜひ体験してみてください。 AI技術を用いた高品質な音声変換ソフトウェアです。誰の声でも狙ったキャラクターの声に変換することができます。クオリティを追求することで、ボイスチェンジャーらしいノイズが乗らない、人間らしい声を実現することができました。キャラクター紹介
- 機械学習
- 音声処理
- AI
- webサービス
- あとで読む
- 技術
- 音声合成
- 音声
- voice
- システム
OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
- 333 users
- gigazine.net
- テクノロジー
- 2022/09/22
画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン
超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
- 323 users
- gigazine.net
- テクノロジー
- 2023/01/20
東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R
- AI
- あとで読む
- 音声認識
- webサービス
- voice
- Python
- GIGAZINE
- 人工知能
- techfeed
- 音声
SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready
- 311 users
- techfeed.io
- テクノロジー
- 2021/09/10
- python
- あとで読む
- オーディオ
- Spotify
- ライブラリ
- audio
- music
- tech
音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan
- 302 users
- ja.stability.ai
- テクノロジー
- 2023/09/13
Stability AI は、音楽とサウンド生成のための初のAIモデルとなる Stable Audio を発表しました。 Stable Audio は、最新の生成 AI 技術を駆使し、使いやすい Web インターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する世界初の製品です。Stability AI は、45秒までのトラックを生成してダウンロードできる Stable Audio の基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供しています。 StabilityAI の CEO である Emad Mostaque は、「唯一の独立した、オープンでマルチモーダルな生成 AI の会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、St
- AI
- あとで読む
- 音楽
- music
- 生成AI
- audio
- 機械学習
- DTM
- 人工知能
- 技術
リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました
- 301 users
- blog.hiroshiba.jp
- テクノロジー
- 2019/09/28
はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
- 206 users
- dev.classmethod.jp
- テクノロジー
- 2023/10/20
自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみたはじめに今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。ストリーミングとバッチ処理のどちらでも文字起こしが可能です。攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び
- AI
- あとで読む
- aws
- API
- 人工知能
- OpenAI
- APIエコノミー
- Amazon Web Services
- techfeed
Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開／テキストだけでなくアップロードしたオーディオから音楽を生成可能に
- 200 users
- forest.watch.impress.co.jp
- テクノロジー
- 2024/04/04
- AI
- あとで読む
- 音楽
- Stability AI
- 人工知能
- music
- 音声処理
- 無料
- オーディオ
- *あとで読む
AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に（CloseBox） | テクノエッジ TechnoEdge
- 197 users
- www.techno-edge.net
- テクノロジー
- 2024/05/25
このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。バージョン3.5のEarly Access版（有料プランユーザーのみに提供）を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な
- AI
- あとで読む
- 人工知能
- 音楽
- ChatGPT
- music
- 機械学習
Introducing ChatGPT and Whisper APIs
- 189 users
- openai.com
- テクノロジー
- 2023/03/02
Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those
- ChatGPT
- AI
- あとで読む
- API
- OpenAI
- gpt
- deep learning
- 文章
- 学習
- deeplearning
writeout.ai
- 173 users
- writeout.ai
- テクノロジー
- 2023/03/09
Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.
- AI
- audio
- あとで読む
- transcription
- speech
- 音声
- webservice
- ツール
老舗音声編集ソフトのAudacityをインストール不要でブラウザでも使える「Wavacity」
- 156 users
- gigazine.net
- テクノロジー
- 2023/09/09
無料で提供されているオープンソースの音声編集ソフトウェア「Audacity」をフォークし、ブラウザ上で動作するようにした「Wavacity」が公開されています。 Wavacity https://wavacity.com/ 上記のリンクにアクセスすると、以下のような画面が表示されます。本家のAudacityは表示言語を日本語に設定する必要がありますが、Wavacityは最初から日本語で表示されるので、日本語ネイティブユーザーにとってかなり取っ付きやすくなっています。記事作成時点で最新バージョンとなる本家Audacity(v3.3.3)の画面が以下。比較するとこんな感じ。スライダーを右に動かすとWavacityが、左に動かすとAudacityが表示されます。楽曲ファイルをインポートするには「ファイル」から「開く」をクリックし、ファイルを選択します。タイムライン上でドラッグすると、編集
Meta、新音声生成AIモデル「Voicebox」短い音声から自在に声を生成
- 150 users
- www.watch.impress.co.jp
- テクノロジー
- 2023/06/18
- AI
- あとで読む
- Meta
- 音声処理
- 技術
- 人工知能
GPUを使ったノイズキャンセリングがすごかった（5月12日追記）【高橋忍のにゃんともWindows】
- 140 users
- forest.watch.impress.co.jp
- テクノロジー
- 2020/05/08
- GPU
- NVIDIA
- 音声処理
- windows
- PC
- あとで読む
- *あとで読む
GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence
- 131 users
- github.com/microsoft
- テクノロジー
- 2021/09/25
Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik]. Besides the logo in image version (see above), Muzic also has a logo in video version (you can click here to watch ). Muzic was started by some researchers from Microsoft Research Asia and also contributed by outside collaborat
- 機械学習
- あとで読む
- microsoft
- music
- 音声処理
- github
- AI
OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
- 121 users
- inoccu.com
- テクノロジー
- 2022/09/26
OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は
- python
- whisper
- あとで読む
- mac
- AI
- インストール
- github
音楽ストリーミングにはびこる毒：AI生成楽曲
- 106 users
- messaboutwithtechno.wordpress.com
- テクノロジー
- 2023/06/01
2023年5月末現在、昨年から続く生成系AIの進化は目覚ましいものがあり、私も技術の進化は楽しみにしています。しかしながら、良くない使い方をする輩がわんさか湧いて出てくるのも世の常。自分は音楽ストリーミングサービスはSpotifyを主に使っているのですが、RadioにおけるAI楽曲のプレイリスト汚染がシャレにならないレベルで鬱陶しいので私から見えているものを書いてみます。自動再生Radioに引っかかってくる変な曲達 Spotifyでは探した楽曲が聴き終わるとそのままアルバムや楽曲のRadioが始まります。似たような曲を勝手に選んで再生してくれるもので、これによる偶然の出会いは結構楽しみに使っていました。メジャーな楽曲であれば近しい同じぐらい有名な楽曲であったり同系統のジャンルからそれなりな楽曲を再生してくれるのですが、いつからかマイナーだったりアングラな曲を聞いたあとのRadioに
- AI
- 音楽
- music
- 人工知能
- webservice
- society
Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
- 103 users
- yukara-ikemiya.github.io
- テクノロジー
- 2023/12/25
日本音響学会学生・若手フォーラム Advent Calendar 2023 24日目 Suno AI とは、歌詞と曲のスタイル︵と曲名︶を指定するだけで、自動で歌詞入りの楽曲を作成してくれる生成AIサービスです。 Suno AI 最近ではこのほかにも様々な音楽生成AIが発表されていますが、 Suno AI が特にバズっている要因はおそらく歌詞入力という他サービスではあまり無いUIと、ボーカルが付加されることにより生成楽曲の面白さが格段に上がる点が大きいのではないでしょうか。 Suno AI 自体の使い方や詳細は多くのブログで紹介されているため特に取り上げる必要はないかと思いますが、本記事では技術者の観点から Suno AI のようなシステムをどのようにすれば作れるか具体的に解説します。個人的には Suno AI について、以下のような所見を持っています。 Suno AI は
- AI
- あとで読む
- 学習
- 人工知能
- 技術
- エンジニア
- データ
- 音楽
- 情報
音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
- 101 users
- ysdyt.hatenablog.jp
- テクノロジー
- 2022/10/13
OpenAIの音声認識モデルWhiper、いやー、まじですごすぎて感動しました。配信中のpodcast番組白金鉱業.FMを頑張って文字起こしするために、この記事とか、この記事とかでかなり真面目に既存文字起こしAPIの精度などを比較していましたが、もう今回は比べるまでもなく本当に雲泥の差です。ほぼ一言一句正確に文字起こしできます。GCP, AWS, Azureの文字起こしAPIは文字起こし精度が体感30~60%くらいでしたが、whisperは90%超えている印象です。もう笑うしかないです。最初に結論インストール実行方法結果 tinyモデルの結果 baseモデルの結果 smallモデルの結果 mediumモデルの結果 largeモデルの結果まとめ追記カタカナ英語完全制覇 whisperくんせんでんせんでん最初に結論 whisperは異なるモデルサイズが5種が利用可能であ
完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた／「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?【やじうまの杜】
- 90 users
- forest.watch.impress.co.jp
- テクノロジー
- 2023/04/26
- AI
- software
- voice
- あとで読む
- 音声
- machinelearning
- 機械学習
リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました
- 87 users
- blog.hiroshiba.jp
- テクノロジー
- 2019/10/04
はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS（オープンソースソフトウェア）として公開しました。ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま
オーディオ超解像技術 AudioSR を試す｜はまち
- 85 users
- note.com/hamachi_jp
- テクノロジー
- 2023/09/15
低解像度の音声データを超解像化をする拡散ベースの生成モデル AudioSR が公表されていました。リンク先に変換サンプルなどもあり、音声や自然音、音楽など幅広いジャンルの例が示されています。高い再現度であるようなので、さっそく試してみました。インストール!pip install git+https://github.com/haoheliu/versatile_audio_super_resolution実行！GPUメモリを16GBくらい消費します。Google Colab無料枠だとメモリが足らなくて動かない感じでした。 !audiosr -i /content/kurumi.wav変換例変換前︵サンプリングレート8kHz︶
- 機械学習
- 音声
- オーディオ
- あとで読む
- 技術
- 音楽
- !!
Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた
- 82 users
- gigazine.net
- テクノロジー
- 2023/08/23
Metaが音声を入力するだけで「文字起こし」「別言語への翻訳」「別言語への吹き替え」を実行できるAI「SeamlessM4T」を2023年8月22日(火)に公開しました。SeamlessM4Tは日本語音声の入力にも対応しており、日本語・英語・中国語・フランス語などを含む35言語への出力をサポートしているとのこと。誰でも使えるデモも公開されていたので、実際にデモを使ってどれだけの精度で文字起こしや吹き替えを実行できるのか試してみました。 Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta https://about.fb.com/news/2023/08/seamlessm4t-ai-translation-model/ Introducing a foundationa
- 人工知能
- あとで読む
- 日本語
- 無料
- AI
- communication
- 英語
Meta、音声生成AIモデル「Voicebox」発表　ノイズ除去や言い間違い修正、多言語会話など多機能
- 82 users
- www.itmedia.co.jp
- テクノロジー
- 2023/06/17
Meta、音声生成AIモデル「Voicebox」発表　ノイズ除去や言い間違い修正、多言語会話など多機能米Metaは6月16日（現地時間）、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。音声とテキストを入力することで、以下のような音声を出力できる。入力した声で入力したテキストを読み上げる音声クリップを作成する録音した音声から犬の鳴き声やブザー音などのノイズを除去する録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する（英語の音声を仏語に、など） 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC（ノンプレイヤーキャラクター）が自然な声で話せるようになるとしている。また、自分の声のまま（本来は話せない）外
Meta、テキストから音楽を生成するAIツール「AudioCraft」を発表
- 79 users
- japan.cnet.com
- テクノロジー
- 2023/08/04
Meta Platformsは米国時間8月1日、テキストから「質の高いリアルな」音楽を生成できる生成人工知能（AI）ツール「AudioCraft」を発表した。 AudioCraftは、Metaの3つの生成AIモデル、「MusicGen」「AudioGen」「EnCodec」で構成されている。MusicGenとAudioGenは、いずれもテキストからサウンドを生成するもので、MusicGenは音楽を、AudioGenは特定の音や効果音を生成する。「HuggingFace」で公開されているMusicGenにアクセスすれば、デモを再生できる。プロンプトには、聴きたいと思うあらゆる時代のあらゆる種類の音楽を記述できる。Metaは、「バックグラウンドでドラムとシンセサイザーが強く響く、80年代風の迫力あるポップソング」などの例を公開している。 Today we’re sharing details
- AI
- 音楽
- 機械学習
- 2023.8
- telegram
- あとで読む
- ツール
- music
- 人工知能
無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー
- 79 users
- gigazine.net
- テクノロジー
- 2023/04/22
AI技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。 GitHub - w-okada/voice-changer https://github.com/w-okada/voice-changer GitHubのレポジトリにアクセスします。「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布され
Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる！ - Qiita
- 72 users
- qiita.com/sakasegawa
- テクノロジー
- 2023/02/15
こんにちは！逆瀬川 (https://twitter.com/gyakuse)です！今日は議事録の音声からの書き出しとサマリの自動生成を行います。概要会議音声(wavとかmp3ファイル)からWhisperを用いて書き出しを行い、GPT-3.5でサマリを自動生成します。会議音声としていますが、べつにどんな音声でも大丈夫です。 Colab whisper.cpp版(処理に動画秒数×10倍程度の時間がかかりますがGPU不要です) whisper.fp16版(処理は動画秒数/4程度の時間で済みますがGPU必須です) 使い方 OpenAIのAPIキーを貼り付けランタイム > すべてのセルを実行から実行し、最初の処理の下に出てくるファイル選択で録音ファイルを選択しますひたすら待ちます実装 Whisperの軽量化 Whisperの軽量化としては、cpp実装のwhisper.cppがあります
- AI
- 音声
- whisper
- python
- qiita
- GPT
- ML
- あとで読む
- GPU
- 人工知能
superwhisperでの音声入力を試す
- 72 users
- efcl.info
- テクノロジー
- 2024/01/17
superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。特徴 Whisperの認識精度が高いかなり早く喋っても認識してくれる日本語も認識してくれるモデルがある日本語で喋って英語に翻訳してくれる機能もあるオフライン対応有料: サブスクと買い切りの2種類のプランがある無料で15分のトライアル、その後は選べるモデルが制限される公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり
- mac
- 音声認識
- voice
- macOS
- software
- あとで読む
AIが生成した“偽音声”を見抜く技術　99％以上の精度で検出
- 71 users
- www.itmedia.co.jp
- テクノロジー
- 2022/09/27
Innovative Tech：このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。米フロリダ大学の研究チームが発表した論文「Who Are You（I Really Wanna Know）？　Detecting Audio DeepFakes Through Vocal Tract Reconstruction」は、音声生成モデルで作成された合成音声を見抜く検出器を開発し検証した研究報告だ。音声から声の通り道「声道」を作成して、その声道から人の音声か偽物の音声かを識別する。精度は99％以上だという。人の声をまねた合成音声はロボットっぽい音で出力されていたが、近年では機械学習モデルの進歩により、合成音声の品質は劇的に向上して人間っぽい音で出力されるようになってきた。人間