並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 154件

新着順 人気順

音声処理の検索結果1 - 40 件 / 154件

 154 AI        Google  
  • 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化

    Search, watch, and cook every single Tasty recipe and video ever - all in one place! News, Politics, Culture, Life, Entertainment, and more. Stories that matter to you. 「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化2月にβ版がリリースされたGoogle製の音声文字変換(Live Transcribe)アプリ。もともと聴覚障害者のために作られたアクセシビリティ機能だが、精度の高さから文字起こしとしても使えるのではないかと話題だ。来日中のプロダクトマネージャー、ブライアン・ケムラー氏に話を聞いた。

      「コピペできるようになったら神→対応しました」Google、驚異のリアルタイム文字変換の進化
    • 3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge

      わずか3秒の元音声から本人そっくりな音声合成が可能な技術「VALL-E X」が誰でも使える形で公開されました。オープンソース版で、ローカルマシンからWebUIで利用できます。さっそくインストールして使ってみました。 以前、ディープラーニングベースの音声・歌声合成ソフトであるDiff-SVC、リアルタイム処理が可能なAIボイチェンRVCを紹介したとき、自分は記事タイトルに「驚異の」という形容詞を付けました。それでも学習には数十分の本人による音声データが必要で、そこまでのデータを用意するのは容易ではありません。それに対してVALL-E Xでは元データが3秒あれば本人に似た声を生成できるのです。

        3秒の音声があれば本人そっくりの声で日本語・英語・中国語合成できる「VALL-E X」はやはり脅威。MSが非公開にした技術のOSS版を試して実感した(CloseBox) | テクノエッジ TechnoEdge
      • 高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge

        オープンソースのAI声質変換(ボイスチェンジャー)ソフトウェア「RVC WebUI」が、日本語での表示に対応しました。 VITSという声質変換技術をベースにしたRVC(Retrieval-based Voice Changer)に、Webユーザーインタフェースを付加したのが「RVC WebUI」です。

          高性能で無料、誰の声にでもなりきれるAIボイチェン「RVC WebUI」がついに日本語表示に対応(CloseBox) | テクノエッジ TechnoEdge
        • AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション


          AI2NEUTRINOSHACHI(@SHACHI_NEUTRINO)JSUT39189180.400 AI2AI
            AI歌声合成は、もう人の歌声と区別できないレベルに。東北イタコも追加されたNEUTRINOの新バージョン、0.400が無料でリリース|DTMステーション
          • 19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション

            4月23日、彗星のように現れたネット上のサービス、CoeFont STUDIO(コエ・フォント・スタジオ)は、誰でも無料で使える音声合成サービスということで、瞬く間に広がり、2日で累計ユーザー数が6万人を突破。すでに20万人を超えるところまで来ているようです。日本語でテキストを入力すれば、非常に滑らかな声でしゃべってくれ、その音声をユーザーは商用を含めて自由に利用できるという画期的ともいえるサービスとなっているのです。 このサービスを立ち上げたのは、なんと東京工業大学2年生、19歳の早川尚吾さん。株式会社Yellstonを立ち上げ、その新サービスとして、CoeFont STUDIOをスタートさせたのです。もちろん株式会社ですから、今後ビジネス展開をしていくことを目論んでいるわけですが、それはCoeFont STUDIOの延長線上にあるもので、世の中を大きく変えていく可能性もありそうです。先

              19歳・東工大2年生が社長。音声合成界に衝撃を与えたCoeFont STUDIOが目指すこれからの世界|DTMステーション
            • Clubhouse リアルタイム配信の仕組みについて (妄想編)

              Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 @suthio_さんがつぶやいていたのがきっかけ https://twitter.com/suthio_/status/1353945619577008128?s=20 招待してくれた @dmnlk さんに感謝 DNS パケット見ただけ 他の方の解析は見ていない クライアント側の処理は知らない 気が向いたら更新している 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 IRIAM 配信サーバ設計者 妄想 求人にメディアサーバ

                Clubhouse リアルタイム配信の仕組みについて (妄想編)
              • Clubhouse リアルタイム配信の仕組みについて (解説編)

                Cloubhouse はすでに OSS である Janus Gateway に切り替えており Agora は使用していないようです ライセンス Creative Commons — 表示 - 非営利 - 改変禁止 4.0 国際 — CC BY-NC-ND 4.0 前提 ざっくりと雑に解説。 どんな技術を使っていてこんな感じだろうという妄想は以下をどうぞ。 Clubhouse リアルタイム配信の仕組みについて (妄想編) 著者 商用 WebRTC SFU 開発者 WebRTC プロトコルスタック実装者 End to End Encryption プロトコルスタック実装者 Clubhouse の仕組みはとてもシンプルで配信者が N 人で、それを数千人が聞くという co-streaming と呼ばれる仕組みの一つ。この方式は今までは主に映像ありでパネルディスカッション的な使い方が主だっだ。それを

                  Clubhouse リアルタイム配信の仕組みについて (解説編)
                • AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge


                  AIAIAI AIDiffusion使Diff-SVCAIAI使 使Diff-SVC Diff-SVCSo-VITS-SVCSoftV
                    AIボイチェン「RVC」の精度と学習・変換速度が革命的。コナンの蝶ネクタイ的リアルタイムボイチェンも可能(CloseBox) | テクノエッジ TechnoEdge
                  • AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】

                      AIでボーカル・ドラムを取り出す、無料音声分離「Demucs」を試す【藤本健のDigital Audio Laboratory】
                    • 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開

                      株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 2023年1月18日 株式会社レアゾン・ホールディングス(本社:東京都新宿区、代表取締役:渡邉 真)は世界最高レベルの高精度日本語音声認識モデルおよび世界最大19,000時間の日本語音声コーパス※「ReazonSpeech」を公開いたしました。 ※音声コーパス: 音声データとテキストデータを発話単位で対応付けて集めたもの。音声認識モデルを作成する材料として使用され、その規模と品質が音声認識の精度を大きく左右する。 ※2「ReazonSpeech」を用いた文字起こしサービスをプロジェクトwebサイトにて実際に試すことができます。 プロジェクトwebサイト:https://

                        超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開
                      • AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション

                        すでにご存じの方も多いと思いますが、2月22日にAIきりたんなるものが登場し、大騒ぎとなりました。正確にはSHACHI(@SHACHI_KRTN)さんという方が開発したNEUTRINOというAI歌声合成ソフトがフリーウェアで公開されるとともに、それで歌わせた楽曲が、くろ州さんなどによって公開され、話題になったのです。2月22日は、ちょうどMIDI 2.0の日米合意があった日で、そのドタバタでネットをチェックできておらず、私が気づいたのは24日になってから。その歌声を聴いて驚愕しました。 実際どんなものなのかと、さっそくNEUTRINOをダウンロードし、手元にあったMusicXMLデータを元に歌わせてみると、従来のVOCALOIDなどとは別次元の人間的な歌声で、東北きりたんが歌ってくれてさらに驚いたのです。どういうことなのか知りたいと思い、開発者のSHACHIさんに連絡してみたところ「種々の

                          AIきりたんの仕掛け人、森勢将雅准教授に聞く、AI歌声合成の世界で今起こっていること|DTMステーション
                        • 高品質な音声変換ソフトウェア | Seiren Voice

                          AIの技術を用いてクオリティを追求した、今までにない音声変換ソフトウェア。 いつもと違う声で表現することの楽しさを、ぜひ体験してみてください。 AI技術を用いた高品質な音声変換ソフトウェアです。 誰の声でも狙ったキャラクターの声に変換することができます。 クオリティを追求することで、ボイスチェンジャーらしいノイズが乗らない、 人間らしい声を実現することができました。 キャラクター紹介

                            高品質な音声変換ソフトウェア | Seiren Voice
                          • OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能

                            画像生成AI「DALL・E 2」や文章生成AI「GPT-3」といった高性能AIを開発してきたAI開発組織のOpenAIが、新たに音声を超高精度で認識して文章に書き起こせるAI「Whisper」を発表しました。発表と同時に公開されたサンプルでは「早口のセールストーク」や「ハイテンポな曲の歌詞」などの音声でも問題なく文字起こしできる性能の高さが示されています。 Introducing Whisper https://openai.com/blog/whisper/ GitHub - openai/whisper https://github.com/openai/whisper Whisperはインターネット上から収集された合計68万時間におよぶ音声データでトレーニングされた文字起こしAIです。OpenAIのブログ記事には「早口のセールストーク」「K-POPの曲」「フランス語」「独特なアクセン

                              OpenAIが高性能文字起こしAI「Whisper」を発表、日本語にも対応し早口言葉や歌詞も高精度に文字起こし可能
                            • 超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた

                              東京に拠点を置くテクノロジー企業「レアゾン・ホールディングス」が、1万9000時間に及ぶ国内最大級の日本語音声コーパス「ReazonSpeech」を無償公開しました。同時に、OpenAIが開発した超高性能音声認識AI「Whisper」に匹敵する性能をアピールする文字起こしサービスも公開されていたので、実際に使ってみました。 超高精度で商用利用可能な純国産の日本語音声認識モデル「ReazonSpeech」を無償公開 - Reazon Human Interaction Lab https://research.reazon.jp/news/reazonspeech.html ReazonSpeech - Reazon Human Interaction Lab https://research.reazon.jp/projects/ReazonSpeech/ レアゾン・ホールディングスは「R

                                超高精度な国産音声認識AI「ReazonSpeech」が無償公開されたので文字起こし機能を使ってみた
                              • SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready

                                  SpotifyがPythonオーディオエフェクトライブラリ「Pedalboard」をオープンソース化 - すでに約1年間の社内使用を経ていてstage ready
                                • 音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan

                                  Stability AI は、音楽とサウンド生成のための初のAIモデルとなる Stable Audio を発表しました。 Stable Audio は、最新の生成 AI 技術を駆使し、使いやすい Web インターフェースを介して、より高速で高品質な音楽とサウンドエフェクトを提供する世界初の製品です。Stability AI は、45秒までのトラックを生成してダウンロードできる Stable Audio の基本無料版と、商用プロジェクト用にダウンロード可能な90秒のトラックを提供する「Pro」サブスクリプションを提供しています。 StabilityAI の CEO である Emad Mostaque は、「唯一の独立した、オープンでマルチモーダルな生成 AI の会社として、音楽クリエイターをサポートする製品を開発するために私たちの専門知識を活用できることを嬉しく思います。私たちの願いは、St

                                    音楽とサウンド生成のための「Stable Audio」を発表 — Stability AI Japan
                                  • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                    はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                    • 自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO

                                      自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた はじめに 今回は、OpenAIのWhisper APIとAmazon Transcribeという2つの音声文字起こしサービスを試し、それぞれの精度を比較してみました。 Amazon Transcribeは、音声をテキストに変換する自動音声認識サービスです。 ストリーミングとバッチ処理のどちらでも文字起こしが可能です。 攻撃的な言葉を指定すると、Amazon Transcribeがそれらの言葉を文字起こしから自動的に削除する語彙フィルタリングなどの機能もあります。 Amazon Transcribeの詳細は、下記の記事をご参考ください。 OpenAIには音声をテキストに変換する「Whisper」という音声認識モデルがあり、WhisperをAPIの形で呼び

                                        自動文字起こしサービスである、OpenAIの「Whisper API」とAWSの「Amazon Transcribe」の精度を比較してみた | DevelopersIO
                                      • Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に

                                          Stability AI、無料で起承転結のある最大3分の音楽を生成可能な「Stable Audio 2.0」を公開/テキストだけでなくアップロードしたオーディオから音楽を生成可能に
                                        • AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge

                                          このところUdioやSonautoの新機能搭載で押され気味だったAI作曲サービスの「Suno」が反撃に出ました。 バージョン3.5のEarly Access版(有料プランユーザーのみに提供)を利用すると、これまでの2分間制限が最長4分まで拡大。延長時間も従来の1分を2分に伸ばしています。これだけの長さがあれば大抵のポピュラー曲はエンディングまでいけます。 4分の曲をUdioで生成しようとすると、8回の命令が必要になります。さらに、生成に要する時間はUdioの方がはるかに長くかかるので、全体としての作業時間には大きな差が生じます。それがSuno 3.5ならば数秒でできてしまうのです。 また、Style of Musicのキーワードがサジェストされるようになっていて便利です。文字数制限は相変わらずきついですけど。 さらにうれしいのは、日本語歌詞の読み方が、従来は間違いが多かったのが、ほぼ問題な

                                            AI作曲「Suno」新バージョンがWAV高音質化、最長4分の曲を一発でエンディングまで完成。無修正で良曲量産可能に(CloseBox) | テクノエッジ TechnoEdge
                                          • Introducing ChatGPT and Whisper APIs

                                            Developers can now integrate ChatGPT and Whisper models into their apps and products through our API. ChatGPT and Whisper models are now available on our API, giving developers access to cutting-edge language (not just chat!) and speech-to-text capabilities. Through a series of system-wide optimizations, we’ve achieved 90% cost reduction for ChatGPT since December; we’re now passing through those

                                              Introducing ChatGPT and Whisper APIs
                                            • writeout.ai

                                              Transcribe and translate any audio file. Upload your audio file and get a transcript in seconds. Writeout.ai is a free online transcription service.

                                                writeout.ai
                                              • 老舗音声編集ソフトのAudacityをインストール不要でブラウザでも使える「Wavacity」

                                                無料で提供されているオープンソースの音声編集ソフトウェア「Audacity」をフォークし、ブラウザ上で動作するようにした「Wavacity」が公開されています。 Wavacity https://wavacity.com/ 上記のリンクにアクセスすると、以下のような画面が表示されます。本家のAudacityは表示言語を日本語に設定する必要がありますが、Wavacityは最初から日本語で表示されるので、日本語ネイティブユーザーにとってかなり取っ付きやすくなっています。 記事作成時点で最新バージョンとなる本家Audacity(v3.3.3)の画面が以下。 比較するとこんな感じ。スライダーを右に動かすとWavacityが、左に動かすとAudacityが表示されます。 楽曲ファイルをインポートするには「ファイル」から「開く」をクリックし、ファイルを選択します。 タイムライン上でドラッグすると、編集

                                                  老舗音声編集ソフトのAudacityをインストール不要でブラウザでも使える「Wavacity」
                                                • Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成

                                                    Meta、新音声生成AIモデル「Voicebox」 短い音声から自在に声を生成
                                                  • GPUを使ったノイズキャンセリングがすごかった(5月12日追記)【高橋忍のにゃんともWindows】

                                                      GPUを使ったノイズキャンセリングがすごかった(5月12日追記)【高橋忍のにゃんともWindows】
                                                    • GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence

                                                      Muzic is a research project on AI music that empowers music understanding and generation with deep learning and artificial intelligence. Muzic is pronounced as [ˈmjuːzeik]. Besides the logo in image version (see above), Muzic also has a logo in video version (you can click here to watch ). Muzic was started by some researchers from Microsoft Research Asia and also contributed by outside collaborat

                                                        GitHub - microsoft/muzic: Muzic: Music Understanding and Generation with Artificial Intelligence
                                                      • OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる

                                                        OpenAIがSpeech-To-Text AIのWhisperを発表しました。Githubからpipでインストールすれば簡単に使えます。私のM1 Max MacBook Proでも動作しましたので、作業内容を書いておきます。 GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Robust Speech Recognition via Large-Scale Weak Supervision – GitHub – openai/whisper: Robust Speech Recognition via Large-Scale Weak Supervision Python仮想環境を作る Python自体のインストールは既に終わっているところから書くことにします。私の環境は

                                                          OpenAIのSpeech-To-Text AI「Whisper」をM1 Macで試してみる
                                                        • 音楽ストリーミングにはびこる毒:AI生成楽曲

                                                          2023年5月末現在、昨年から続く生成系AIの進化は目覚ましいものがあり、私も技術の進化は楽しみにしています。 しかしながら、良くない使い方をする輩がわんさか湧いて出てくるのも世の常。 自分は音楽ストリーミングサービスはSpotifyを主に使っているのですが、RadioにおけるAI楽曲のプレイリスト汚染がシャレにならないレベルで鬱陶しいので私から見えているものを書いてみます。 自動再生Radioに引っかかってくる変な曲達 Spotifyでは探した楽曲が聴き終わるとそのままアルバムや楽曲のRadioが始まります。似たような曲を勝手に選んで再生してくれるもので、これによる偶然の出会いは結構楽しみに使っていました。 メジャーな楽曲であれば近しい同じぐらい有名な楽曲であったり同系統のジャンルからそれなりな楽曲を再生してくれるのですが、いつからかマイナーだったりアングラな曲を聞いたあとのRadioに

                                                            音楽ストリーミングにはびこる毒:AI生成楽曲
                                                          • Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし


                                                              Advent Calendar 2023 24 Suno AI AI Suno AI AI Suno AI UI  Suno AI 使  Suno AI   Suno AI  Suno AI 
                                                              Suno AI の作り方 (技術者の観点から) · あらゆる現実のはなし
                                                            • 音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day


                                                              OpenAIWhiper podcast .FMAPIGCP, AWS, AzureAPI30~60%whisper90%     tiny base small medium large     whisper   whisper5
                                                                音声認識モデルwhisperの全モデル文字起こし比較 - 毎日がEveryday、日々 Day by Day
                                                              • 完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた/「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?【やじうまの杜】

                                                                  完全に別人になっちゃった。話題のAIボイチェン「RVC」を体験してみた/「RVC」と「VC Client」の組み合わせで“声をコスプレする”新時代到来!?【やじうまの杜】
                                                                • リアルタイム声質変換ライブラリ「Realtime Yukarin」を公開しました

                                                                  はじめにリアルタイム声質変換アプリケーション、Realtime Yukarinを開発し、 OSS(オープンソースソフトウェア)として公開しました。 ここで言う声質変換とは、「誰でも好きな声になれる」技術のことを指します。 好きな声になれる声質変換は夢があって流行りそうなのですが、まだ全然普及していないと思います。 それは現時点で、声質変換を実際にリアルタイムで使えるフリーな仕組みが無いためだと考えました。 そこで、自由に使えるリアルタイム声質変換アプリケーションを作り、ソースコードと合わせて公開しました。 声質変換とは声を変える方法で有名なのは、声の高さや音色を変える手法、いわゆるボイスチェンジャーです。 既存のボイスチェンジャーは、元の声を起点として、変換パラメータを自分で調整する必要があります。 一方ここでの声質変換は、元の声と好きな声を用いて機械学習し、変換パラメータを自動で調整しま

                                                                  • オーディオ超解像技術 AudioSR を試す|はまち


                                                                     AudioSR  !pip install git+https://github.com/haoheliu/versatile_audio_super_resolutionGPU16GBGoogle Colab !audiosr -i /content/kurumi.wav8kHz
                                                                      オーディオ超解像技術 AudioSR を試す|はまち
                                                                    • Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた

                                                                      Metaが音声を入力するだけで「文字起こし」「別言語への翻訳」「別言語への吹き替え」を実行できるAI「SeamlessM4T」を2023年8月22日(火)に公開しました。SeamlessM4Tは日本語音声の入力にも対応しており、日本語・英語・中国語・フランス語などを含む35言語への出力をサポートしているとのこと。誰でも使えるデモも公開されていたので、実際にデモを使ってどれだけの精度で文字起こしや吹き替えを実行できるのか試してみました。 Introducing SeamlessM4T, a Multimodal AI Model for Speech and Text Translations | Meta https://about.fb.com/news/2023/08/seamlessm4t-ai-translation-model/ Introducing a foundationa

                                                                        Metaが日本語音声を入力するだけで「文字起こし」「翻訳」「吹き替え」を実行できるAI「SeamlessM4T」を公開、英語や中国に翻訳可能で無料で使えるデモも公開されたので使ってみた
                                                                      • Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能

                                                                        Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能 米Metaは6月16日(現地時間)、新たな音声生成AIモデル「Voicebox」を開発したと発表した。音声の編集、サンプリング、スタイルの設定などを行える。 音声とテキストを入力することで、以下のような音声を出力できる。 入力した声で入力したテキストを読み上げる音声クリップを作成する 録音した音声から犬の鳴き声やブザー音などのノイズを除去する 録音した音声の言い間違いを修正する 1つの言語のスピーチを同じ声のまま別の言語に変換する(英語の音声を仏語に、など) 1つのテキストを多様な声で読み上げる Metaは、Voiceboxで将来的にはメタバース内のバーチャルアシスタントやNPC(ノンプレイヤーキャラクター)が自然な声で話せるようになるとしている。また、自分の声のまま(本来は話せない)外

                                                                          Meta、音声生成AIモデル「Voicebox」発表 ノイズ除去や言い間違い修正、多言語会話など多機能
                                                                        • Meta、テキストから音楽を生成するAIツール「AudioCraft」を発表

                                                                          Meta Platformsは米国時間8月1日、テキストから「質の高いリアルな」音楽を生成できる生成人工知能(AI)ツール「AudioCraft」を発表した。 AudioCraftは、Metaの3つの生成AIモデル、「MusicGen」「AudioGen」「EnCodec」で構成されている。MusicGenとAudioGenは、いずれもテキストからサウンドを生成するもので、MusicGenは音楽を、AudioGenは特定の音や効果音を生成する。 「HuggingFace」で公開されているMusicGenにアクセスすれば、デモを再生できる。プロンプトには、聴きたいと思うあらゆる時代のあらゆる種類の音楽を記述できる。Metaは、「バックグラウンドでドラムとシンセサイザーが強く響く、80年代風の迫力あるポップソング」などの例を公開している。 Today we’re sharing details

                                                                            Meta、テキストから音楽を生成するAIツール「AudioCraft」を発表
                                                                          • 無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー

                                                                            AI技術の進化によって、絵や文章だけではなく音声変換もAIでリアルタイムに行うことが可能になりました。ボイスチェンジャーAIにはRVC(Retrieval-based Voice Changer)やMMVCなどさまざまな種類が存在しますが、「VC Client」は複数ボイスチェンジャーAI向けモデルに対応しており、簡単にリアルタイム音声変換ができるとのことなので実際に試してみました。 GitHub - w-okada/voice-changer https://github.com/w-okada/voice-changer GitHubのレポジトリにアクセスします。 「事前ビルド済みのBinaryでの利用」の欄にあるテーブルで、「win」にある「通常」をクリック。 ダウンロードリンクが表示されるので、「このままダウンロード」をクリックします。なお、VC ClientはZIP形式で配布され

                                                                              無料で自分の声を違うキャラクターなどの声にできるリアルタイム音声変換AIを簡単に使えるボイスチェンジャークライアント「VC Client」でどれぐらい声が変わるかレビュー
                                                                            • Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita


                                                                               (https://twitter.com/gyakuse)   (wavmp3)WhisperGPT-3.5  Colab whisper.cpp(×10GPU) whisper.fp16(/4GPU) 使 OpenAIAPI  >    Whisper Whispercppwhisper.cpp
                                                                                Whisper + GPT-3 で会議音声からの議事録書き出し&サマリ自動生成をやってみる! - Qiita
                                                                              • superwhisperでの音声入力を試す

                                                                                superwhisperという、whisper.cppを使った音声入力ができるmacOSアプリケーションを最近使っています。 基本的にはggerganov/whisper.cppのモデルを使って、音声認識しながら文字入力ができるアプリケーションです。 特徴 Whisperの認識精度が高い かなり早く喋っても認識してくれる 日本語も認識してくれるモデルがある 日本語で喋って英語に翻訳してくれる機能もある オフライン対応 有料: サブスク と 買い切り の2種類のプランがある 無料で15分のトライアル、その後は選べるモデルが制限される 公式サイトのデモをみると、かなり早く喋っても認識してくれるのがわかります。 大抵の人にとっては、多分文字入力するよりしゃべったほうが早いぐらいの入力速度が出ると思います。 superwhisper 長文はそこまで得意じゃないけど、1行とか2行ぐらいの文章はかなり

                                                                                  superwhisperでの音声入力を試す
                                                                                • AIが生成した“偽音声”を見抜く技術 99%以上の精度で検出

                                                                                  Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米フロリダ大学の研究チームが発表した論文「Who Are You(I Really Wanna Know)? Detecting Audio DeepFakes Through Vocal Tract Reconstruction」は、音声生成モデルで作成された合成音声を見抜く検出器を開発し検証した研究報告だ。音声から声の通り道「声道」を作成して、その声道から人の音声か偽物の音声かを識別する。精度は99%以上だという。 人の声をまねた合成音声はロボットっぽい音で出力されていたが、近年では機械学習モデルの進歩により、合成音声の品質は劇的に向上して人間っぽい音で出力されるようになってきた。人間

                                                                                    AIが生成した“偽音声”を見抜く技術 99%以上の精度で検出

                                                                                  新着記事