TL;DR Stable Diffusion でプロンプトに重みをつけたり、意味の世界で足したり引いたりするよ 例: ピラミッド - エジプト + 日本 = ? 画風をシームレスに変換できるよ seed 変更だと大きく変わってしまうけど、小さい重みで補正かければ構図を維持したまま絵に微調整を加えられるよ 意味の足し算・引き算 Stable Diffusion では、内部的に以下の 2 ステップの処理を行うことでテキストを画像に変換している テキストをベクトル(数の組)に変換する ベクトルを画像に変換する ところで、以下の動画を見てほしい テキストをベクトルにすることで、意味の世界で足し算や引き算が実現できている。 これを Stable Diffusion に応用したらどうなるだろうか[1]。 以下では、プロンプトの計算ができるように機能追加したStable Diffusionを用いる。 機
イラストの生成方法なので技術情報サイトで公開すべきか迷いましたが、ローカル環境では生成手順にコマンドプロンプトの操作を必要とするためこちらにも投稿します。 はじめに Stable Diffusionにはテキストから画像を生成するtxt2imgと画像から画像を生成するimg2imgという機能が実装されています。今回はimg2imgを使用してある程度好みの絵柄になるまで試行錯誤を行った過程を記録したいと思います。 環境構築 私が使用しているグラフィックボードはVRAMが6GBしかないため、最低でも10GBのVRAMを必要とする下記リンク先の本家StableDiffusionは使用できません 代わりにフォークされた以下のStableDiffusionを使用します。 こちらのリポジトリをGit経由でClone or 直接ダウンロードして、本家に記載されている手順に従って環境構築を行ってください。(
日進月歩というより、秒進分歩で進化している感じのある音声合成、歌声合成の世界ですが、また新たな革命ともいえるAI音声合成ソフトが誕生しました。これまでDTMステーションでも何度も取り上げてきた歌声合成ソフト、Synthesizer Vを開発するDreamtonics株式会社と株式会社AHSと共同開発する形で、もはや人間の喋り声にしか聴こえない音声合成ソフト、VOICEPEAKを発表し、3月11日から発売を開始するのです。Synthesizer Vと同様、Windows、Mac、Linuxでも動くマルチプラットフォームソフトで価格はダウンロード版で23,800円(税込み)となっています。 このソフト「VOICEPEAK 商用可能 6ナレーターセット」という製品名になっていますが、実際には女性3人+男性3人+女の子1人=7人の声を切り替えることが可能なAI音声合成ソフトで、テキストを入力すれば
Semi supervised, weakly-supervised, unsupervised, and active learning
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く