サクサク読めて、アプリ限定の機能も多数!
トップへ戻る
やる気の出し方
www.techno-edge.net
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第55回)では、1枚の完成したイラスト絵を入力に、そのイラストの制作過程のタイムラプス動画を生成する「PaintsUndo」や、画像とテキストをペアにした1コマを入力に、続きの物語を生成する「SEED-Story」などを取り上げます。 生成AI論文ピックアップ 1枚の画像から3Dキャラクターを1分で生成するモデル「CharacterGen」 音声と静止画の顔を入力に、話している動画を生成するAI「EchoMimic」 漫画の1コマを入力に、続きのコマを作り出す物語生成AI「SEED-Story」 3次元データを活用した新しい画像マッチング技術「MASt3R」 イラス
慶應義塾大学卒業後、新卒で出版社の宝島社に入社。独立後はケータイジャーナリスト/ライターとして幅広い媒体で執筆、コメントなどを行う。ケータイ業界が主な取材テーマ。 ライバルとして通信事業でしのぎを削るドコモとソフトバンクですが、その子会社のバイク(自転車)シェアリングサービスも競合関係にあります。 ドコモはドコモ・バイクシェア、ソフトバンクはOpenStreetという会社が、それぞれサービスを展開しています。 ドコモ・バイクシェアは現在、累計利用回数が1億回を突破。トータルの走行距離は2億4000万kmに達しています。これに対し、OpenStreetが展開するHELLO CYCLINGは、走行距離で1億5000万kmとドコモ・バイクシェアを追い上げています。 このようにバチバチの争いを繰り広げていると思われがちな2社ですが、この2社が7月10日に業務提携を行うことを発表しました。 (▲画像
このところプログラミングの楽しみを覚えて毎日Claude ArtifactsとChatGPT Artifactsで遊んでいる筆者ですが、またまた新しいツールに出会ってしまいました。 それは、PoeのPreviewsという新機能。 Poeは、ChatGPT、Claude、Gemini、Mistralといった複数の最新LLM(大規模言語モデル)を呼び出して対話ができる総合窓口的AIエージェントサービスです。AIアグリゲーターという人もいます。似たようなサービスに、先ごろソフトバンクが利用者に1年間無料で提供し始めたPerplexityがありますね。 個別のLLMと契約をしなくても、Poeと月額契約(3000円から)を結ぶと、それぞれの最新モデルが使えるというメリットもあります。 そんなPoeが投入したPreviewsは、Claude 3.5 Sonnetで使えるようになったプログラミングコンパ
さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第54回)では、KLINGを開発した快手が、画像内のキャラクターの顔を自在に動かす技術「LivePortrait」を発表しました。従来の類似技術と異なり、顔の表情や頭部の動きの1フレームを12.8ミリ秒で生成できる高速さが特徴です。動きの精度も高く、調和のとれた合成映像を生成します。 生成AI論文ピックアップ 静止画内の顔の表情や頭部をリアルに動かすAI「LivePortrait」、1フレーム0.01秒で動作を生成 “10億の人格”を活用して大規模合成データを生成する手法をテンセントが開発 ナレッジグラフを用いて回答精度を向上させる、マイクロソフト開発のLLM拡張技術「GraphRAG」がGitHubに登場 プロンプトの複雑さに応じ、強いLLMか弱いLLMかを自動選択するモデル「RouteLLM」 ソ
45年前に発売された革命的デバイス、ウォークマン。そのアニバーサリーにふさわしいエポックメイキングなアプリが登場しました。 初代ウォークマン「TPS-L2」が発売されたのは45年前、1979年7月1日。当時、発売すぐに新製品を購入し、今はメルカリで買った別個体を修理してもらい完動する初代ウォークマンをたまに持ち歩いて当時のカセットを聴いています。 超軽量ヘッドフォン「MDR-3L2」はオレンジ色のイヤーパッドが経年劣化で存在しないため、似たようなものを買ってきて組み合わせています。あと5年で半世紀というデバイスが今も動いているというのは奇跡です。 (▲初代ウォークマンと、付属ヘッドフォンに似たパチモン) 大学2年生の夏休み。筆者が帰省して高校時代の友人たちに自慢したのがこの初代ウォークマンです。そしたら、友人の一人が「俺もウォークマン持っとる」と見せたのが、録音機能付きモノラル再生機のプレ
現役グラビアカメラマンでありエンジニアでもある西川和久氏による生成AIグラビア連載の第27回は、前回に続いて最新の画像生成AIモデル Stable Diffusion 3 Medium について。 『生成AIグラビアをグラビアカメラマンが作るとどうなる?連載』記事一覧』 前回に引き続きStable Diffusion 3 Mediumの話連載第26回にSD3 Medium(以降SD3 Medium)の話を書いたが、今回はその続きとなる。 前回の記事ではSD3 Mediumの特徴として Baseモデルなのに高画質。そして日本人含むアジア系もOK 商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約 結構な頻度で致命的な問題が発生する Promptで左右など、位置関係が指示でき再現可能。文字もOK(英語のみ) 生成環境は現状でComfyUI(系)のみ。基本Work
ソニーから独立10周年を迎えたVAIOが、初のモバイルディスプレイ『VAIO Vision+ 14』を発売しました。
ノンプログラマーな自分が、大規模言語モデル(LLM)の助力で、初めてまともに動くプログラムを完成させることができました。
Googleがオープンな言語モデル「Gemma 2」を開発者向けに公開しました。90億パラメータと270億パラメータの2サイズを提供しています。 さて、この1週間の気になる生成AI技術をピックアップして解説する「生成AIウィークリー」(第53回)では、生成する動画時間の延長や無音ビデオに適した音を生成するなど動画AIに関する内容が盛りだくさんです。 生成AI論文ピックアップ 既存のAIが生成する動画の時間を長くするモデル「ExVideo」、Stable Video Diffusion生成動画を5倍以上の長さに拡張 言語より視覚に重きを置く、オープンなマルチモーダル大規模言語モデル「Cambrian-1」はGPT-4VやGemini Proと同等レベル イベントカメラを使用するAIビデオ超解像技術「EvTexture」、特にテクスチャ領域で画質向上 長い動画を理解できるオープンソースなAIモ
現時点で一般に使える最高レベル動画生成AI、Luma AIの「Dream Machine」に新しい機能「Keyframes」が投入されました。プロンプトでの指定以外に、2枚の参照画像を入力し、それを始点と終点にできる、ある意味モーフィング的な機能です。 Dream Machineは高性能ではあるのですが、学習データが欧米に偏っているためか、日本人の画像を元にしても途中で欧米人に変身しがちという問題がありました。このため、欧米化する直前のところまでしか使えず、5秒間やそれをExtendした10秒といった長尺の動画は絵に描いた餅状態でした。 こうした「別人化」「欧米化」問題がこれで解消するか、実際に検証してみました。 ■2枚の銀塩写真から動画を作る同じときに撮影したこの2枚の写真をキーフレームの始点と終点にします。最初の画像を入力すると、End Frameの入力が可能になります。 (▲最初の画
Xbox Game Passにはアマゾンがドラマ化して高い評価を得た『フォールアウト』のシリーズ作品も収録済み。10月になれば、人気シリーズ Call of Duty最新作 Black Ops 6が一般発売と同時に遊べることになります。 Xbox クラウドゲームは、定額遊び放題サービス Xbox Game Pass の全部入りプラン Ultimate 加入で使える機能。 ゲームをローカルのゲーム機やPCで動かすかわりにクラウドサーバ上で走らせ、操作の結果を映像としてストリーミングすることで遊ぶ仕組みです。 コントローラ信号とゲーム映像がインターネットを行き交う原理的に遅延があるため、特にネット回線の品質が高くない場合、一瞬の反応を争う対人戦などには不向き。 逆に回線品質が良ければ、またはゲームによっては、手元のゲーム機で動いているとしか思えないほど自然にプレイできることも。 ゲームはクラウ
電動マイクロモビリティのシェアリングサービス Luupが、新たな特定小型原付『電動シートボード』を発表しました。 電動シートボードは、電動キックボードに座席とカゴがついたようなデザイン。 LUUPデジタルコード(3時間パス) - Eメールタイプ (Amazon) 立ったまま乗る電動キックボードや、漕ぐ力が必要な電動アシストサイクルでは足腰に不安がある場合や、買い物など荷物を持って移動したいニーズに応える新たな車種として、この冬以降にシェアリングサービスで提供予定です。 Luupによれば、電動シートボードの特徴は座席つきで疲れない・カゴ付きで大きな荷物の積載が可能・特定小型原付なので漕ぐ必要がない完全電動・既存のLuupポートに停められる小型、そして自転車に誤認されにくいデザイン。 特定小型原付は2023年7月から交通ルールがかわり、16歳以上であれば免許不要で乗れるようになりました。 同じ
2014年から先端テクノロジーの研究を論文単位で記事にして紹介しているWebメディアのSeamless(シームレス)を運営し、執筆しています。 AnthropicがClaudeファミリーの新モデル「Claude 3.5 Sonnet」をリリースしました。このモデルは、各種ベンチマークで同ファミリーの旧最上位モデルClaude 3 OpusやOpenAIのGPT-4を上回る性能を示しています。ユーザーの間でも様々な使用事例が共有され、その高性能ぶりが話題となっています。 一方、GoogleやNVIDIAから資金調達を受けているAIベンチャー「Runway」は、新しい動画生成AIモデル「Gen-3 Alpha」を発表しました。前モデルGen-2と比較して、忠実度、一貫性、モーションの面で大幅な改善が見られるとのことです。公開されているサンプル動画からも、その高精度が確認できます。 国内では、カ
ARグラスのXREALが、専用アクセサリの新製品 XREAL Beam Proを日本国内向けに発表しました。
リップシンクは動画生成AIサービスが多く手掛けてきましたし、オープンソースソフトもいくつかありますが、満足できるものがなかなかないというのが現状です。 筆者が現在リップシンクでメイン使いしているのは、HeyGenです。Sad TalkerはAUTOMATIC1111のプラグインとして無料で使えますが、リップシンクが不自然で、商用サービスとして先行してたD-IDも不自然さが目立ちました。 HeyGenは1曲まるごとのリップシンクができるうえに、PikaやRunwayのリップシンクでは口を開けた際に下の歯だけ見えるなど不自然さがあるのに対して、口を開けても違和感が少ないのは大きなメリットです。 しかし、髪の毛のボリュームがあるとその部分が固定されて見えてしまい、不自然さが目立ってしまいます。このため、リップシンクを使うときにはショートヘアにするなどの工夫をしていました。 こうした問題点を解消で
ロジクール / Logitech がワイヤレスコンパクトキーボードの新製品 Keys-to-Go 2を発売しました。 厚さ8.9~4.3mm、重さ222gと薄型軽量で、ロジクール史上もっともコンパクトなキーボードを謳います。 主な特徴と仕様は、Windows / Mac / Android / iPhone / iPad / ChromeOS等々で使えるマルチOS対応、Bluetooth Low Energy接続、3台までのデバイスをペアリングして素早く切り替えられるEasy-Switch、コイン型電池CR2032 x2枚で最大36か月駆動など。 キーは18mmピッチのパンタグラフ式。先代のKeys-to-Goはキーが1枚の樹脂で覆われた構造でしたが、新製品Keys-to-Go 2は保護カバーが付属します。 通常版とiPad版があり、微妙にレイアウトやショートカットが異なります。 通常版は
なお、ワークショップ内で使用するプロンプトは、受講者向けにドキュメントとして公開し、その場でコピペするだけで画像生成を体験できる、非常に簡単な仕組み。生成した画像はその場で自分のパソコンに保存できます。 第1期全6回を好評のうちに終了して始まった第2期からは、これまで使っていたフロントエンドのAUTOMATIC 1111を、新しい技術が比較的早いタイミングで使えるComfyUIに切り替え、6月26日は従来と同じくオンラインにて開催いたします。 ヘッダー画像はStable Diffusion 3 Mediumで生成されています。SD3に関しては、連載と、セミナーでComfyUIを使ったデモを行う予定です 本ワークショップでは、高価なゲーミングPCがなくても自分で高速な画像生成ができるサービス「生成AI GO」のサーバをお借りしています。なお、生成AIGOはComfyUIには未対応ですが、第1
SoraやKLINGレベルの「今使える高性能動画生成AIサービス」として登場したLuma AIの「Dream Machine」が機能追加のアップデートを果たしました。従来の5秒からのExtend(延長)が可能になりました。 過去にDream Machineで作った動画も含め、10秒以上のAI動画を生成できることになります。一方、動画生成AIでは老舗のRunwayも、高性能新世代モデル「Gen-3 Alpha」の投入を予告するなど、これから激しい競争になることが予想されます。 筆者はStandardプラン(月120回)を使い切ったので、Proプランに切り替えました。Standardプラン以上では、商用利用とウォーターマークの消去も可能です。無料プランは現在、1日生成回数が5回までに制限されています。 (▲Luma Dream Machineの月額プラン)
API形式の利用だと、コストがかさむのはもちろん、Promptや生成した画像を調べ肌色過多の場合は表示できないという、グラビアを扱う筆者にとって致命的な問題がある(笑)。 SD3 Mediumがリリースされたことで、ようやくSD 1.5やSDXL同様、普通にローカルPCで生成可能になった!ただし、商用利用不可。個人レベルでの商用利用は、クリエイターライセンス($20/月)を契約しなければならない。 なお普通に肌の露出が多い程度はOKだが、いわゆるNSFWな肌色過多は出せない様、意図的にコントロールされている。またこの影響で、ある意味致命的な問題も発生する。この辺りの話は次回にしたいと思う。 SD3 MediumのMediumとは、2B(20億)パラメータでの構成という意味となる。対してAPI版はLargeと呼ばれ8B(80億)パラメータで構成されている。従って、全く同じ設定でも、解釈の度合
フリーランスライター。1969年京都府生まれ。バイク雑誌編集者に憧れて上京し経歴を開始。ラジコン飛行機雑誌、サンゴと熱帯魚の雑誌、デジモノの雑誌をそれぞれ7〜10年編集長として作る。趣味人の情熱を伝えるのがライフワーク。@takuta いよいよ、6月28日に日本でもVision Proが発売される。 米国から5カ月ほど遅れての日本発売とあって、待ち焦がれていた人も多いのではないだろうか。とはいえ、当初は『年内』と伝えられていたから、想定よりも早い日本導入ということになる。 米国での売行きがイマイチだったから、それ以外の国に販売する余裕があったとか、米国発売時に買いに来た日本人が非常に多かったから、日本発売の優先度合が高まったとか、いろいろな噂はあるが、アップル自体はそういう質問には回答しないので、真偽のほどは定かではない。 というわけで、WWDC24に取材に行ってきたので、そちらで得た情報
このサービスの有償プランに申し込んで使って、少しプロンプトのコツが掴めたので、お伝えしたいと思います。 ただ、自分が使った目的は映画などの映像制作ではなく、あくまでも静止画、それも人物を動かすことなのでご注意を。より具体的には、11年前に他界した妻の動く姿を見ることです。 ■フィルムカメラの写真を動かすまずやってみたのは、実際に撮った写真をDream Machineで動かすことです。 使った写真は、1978年から1987年にかけてフィルムカメラで撮影したもの。子供が生まれてビデオカメラ(ビデオ8mm)を買ったのが1987年なので、それまでは動いている映像がほとんどなかったのです。 例外として、学園祭の劇で主役を演じたものと、特捜最前線でエキストラをやったときのものは残っていますが。 多くの人にとって、1980年代以前の、動きのある映像は残っていないと思います(8mmフィルム愛好家がいる家庭
Insta360が、超小型アクションカメラInsta360 GOシリーズの新作Insta360 GO 3Sを発表しました。
今使えるSoraのライバルが登場しました。
次のページ
このページを最初にブックマークしてみませんか?
『テクノエッジ TechnoEdge』の新着エントリーを見る
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く