CLIPを使って、大量の画像の中から自分が探したい画像をテキストで検索する

1.はじめに


 20211OpenAI4CLIPCLIP使

2.CLIP


 CLIP

 CLIPNImage EncoderN I_1I_N TextEncoderN T_1T_N 

 2COSCLIPI_1T_1, I_2T_2, I_3T_3 ,  , I_NT_N Image EncoderText Encoder

 CLIPCLIP使

 CLIPdogA photo of a dogNText Encoder T_1T_N 

 Image Encoder I_1 

 CLIP

3.CLIP


 CLIP使

 I_1I_NTCOS

4.


 Google ColabGithub沿Colab on Web

 

 CLIPclip.tokenize() model.encode_text() model.encode_image() 

 使 CelebA5,000使178×218

 5,000

 img png1224×224調image_input (5000,3,224,224)

 text = She is a charming woman with blonde hair and blue eyes

 clip.tokenize()  text_input  (1,77) 

 image_input  text_input COS

 model.encode_image()  image_features model.encode_text()  text_features torch.cosine_similarity() 2COS text_probs 

 text_probs 5,000COSTOP3

 CLIP COSCOS1 

 1OKtext = He is a dandy middle-aged man wearing glass

 35,000

 CLIP便

githubhttps://github.com/openai/CLIP


AI


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ABOUTこの記事をかいた人

アバター

E 1