2023年3月10日金曜日

テキストと画像を使って検索する

個人開発で、テキストと画像をクエリとしてブックマークと写真を探索できるシステムを作っている。いまのところはElasticsearchとNon AIで古典的な手法を使った単純な検索を実装している。不定期で開発を継続して、ここ半年くらい、なんだかんだ毎日使っている。発見と連想のバランスも絶妙で、いい感じに動いている。


テキスト「bard」(吟遊詩人) で検索すると、Googleの対話型検索エンジン「Bard」のスクリーンショットと『吟遊詩人ビードルの物語』の書影がヒットする。


「フロントエンドの神様」という文字が入った画像で検索すると、「フロントエンド」と「サンド」で曖昧一致したカツサンドの写真と、千と千尋の神隠しの映画で登場する「ひよこの神様」の画像がヒットする。このような検索結果の雑多さが思考を刺激してくれる。ヒントとして表示された画像を選択してクエリに追加してさらに検索を続けられる。


テキストと画像を組み合わたクエリも発行できる。著者名「daiiz」から探索をはじめて、同人誌即売会で頒布した本の写真で絞り込み、この書籍に関する正式なウェブページの情報に辿り着ける。

そろそろこの分野の開発でも、Generative AIの技術革新の波に乗って Vision Transformer (ViT) やこれを応用した Contrastive Language-Image Pre-Training (CLIP) を搭載してみたい。
余談にはなるが、CLIPのアイデアは本当に凄いと思う。文章と画像の情報を同じ特徴空間にマッピングすることで、モデルが捉えられる意味の解像度が上がった。複合分野での柔軟な検索も可能になる。画像に対して「ラベル」でなく「文」で説明をつけられる感じ。従来の画像学習のアプローチと比較して圧倒的な情報量の差が生まれる。

関連論文

0 件のコメント:

コメントを投稿

技書博9にサークル参加します

11/25 (土) に開催される第九回 技術書同人誌博覧会にサークル出展します。久しぶりに 東京で 技術同人誌を売ります!! https://gishohaku.dev/ ソフトウェアエンジニアとして生成AI(おもに大規模言語モデル)に慣れるまでの過程で試行錯誤したことや、自作の...