個人開発で、テキストと画像をクエリとしてブックマークと写真を探索できるシステムを作っている。いまのところはElasticsearchとNon AIで古典的な手法を使った単純な検索を実装している。不定期で開発を継続して、ここ半年くらい、なんだかんだ毎日使っている。発見と連想のバランスも絶妙で、いい感じに動いている。
テキスト「bard」(吟遊詩人) で検索すると、Googleの対話型検索エンジン「Bard」のスクリーンショットと『吟遊詩人ビードルの物語』の書影がヒットする。
「フロントエンドの神様」という文字が入った画像で検索すると、「フロントエンド」と「サンド」で曖昧一致したカツサンドの写真と、千と千尋の神隠しの映画で登場する「ひよこの神様」の画像がヒットする。このような検索結果の雑多さが思考を刺激してくれる。ヒントとして表示された画像を選択してクエリに追加してさらに検索を続けられる。
テキストと画像を組み合わたクエリも発行できる。著者名「daiiz」から探索をはじめて、同人誌即売会で頒布した本の写真で絞り込み、この書籍に関する正式なウェブページの情報に辿り着ける。
そろそろこの分野の開発でも、Generative AIの技術革新の波に乗って Vision Transformer (ViT) やこれを応用した Contrastive Language-Image Pre-Training (CLIP) を搭載してみたい。
余談にはなるが、CLIPのアイデアは本当に凄いと思う。文章と画像の情報を同じ特徴空間にマッピングすることで、モデルが捉えられる意味の解像度が上がった。複合分野での柔軟な検索も可能になる。画像に対して「ラベル」でなく「文」で説明をつけられる感じ。従来の画像学習のアプローチと比較して圧倒的な情報量の差が生まれる。
関連論文
- https://arxiv.org/abs/2010.11929 (An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale)
- https://arxiv.org/abs/2210.08901 (Contrastive Language-Image Pre-Training with Knowledge Graphs)
0 件のコメント:
コメントを投稿