はじめに
ビズリーチの検索基盤グループに所属する加藤です。 ビズリーチでは、大規模言語モデル(LLM)や機械学習を活用した検索・推薦機能の開発に力を入れており、検索基盤グループではベクトル検索のランキング調整やSPLADEを活用したドメイン特化検索などに取り組んでいます。 今回、検索・推薦分野における最新の研究動向を学ぶため、第17回データ工学と情報マネジメントに関するフォーラム(以下、DEIM2025)に参加しました。 本記事では、当日の様子とともに、気になった研究について紹介します。
DEIMについて
DEIMは、日本データベース学会・データ工学研究専門委員会・データベースシステム研究会が主催する学会です。データベースやビッグデータの活用、情報検索、機械学習、データマイニング、情報マネジメントなどに関する研究者・技術者・学生が一堂に会して発表や議論を行う場となっています。 回を重ねるごとに規模が大きくなっているようで、今年は800人を超える研究者や企業が参加していました。
近年ではオンラインでの口頭発表セッションと、オンサイトでのインタラクティブセッション(ポスター発表)の2部構成となっています。 オンサイトでのインタラクティブセッションでは参加者同士の交流も活発で、様々な研究について議論を深めることができました。
参加の目的
ビズリーチでは、AIを活用した機能開発を積極的に進めており、LLMや機械学習を用いたプロダクトを多数リリースしています。特に、検索・推薦システムの高度化に力を入れており、生成AI関連の特許公開件数は業界問わず国内1位(※)を誇ります。 これまでビズリーチが蓄積してきたデータとAI技術を掛け合わせることで事業価値の向上を目指し、会社としてもこの分野への投資を強化しています。
私の所属する検索基盤グループでも、検索精度の向上のため深層学習やLLMを使った機能開発や研究に取り組んでいます。 先日発表したベクトル検索を活用したランキング調整機能をはじめ、現在はリランキング機能の開発やHRドメイン特化のSPLADE検索モデルの開発に取り組んでおり、HRセマンティックサーチの実現にむけて日々研究や開発を進めています。
これらの技術は、ビズリーチの検索の精度向上や、お客様に最適なマッチングを提供するために重要なものです。
情報検索の分野では自然言語処理に特化した深層学習モデルの一種であるBERTの出現以降、深層学習を用いて性能を向上させる技術が多く研究・開発されています。 とくに、ここ数年のLLMの発展と浸透により、最先端の研究だけでなく多くの企業が実サービスにおいてもLLMを用いた検索精度の向上を目指している状況です。
現在のこの分野は技術の進歩がとても早いため、チーム内で定期的に検索論文の輪読会を実施していたり、メンバーの中には働きながら大学院で研究を進めている者もおり、チーム全体で最新技術のキャッチアップにも力を入れています。 今回のDEIM2025には、検索・推薦分野の研究を学び、これからの技術開発に活かすことを目的に参加しました。
気になった発表について
さまざまな研究が発表されており、個人的に気になった研究は他にも多くあるのですが、ここではビズリーチのサービス状況や検索基盤グループの持つ課題に特に関係のある3つの発表を紹介させていただきます。
専門ドメインのための検索拡張適合性判定
著者 (敬称略) : 茂手木太一(1), 加藤誠(2), 畠山和久(3), 百合草陽介(3) 所属 : 1. 筑波大学 大学院人間総合科学学術院人間総合科学研究群情報学学位プログラム 知識獲得システム研究室、2. 筑波大学 図書館情報メディア系、3. 株式会社ミスミグループ本社
この研究は、クエリと文書の関連性を適合性判定するタスクにおいて、専門ドメインの精度を向上させる手法を提案しています。 近年、LLMを用いた適合性判定が可能になってきましたが、モデルによっては専門ドメインの知識が不足し、精度が低下する問題があります。そこで本研究では、この問題を解決するために、事前に外部ソースを検索し、テキスト生成時に知識として活用するRAG(Retrieval-Augmented Generation)のアプローチを採用しています。 具体的には、外部知識を事前に検索し、その情報をLLMに与えることで適合性判定の精度を向上させる手法を提案しています。
検索モデルの作成に限らず、検索精度を改善するには評価データの準備が極めて重要です。評価データセットをどのように構築するかは、検索改善に取り組む人々が共通して直面する課題でもあります。 私たちにとってもこの課題は例外ではなく、チームのミッションを踏まえると、次の2種類の評価データセットが必要になっています。
- 検索クエリに対して、関連する文書が適切に取得できているかを評価するデータセット
- 事業KPIに基づき、検索結果が適切に機能しているかを評価するデータセット
後者については、検索結果に表示された候補者に対してスカウト送信が行われたか、また送信されたスカウトに対して返信があったかなど、ユーザーの行動データを基に評価する必要があるため、実際の検索ログを活用することが求められます。 一方、前者に対しては、私たちの扱うHRという専門ドメインの検索に完全に適用することは難しいかもしれませんが、本研究で提案されたアプローチは有用であり、応用の可能性があると考えています。
安心感と好奇心を両立する料理推薦
著者 (敬称略) : 坂井優斗(1), 馬強(2) 所属 : 1. 京都大学 大学院情報学研究科、2. 京都工芸繊維大学 大学院工芸科学研究科
本研究は、旅行先などの未知の環境で、ユーザーが安心して料理を選べるようにするため、安心感と好奇心を両立させる料理推薦手法を提案したものです。
先行研究で提案された手法を用いて料理の味と食材の表現ベクトルを作成し、Kernel Density Scoring(KDS)とMahalanobis Distance Scoring(MDS)の2つの手法を用いて、安心感と好奇心を定量化しています。 特に特徴的なのは、安心感に対応する要素のスコアを「リスク」、好奇心に対応する要素のスコアを「リターン」と捉え、投資の効率性を評価する指標であるシャープレシオの概念を導入した点です。これにより、「リスク当たりの好奇心」という報酬を定量化することに成功しています。 この研究に興味を持ったのは、我々が直面しているスカウトメールの送信率と返信率のバランスを取ったランキング生成という課題と共通する部分があるためです。 我々も先行研究を調査しながらさまざまな実験を行っていますが、この研究の手法はドメインや指標が異なるため、そのまま適用することは難しいものの、アプローチのアイデアとして非常に興味深かったです。
大規模言語モデルによる生成文書・生成クエリを用いた検索モデルの学習と分析
著者 (敬称略) : 仲地優登(1), 加藤誠(2) 所属 : (1. 筑波大学 大学院人間総合科学学術院 知識獲得システム研究室、2. 筑波大学 図書館情報メディア系)
LLMによって生成された文書やクエリを学習に使用した検索モデルが、検索タスクの性能やランキングに与える影響を検証した研究です。 実験によると、LLMによって生成されたクエリで検索するとLLMによって生成された文書がランキングの上位に表示されやすくなることが確認されました。 著者の方と議論をしたところ、LLM生成文書がランキング上位に表示されやすくなることが必ずしも問題であるとは限らない、という見解が示されました。 しかし、この現象は興味深いものであり、その要因はまだ仮説の段階であるため、さらなる研究が必要とされていました。
ビズリーチでも、生成AIを活用したレジュメ自動生成機能を提供しており、多くの会員様に利用されています。 検索基盤グループが扱う検索の中でも、メインはレジュメ検索です。すでに我々が扱うデータの中には、LLMによって生成された文書が多く含まれており、今後もその割合は増え続けると考えられます。
レジュメの自動生成は、転職希望者である会員様の負担軽減やマッチングの精度向上といった観点で大きなメリットがあります。一方で、レジュメ検索という観点では、いくつかの懸念点も存在します。 例えば、レジュメの内容が画一化し差別化が難しくなることや、経歴の誇張、特定のスキルの過大・過小評価といったバイアスの発生は、私たちも認識している問題です。 しかし、これらはAIを活用しマッチングを進化させる上で避けて通れない問題です。 適切な対応を検討していくためにも、我々はこのテーマについて継続的に注視し続けています。
こうした背景から、本研究は個人的にもっとも興味深いものでした。
まとめ
今回私ははじめてDEIMへ参加しましたが、データベース・情報検索の研究をしている方々が集まる場ということで、非常に刺激的な時間を過ごすことができました。 特に、検索・推薦分野における最新の研究動向を知ることができ、ビズリーチの検索基盤グループの課題に関連する研究に触れることができ、さらなる研究・技術開発のモチベーションとなりました。
ビズリーチではこれまで培ってきた多様で膨大な自社データを使い、より良いマッチングの体験を提供するために、検索・推薦技術の研究・開発に取り組んでいます。 興味がある方は、ぜひこちらのカジュアル面談フォームからご連絡ください。お待ちしております!
(※)「株式会社知財図鑑」による2023年8月~2024年7月に最先の公開があった日本特許及び特許出願調査