RAG技術における回答精度向上のためのドキュメント構造化ツールを開発 - 株式会社PKUTECH
2024年10月21日 ニュースリリース

RAG技術における回答精度向上のためのドキュメント構造化ツールを開発

弊社は、株式会社三菱総合研究所(以下、MRI)と共同研究を行い、生成AIを用いたRAG(Retrieval Augmented Generation / 検索拡張生成)技術における回答精度向上のためのドキュメント構造化ツールを開発しました。文章を自動で構造化したり、図や表を検索可能な形式に変換したりすることで、ドキュメントを参照する問い合わせ業務の品質向上、業務効率化を目指します。

 

1. 背景

ChatGPTをはじめとするサービスに利用されている大規模言語モデル(以下、LLM)は、カスタマーサポートやコンテンツ生成など文章の生成や要約を中心とした用途に用いられています。また近年、LLMが学習していない情報(例:業務内容や規則集)をLLMに回答させる手法として、LLMとドキュメントの検索機能を組み合わせた技術であるRAGが注目されています。これは、ユーザーの質問に関連した情報を事前に用意したデータベースから検索し、参照情報としてLLMに与えることで業務内容や規則集などのLLMが保持していない内容に対しても回答を可能にしています。
RAGのための検索では、ドキュメントの情報をデータベースに格納する際、文字抽出に加え、テキストを意味のまとまりで複数に分割する「チャンキング」と呼ばれる処理を行うことが一般的です。適切にチャンキングが行われていない場合、ユーザーからの質問に対して関連している情報を正しく検索できず、回答生成精度が低下する可能性があります。また、ドキュメント内の図表についてはそのまま検索対象とすることが困難であるため、業務活用での大きな課題の一つとなっています。  

2.技術の概要

弊社とMRIは、上記の課題を解決するため、以下の2つの技術を開発しました。
 ① 図表をLLMが回答に活用できる形式に変換する技術
 ② ドキュメント内の文章を章・節など意味のあるまとまりに区切る技術
①と②を組み合わせることで、以下の動作が可能になります。
 ・日本語の読解順序に則ったレイアウト認識
 ・章・節などの意味ごとの構造に自動分割、自動構造化
 ・図表に関する質問への回答
図表を含む質問応答データセット(JDocQA [1])というデータセットを各手法でデータ化し、標準的なRAGを用いて回答精度の検証を行いました。その結果、弊社開発ツールがドキュメントのデータ抽出ライブラリの「PyMuPDF [2]」を用いたページ単位の分割や、構造化ツールとして有名な「Unstructured[3] 」よりも高い精度で回答できていることが確認できました。

表1:JDocQAデータセットから100問抜粋して比較した場合の結果
※事実抽出形式と自由記述形式ではコサイン類似度とMetricX-23-large[1]、それ以外は文章の完全一致で評価

表1について、文章としての意味を評価する必要のあるタスク「事実抽出、自由記述」についてはAzure OpenAI Serviceのtext-embedding-3-large[5] を用いて生成したベクトルをコサイン類似度によって評価し、タスク「はい/いいえ、数量、回答不能問題」については回答内容の完全一致によって評価しました。
そして、文章としての意味を評価する必要のあるタスク「事実抽出、自由記述」についてはコサイン類似度だけでなく、機械翻訳タスクで用いられる評価指標で、MetricX-23による評価も行い、両者が同傾向であることを確認しました。
図1〜3は弊社ツールにより回答が改善された事例です。文章の構造認識が必要となるドキュメントへの回答や図やグラフの内容に関する質問に対して、正確に回答を生成できています。

本ツールの活用により、様々なドキュメントに対して高い精度で読み取ることができます。LLMを用いたRAGにおける回答精度を向上させることにより、業務への活用や効率化が期待されます。

図1:構造化ツールを利用して生成した回答例

赤枠を含む内容を正しく検索して回答することができています。  

図2:構造化ツールを利用して生成した回答例[7]

  赤枠内のグラフに対して「児童見守りシステムの必要性について」、「59%が児童見守りシステム導入が必要」と、説明文に変換できているため、該当箇所の内容を正しく検索して回答ができています。

図3:構造化ツールを利用して生成した回答例[8]

赤枠の図に対して「平成28年度の小学1年生の数: 1,066,375人(男子: 545,553人、女子: 520,822人)」という説明文に変換できているため、該当箇所の内容を正しく検索して回答ができています。  

3.今後の予定

弊社の主力分野である「AI/データ分析事業」では、独自開発による最適AIモデルを軸に、お客さまの課題解決に向けたAIサービスを幅広く提供しております。
本取り組みでは、各種問い合わせに対する精度の高い回答が確認できており、お客さまの多様な現場での機能発揮を目指し、さらなる高度化に取り組んでまいります。弊社提供のFAQ検索要約ソリューション「Egeria-Search」と組み合わせることにより、お客様の問い合わせ業務の品質向上や業務効率化を目指してまいります。

弊社は今後もMRIと連携し、共同研究をさらに深めていきます。  

[1] Onami. E, Kurita. S, Miyanishi, T., & Watanabe, T. (2024). *JDOCQA: Japanese Document Question Answering Dataset for Generative Language Models*. In *Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)*, 9503–9514. ELRA and ICCL. https://aclanthology.org/2024.lrec-main.830
[2] https://github.com/pymupdf/PyMuPDF
[3] https://github.com/Unstructured-IO/unstructured
[4] Juraska, J., Finkelstein, M., Deutsch, D., Siddhant, A., Mirzazadeh, M., & Freitag, M. (2023). MetricX-23: The Google Submission to the WMT 2023 Metrics Shared Task. In Proceedings of the Eighth Conference on Machine Translation, 756–767. Association for Computational Linguistics. https://doi.org/10.18653/v1/2023.wmt-1.63
[5] https://learn.microsoft.com/ja-jp/azure/ai-services/openai/concepts/models#embeddings-models
[6] この作品は、JDocQA dataset(CC BY-SA 4.0)を改変して作成されました。 総務省広報誌平成28年1月号https://www.soumu.go.jp/main_content/000392563.pdf
[7] この作品は、JDocQA dataset(CC BY-SA 4.0)を改変して作成されました。 総務省報道資料 「児童見守りシステム導入の手引書」の公表https://www.soumu.go.jp/menu_news/s-news/2009/pdf/090109_2_tb.pdf
[8] この作品は、JDocQA dataset(CC BY-SA 4.0)を改変して作成されました。 総務省広報誌平成29年4月号https://www.soumu.go.jp/main_content/000476740.pdf  

本件に関するお問い合わせ先
株式会社PKUTECH(総合窓口)
電話 03-3526-7778
受付時間: 9:00~12:00および13:00~18:00(土・日・祝日・当社指定の休業日を除く)
担当:原田
メール:faq_gai@pkutech.co.jp
お問い合わせフォーム https://pkutech.co.jp/enquire/service-contact/

お問い合わせいただきありがとうございました。

折り返し、担当者よりご連絡いたしますので、 恐れ入りますが、しばらくお待ちください。

完了メールが届かない場合、処理が正常に行われていない可能性があります。

大変お手数ですが、再度お問い合わせの手続きをお願い致します。