神戸大学様との共同研究

当社は、研究開発の実力向上を目指し、テクノロジーとサービスの会社へ進化するために、２０２２年７月１日付けで、神戸大学様と「会話データを対象としたAI応用自然言語処理」分野の共同研究を開始します。

次の二つの課題にフォーカスした研究を展開していきます。

１，文章におけるストップワードの自動除去に関する研究

通常、ストップワードの除去は、ストップワードだと考えられる語を辞書に登録し、除去作業を行う際に、登録された語と形態的に一致したものを除去する方法が用いられます。しかし、辞書登録方式では、形態素解析の制限によって重要な単語が除去されてしまったり、同じ言葉でも綴りの違いによって複数個を登録する必要があったりするような問題が生じます。　

研究では、形態素解析の結果を独自のスコア基準で評価し、ストップワードとその他の語をスコア上線引きできるような基準を目指します。

２，適切なセンテンスセグメンテーションの評価法の研究

自然言語処理において、原文からある部分を抽出して要約文章を作ったり、アンケートの自由記述欄からお客様の声を部分的に抽出したりする際に、原文のセンテンスをまず適切な長さに区切ってから意味解析する必要があります。

しかし、区切られたセンテンスは、短すぎると主語が分からなかったり、意味理解に必要な要素が欠けてしまったりすることが多く、長すぎるとセンテンス処理に時間がかかり、計算のコストが大幅に増えてしまう場合があります。

現段階では、センテンスの区切り(セグメテーション)は、記号ベース(ex.句読点、空白)や、特殊な文字(ex.「は」があったら区切る)をベースにして行われています。この方法は日本語では読点の使用頻度が他の言語より高く、意味の途中で現れる場合が多いため、理想的なセグメンテーションの仕方とは言えません。

そこで、理想的なセグメンテーションができるようになるために、セグメンテーション結果の評価方法の確立を目指します。

将来多様な研究領域まで広げていく計画も視野に入れています。また、弊社では、神戸大学様を含む多くの大学様との共同研究を検討しております。