- トップ
- 人文系データ分析技術の開発
Thema4人文系データ分析技術の開発
国立情報学研究所、情報・システム研究機構データサイエンス共同利用基盤施設、一般財団法人人文情報学研究所、凸版印刷株式会社との間で現在個別に行っている共同的研究の成果に基づき、AI技術の活用による研究資料の抽出とその多分野への適応、テキスト分析・解析技術及び画像等の非テキストによる検索技術の開発、データ蓄積の国際標準化への対応を行ない、人文学系データをデータ駆動型に統合する方法と分析手法の開発を行います。
4.1 他分野からのメタデータ付与に関する合意形成及び汎用的仕組みの検討と開発(第1〜2年時)
一般財団法人人文情報学研究所、TEI(テキスト・エンコーディング・イニシアチブ)日本語支部との間で現在行っている討議を広く展開し、メタデータの付与等のデータ作成に関する合意形成と、汎用的仕組みについての検討を行い、外部データの読み込みと統合等についての検討を行う。書物の成立・刊行年時などを含むデータの構造化を進めるとともに、データのやり取りに不可欠なクエリの規準化(標準化)をめざし、他分野のシステムとのデータ互換を可能とする仕組みの構築を行う。
4.2 画像検索・解析技術の精度向上と可視的把握技術の確立(学習データ作成:第1〜2年時、本研究:第3〜5年時、第6〜8年時)
国立情報学研究所、情報・システム研究機構データサイエンス共同利用基盤施設、凸版印刷株式会社との間で現在個別に行っている共同的研究の成果に基づき、AIの活用により、大規模データから機図や画像などの非テキスト情報による検索によって情報を抽出する技術の開発、テキストマイニングされた分析結果を可視的に把握する技術の先進的開発研究を行う。
4.3 AI技術に基づく機械可読データの自動化の開発(学習データ作成:第1〜2年時、本研究:第3〜5年時、第6〜8年時)
国文学研究資料館と情報・システム研究機構データサイエンス共同利用基盤施設、公立はこだて未来大学、凸版印刷株式会社との間で現在個別に行っている共同研究の成果に基づき、AI技術の活用に基づく情報抽出と機械可読データの自動作成システムの開発を進める。
4.4 国際テキスト(TEI)へのフォーマット作成及び作成ツールの開発(第1〜3年時)
国文学研究資料館は、人文学資料を適切にデジタル化するための標準策定を目的とした国際的な共同プロジェクトであるTEI:TextEncodingInitiativeのメンバーとして国際的に共同利用できる体制を整え、日本語テキストデータへの適応に向けて、その特質把握と構造化に関する共同研究を行っている。本研究では機械可読データの整備に不可欠な日本語テキストデータのTEIによる構造化フォーマットを確立し、その構造化作成に容易に参画できるようにするための日本語環境での運用に適した作成ツールの開発を進める。
本プロジェクトに関するお問合せはこちらまでメールでご連絡ください。
- メール送付先:htddpsinfo★nijl.ac.jp
- 担当:プロジェクト総括係
- ※スパムメール等対策のため、E-mailアドレスには、「@」の代わりに「★」を入れております。
メール送信の際は、「★」を「@」に換えて送信してください。