2015/07/03

凸版印刷、江戸期以前のくずし字を
高精度でテキストデータ化する新方式OCR技術を開発
~江戸期以前のくずし字が80%以上の精度でOCR処理可能に~
  凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下 凸版印刷)は、江戸期以前のくずし字で記されている古典籍(内容・形態の優れた古い書物のこと)の文字を判別し、テキストデータ化するOCR(光学文字認識)技術を開発しました。凸版印刷は、本技術による古典籍のテキストデータ化サービスを2015年夏より試験的に開始予定です。

 本技術は、江戸期以前の書物に使われているくずし字を自動で判読し、テキストデータ化することを可能にするものです。凸版印刷は、2013年からさまざまな書籍を高い精度でテキストデータ化する「高精度全文テキスト化サービス」を提供しています。このサービスで確立したテキストデータ化技術のシステム基盤をベースに、公立学校法人公立はこだて未来大学(所在地:北海道函館市、学長:中島秀之)の寺沢憲吾准教授が開発した「文書画像検索システム」と組み合わせることで、くずし字で記されている古典籍のOCR処理を実現しました。

 

  本技術開発に際して、2014年度に実施した原理検証実験では、くずし字で記されている書物を80%以上の精度でOCR処理することに成功し、効率のよいテキストデータ化が可能であることを実証しました。原理検証実験を行う上で、凸版印刷は、大学共同利用機関法人人間文化研究機構国文学研究資料館(所在地:東京都立川市、館長:今西祐一郎、以下 国文研)の古典籍共同研究事業センターとともに課題整理と検討を重ね、本技術の検証で使用する古典籍の選定に関する助言、および所蔵する古典籍の画像とテキスト情報の提供を受けています。
07.画像1
「源氏物語」(絵入本,国文研所蔵)のOCRによるテキストデータ化
■ 開発の背景
 近年、大規模災害による資料アーカイブの必要性の見直しや、専門家の減少と資料の経年劣化による文化継承の危機的状況から、歴史的資料のデジタル化やテキストデータ化が求められています。しかし、総数100万点以上ともいわれる江戸期以前のくずし字で記されている古典籍は、専門家による判読が必要とされ、テキストデータ化が遅れていました。

■ 本技術の特長
・ テキストデータ化済みの文献を、OCR処理に用いるくずし字データベースとして使用することで、テキストデータ化されていない文献を80%以上の精度でテキストデータ化することが可能
・ 専門家による判読に頼っていたテキストデータ化と比べ、大幅なコスト削減と大量処理が可能
・ テキストデータを、PDFなどさまざまなデータ形式へ変換し、利活用することが可能
09.画像2
古典籍のテキストデータ化処理の流れ
■ 今後の目標
 凸版印刷は、本技術による、くずし字で記された古典籍のテキストデータ化サービスを2015年夏より試験的に開始する予定です。今後、幅広い年代やジャンルの資料に対するOCR処理の精度向上を図ります。さらに本技術を発展させ、現代語への翻訳、多言語翻訳、システム公開などを通して、異分野との研究融合や教育への普及、日本文化の諸外国へむけた情報発信の進展といった新しい文化の創出に貢献していきます。


<日本文学研究者・東京大学大学院教授 ロバート キャンベル氏のコメント>
 私たちは明治以前の日本を知るため、ひたすら文字を読みます。しかし皮肉なことに、その文字は、近代150年の達成と引き換えに、まったく読めなくなってしまいました。活字にだけ頼る人は、日本のことを、ほんの一部しか知ることができません。
 気づきにくいことですが、欧米諸国とちがって、日本人は自らの歴史風土を自在に行き来する能力を失ったのです。それ自体、世界史のなかでも特記すべきことですが、しかしここで新たな技術によって、豊穣な風土がふたたび開かれるかもしれません。驚くべきその可能性に賭けたいと思う。いままで読めなかった数百年分の智恵と笑いと涙こそ、世界遺産だと信じるからです。

<国文学研究資料館 館長 今西 祐一郎氏のコメント>
 古典籍は先人たちの知の宝庫です。それを現代に活かすためにはまず文字が読めなければなりませんが、そこにはくずし字という大きな壁がありました。本取り組みにより、時空を越えた「知」のアーカイブ化が革新的に進むことを確信しています。本技術が、国文研が推進する「日本語の歴史的典籍の国際共同研究ネットワーク構築計画」で構築される「日本語の歴史的典籍データベース」に寄与することを期待しています。


* 本ニュースリリースに記載された会社名および商品・サービス名は各社の商標または登録商標です。
* 本ニュースリリースに記載された内容は発表日現在のものです。その後予告なしに変更されることがあります。

以上

ページの先頭へ戻る

Newsroom Search