2013/07/03

凸版印刷、「文献・資料の高精度全文テキスト化システム」を開発
~精度99.99%以上の全文テキスト化を短納期で実現。旧字・旧かな遣いなどにも対応~

凸版印刷株式会社(本社:東京都千代田区、代表取締役社長:金子眞吾、以下凸版印刷)は、自社の文字・テキスト処理技術とIBM基礎研究所が開発した共同校正技術を組み合わせ、精度99.99%以上の全文テキスト化を短納期で実現する「文献・資料の高精度全文テキスト化システム」を開発しました。

今後、デジタルデータが存在しない過去の印刷物(底本)からの電子書籍制作や、貴重な資料のデジタル化などに向けた高精度全文テキスト化サービスとして2013年7月下旬より提供を開始します。

 

 なお本サービスは、2013年7月3日(水)~5日(金)まで開催される「国際電子出版EXPO」(会場:東京ビッグサイト西4ホール)のトッパンブースで展示されます。

 

    システムの特長

本システムは、印刷された文献や資料をまず光学文字認識(OCR)でテキスト化し、次に読み取られたテキストデータの精度を統計処理などにより補完します。さらに共同校正により確認・修正を行い、最後に目的に応じた文字・テキスト処理、各種フォーマットへの変換処理を行います。 

 

1)高品質化と作業時間の短縮を両立

自社技術によるOCR精度の補完処理と、全文字の確認・修正を効率的に行うことを可能にする共同校正の組み合わせにより、文章に沿って校正する従来手法と比較して、高品質なテキストデータの作成を迅速に行うことが可能になりました。高品質のテキストは、電子書籍制作で必要とされるお客さま側での校正負荷も軽減します。

 

 2)複雑な組版(※1)への対応

印刷物の制作を通じて培った組版に関するノウハウを活用することで、ルビ、傍点、縦中横、和欧混植、割注など、従来のOCRが苦手とした日本語組版に対応します。

 

 3)古い文献・資料への対応

難読文字を効率的に確認・修正するためのサポート機能を強化することで、従来ソフトウェアによる対応が困難だった古い資料のデジタル化も可能になりました。

 旧字・旧かな遣いから現代の新字・新かな遣いへの変換サービスも提供します。

 

 4)出力形式

 プレーンテキスト、XML(構造化文書)、透明テキスト付PDF(※2)に対応します。

「高精度全文テキスト化システム」概要図
09.画像2
「高精度全文テキスト化システム」における全文字検査のイメージ

■ 想定ターゲット

・デジタルデータが存在しない過去の印刷物(底本)からの電子書籍制作

・データ化されていない資料(新聞、雑誌、社内報、契約書など)の高精度全文テキスト化

 

 

■ 参考価格

 書籍から透明テキスト付PDFを作成する場合:1冊30,000円から

  ※精度は、99.99%以上。年代、保存状態、ページ数などにより価格は変動します。

 

■ 今後の目標

 今後、電子書籍制作や、貴重な資料のデジタル化などに向けた高精度全文テキスト化サービスとして2013年7月下旬より提供を開始。資料の撮影やアーカイブ化などの関連受注を含め、2015年3月末までに10億円の売上を目指します。

 

※1 組版

印刷物作成のための工程において、文字や図を配置し版を構成すること。

 

※2 透明テキスト付PDF

資料画像の文字部分に、テキストデータを重ね合わせ、検索可能にしたPDFファイル。

 

*本ニュースリリースに記載している会社名および商品・サービス名は各社の商標または登録商標です。

ニュースリリースに記載された内容は発表日現在のものです。その後予告なしに変更されることがあります。

以上

ページの先頭へ戻る

Newsroom Search