凸版印刷トッパンソリューション

    •  
    • お問合わせ凸版印刷
    •  

事例紹介高精度全文テキスト化サービス

早稲田大学 大学史資料センター様との百年史制作

『早稲田大学百年史』
Wikiシステムを使用したインターネット公開サイト構築

早稲田大学様では1978~97年に刊行された『早稲田大学百年史』をインターネット上に一般公開しています。本サイト構築にあたり当社の「高精度全文テキスト化サービス」が大きく貢献、高いご評価をいただいています。

『早稲田大学百年史』のサイトをご覧いただけます
詳しくはこちら   https://chronicle100.waseda.jp/index.php

テキストビュー

当社サービスが貢献した点

精度99.98%の高精度なテキストデータを生成

『早稲田大学百年史』にはテキストデータは存在しませんでしたが、印刷物から「高精度全文テキスト化サービス」を使用することで8巻約1万ページ、1千万文字に及ぶ膨大な文字を正確なテキストデータとして生成しました。

Wikiシステムを使用したWeb公開サイトを構築

膨大な資料の全文テキストから瞬時にキーワード検索可能にするWebサイトを構築しました。原本画像ビューアによる原本イメージの表示や大学内人名データーベースとの連携による人名リンクも搭載しています。

※Wiki(ウィキ)システム
   https://ja.wikipedia.org/wiki/ウィキ

全文テキスト検索の結果画面

原本イメージビューア

早稲田大学 大学史資料センター様の声

従来、何か調べものをする際は、分厚い本のページを一枚一枚めくりながら探さなければなりませんでした。
このサイトが開設されてからは、キーワードによる横断検索が一瞬で出来るようになったため、省力化をはかることが出来るようになりました。年史編纂やレファレンス、授業準備にも大いに役立っています。

早稲田大学大学史資料センター
田中智子 様

高精度全文テキスト化サービス担当者から

当社の「高精度全文テキスト化サービス」には大学様や企業様等から紙文書・史料のテキスト化で幅広く採用事例がありますがその中でも本事例は百年史公開Webサイトの構築という単なるテキストデータ化に留まらない、発展的な事例となっています。大学内外への情報発信はもちろん、大学史の授業用の配布プリント作成や資料や年史編纂用として記事検索、再編集用テキスト流用等、紙の書籍のままでは得られなかった新たな価値を生み出すことができたと思っています。

凸版印刷株式会社 情報コミュニケーション事業本部 ソーシャルイノベーションセンター 情報インフラ本部
松田栄作

総合地球環境学研究所様

歴史史料集のExelデータ化による研究効率の向上

総合地球環境学研究所様では歴史上の環境変化を分析するために、歴史史料集から目視により関係史料を抽出して研究に利用していましたが、当社の「高精度全文テキスト化サービス」を活用し、史料原本をExcelデータ化することによって研究※1効率の向上に取り組んでおられます。

※1 内部プロジェクト関係者のみがデータを使用しています。

NEW

お問い合わせコーナーから発注いただきました!

原本のイメージ図

当社サービスが貢献した点

誌面から精度99.98%※2のテキストデータを生成

研究対象の史料集にはテキストデータは存在しませんでしたが、「高精度全文テキスト化サービス」を使用することで誌面から正確なテキストデータを生成することができました。

※2 サンプリングチェックによる精度算出

Excelデータ形式に変換することで更なる効率化

史料集の文書一通ごとに、年号・番号・文書名・本文などの項目にテキストを構造化した後、Excelデータに変換しました。
これによってExcelの持つ並び替えやフィルタリング機能等を使用することが可能になり簡易データベース的に活用、更なる研究効率化に繋がりました。

Excel形式に変換された歴史史料

総合地球環境学研究所様の声

歴史史料のデジタルテキストデータは皆無ではないのですが、時代や範囲が限られており、研究に必要な史料集にかぎってデータがないのが悩みでした。当研究所では、プロジェクト内部限定でデータを使用する目的で、「目視での抽出・手入力」・「OCRで読み込んだデータを目視で修正」などの方法で、データ化を試みていましたが、それではとても史料の量に対応できませんでした。そんなところに、凸版印刷様の「高精度全文テキスト化サービス」の存在を知り、利用させていただきました。おかげ様でさまざまな検索がスムーズに行えるようになり、大変助かっています。

総合地球環境学研究所 プロジェクト研究員
伊藤啓介様

→ 総合地球環境学研究所HP http://www.chikyu.ac.jp

高精度全文テキスト化サービス担当者から

当社の「高精度全文テキスト化サービス」が生み出す高精度なテキストデータは単なるアーカイブ用途に留まらない多様なニーズに応えます。
本案件では歴史資料のExcelデータ化によって研究効率化に貢献させていただきましたが、他にもデータマイニングやテキストマイニング、昨今ではAI人工知能分析用途のテキストデータ作成業務への引き合いも増えてきています。

凸版印刷株式会社 情報コミュニケーション事業本部 ソーシャルイノベーションセンター 情報インフラ本部
小幡泰三

トッパンの今後の取り組み

OCR認識率の更なる向上と効率化はもちろんのこと、テキストデータ化することで可能になる新たなサービス開発に取組んで参ります。
例えば、AI人工知能分析や音声読み上げ、自動翻訳、クラウド型書籍制作サービス(トッパンエディトリアルナビ)との連携サービスは既に実用化が進んでいます。
紙の状態からテキストデータにすることでそれは活用可能な情報資産となり、新たな価値を生み出すことができるのです。

連携

AI人工知能分析
音声読み上げ
クラウド型書籍制作サービス(トッパンエディトリアルナビ)

紙の状態(アナログ)からテキストデータ(デジタル)へ。

TOP

Copyright (c) 2018 TOPPAN PRINTING CO., LTD.

凸版印刷株式会社 情報コミュニケーション事業本部による、公式HPです。