14.江戸時代以前の「くずし字」をテキストデータにできるOCR技術
凸版印刷が「くずし字を判別してテキストデータ化するOCR(光学文字認識)
技術」を開発しました。江戸期以前の本や明治期の手書きの文章は「くずし字」
を使って書かれており、学習しないと読むことができません。
くずし字の学習は近世以前の日本文学や日本史を学ぶ学生にとっては
必要不可欠で、多くの学生が「よ、読めない……」と悲鳴を上げています。

凸版印刷の開発した技術は、書物のくずし字を自動で判読し、
テキストデータ化することを可能にするもの。2014年に実施した検証実験では、
くずし字で記されている書物を80%以上の精度でOCR処理することができた
とのこと。OCRで判読した文字は専門家によって校正・校閲され、その結果は
くずし字のデータベースにフィードバックされます。


以前に知り合いのSEの方との話でくずし字を判読するシステムが
あればいいよね。といった話がありましたが、ついにそういう技術が
できたのですね。この技術は古文書を扱っている図書館や資料館では
重宝されそうですね。古文書を管理するシステムにこの技術を
加えれば本当に便利なシステムになると思います。実現してもらいたい
ものです。
write:2015/07/14 rewrite:- update:2015/08/02


Back

Archive