古文書テキスト化

私自身は今のところ殆ど読む機会は無いが、たまに「読めたらいいのに・・・」と思うことがある“古文書”の類
http://internetcom.jp/busnews/20150703/ocr-technology-for-old-hiragana-characters.html

今回発表された技術は、江戸期以前のくずし字を自動で判読し、テキストデータ化することを可能にするもの。同社は2013年より、さまざまな書籍をデータ化する「高精度全文テキスト化サービス」を提供しており、同サービスで確立したシステム基盤に、公立はこだて未来大学の寺沢憲吾准教授が開発した「文書画像検索システム」を組み合わせることで、同技術を実現したそうだ。2014年度に実施した原理検証実験では、くずし字の書物を80%以上の精度でOCR処理することに成功した。

こういった技術はいずれ大学が開発・データ蓄積をするだろうと思っていたが、凸版印刷がね〜

津具金山の金掘りに出されたという文書、こんなのもテキストデータ化が進むといいな。