読者です 読者をやめる 読者になる 読者になる

ふたばの日記

高等教育や学術政策に関心がある大学生のブログです。考えたことのメモなど。

「みんなで翻刻」とニコニコ超会議

 4/30に幕張メッセにて行われたニコニコ超会議に行ってきた。超歌舞伎とかもろもろ気になるものはあったのだけれど、そのなかでもニコニコ超学会の「研究してみたマッドネス」(これは29日のプログラムで行き損ねた。悔しい)、そして「みんなで翻刻」に特に感心を持っていた。

 ということで、ずっと気になっていたものの手を出すことのなかった「みんなで翻刻」を体験することができたので、ニコニコ超会議にブースを出すということも含めつつプロジェクト全体について感じたことを書いておく。なお、以下は基本的に私の解釈にすぎない(そしてあまり詳しくないので以下の記述は正確性に乏しいかもしれない)ということと、「みんなで翻刻」プロジェクトに対しては非常に好意的なスタンスであることを予め述べておきたい。

「みんなで翻刻」プロジェクトとは?

 はじめに、「みんなで翻刻」プロジェクト(HP)に関して簡単に紹介しておこう。このプロジェクトは、京都大学地震研究会による災害史料の市民参加型翻刻プロジェクトであり、2017年1月に公開された。江戸時代以前の、現代語とは書記体系が異なる(「くずし字」)史料をクラウドソーシングにより市民の手で翻刻していく。アプリ(くずし字学習支援アプリKuLA)を用いた学習の観点や、参加者間の相互添削の試みを含めた、先進的な取り組みである。

背後の潮流

 大きな話でいくと、世界的な政策の潮流であるオープンサイエンス、シティズンサイエンス、デジタル・ヒューマニティーズ等の潮流に乗った取り組みと言えよう。ただし、こうした潮流に対して日本では例えば図書館司書の位置づけや、市民による科学への参加、史料の保存や公開に対する姿勢など、様々な面でネックになる部分があると思っていて、そのなかで「みんなで翻刻」のようなプロジェクトが進むのかどうかに対しては懐疑的な考えを抱いていた。

ニコニコ超会議を通して考えたこと

 ここからは、実際にブースに行ってやりとりをしながら考えたことをつらつらと書いておく。

プロジェクトの意義とマネタイズ

 一般的な話として、日本ではかなり過去の史料が重要だとみなす意識は弱いと思われる。それは、文書館がどれだけ大事にされているかというところから推測される。そんな風土がある国において、このような翻刻プロジェクトは進むのか?あるいは資金を得られるのか?というのが疑問であった。その点については、地震関係史料ということが対応していたようだ。そもそも数百年レベルのものが確率的に推測できるのかどうかという点の疑いはおいておいて、文書への記述があるかどうかは過去に自然災害があったということの証拠になる。ということで、そうした災害関連文書を地震学者が読むことができれば研究に使いうるのであるが、くずし字という特殊な文字体系であるためそれは難しい。そこに対して、プロジェクトとして取り組むことで地震学者が活用できるように「解読」し、地震研究に活用することができるというのがプロジェクトとして打ち出している方向性のようである。そうして、下手すれば趣味とみなされかねない文献解読に意義付けて、それに資金をもらっていると思われる。

データベース構築と機械学習

 くずし字は異体字が多すぎるため、なかなか判読は難しい。しかし、それを大量にデータ化することで、統計的に推測が容易になってくる。プロジェクトの進展に際して文字データが蓄積されていき、また文字レベルに加えて分レベルのコーパスがデータとして蓄積されていく。これにより大量の学習用データとして利用できるようになり、機会学習による自動翻訳につながっていくこともあるのではないだろうか。そしてそこまでできるようになってくると、この入口は地震文書であるものの、同時代の他の文書にまで解読技術が応用されうるようになってくる。そのような技術が開発されれば、写本の誤転記などまだクリアしなければいけない問題はあるものの、解読の手助けになることは間違いないだろう。

市民参加の科学

 そもそも日本では市民が科学に参加するということは弱いと思っていて、オープンサイエンスの文脈で「シティズンサイエンス」に言及されるときも、その意味内容について明確なイメージが持てない状態でいた。そこで、このプロジェクトについても本当に人は参加するのかどうか懐疑的であった。しかし今回参加して思ったのは、入り口としては学習ゲームアプリとしてゲーミフィケーションの要素を取り入れ、他者との交流があり、翻刻画面のUIも使いやすくて、あまりかしこまった「科学」への取り組みだと感じさせないことで一般の参加を促しているように感じられた。こうした成果については、メールマガジン『人文情報学月報』第69号における橋本雄太「人文学における市民参加と人文情報学」において、以下のように述べられている。

 幸いなことに、これまでプロジェクトは順調に進捗しており、公開から105日目が経過した現時点で、3193枚ある史料画像の89%の翻刻が完了している。参加者により入力された文字の合計は180万字に達した。筆者が所属する京都大学地震研究会は、2011年から歴史地震史料を解読する活動を続けているが、現在までに翻刻できたテキストは15万字程度である。その約12倍の量のテキストが、4ヶ月に満たない期間で入力されたことは、筆者を含む研究会メンバーにとって大きな驚きであった。もっとも、専門研究者が複数で検討した翻刻文と比較すれば、正確性の面では問題が多い。今後は、専門家の介在のもと、「みんなで翻刻」上で入力されたデータを校訂し、研究資料として活用に繋げる仕組みを構築することが課題である。

 参加者を対象に実施したアンケートの結果によると、翻刻作業の中核を担ったのは、学生時代に日本史や日本文学を専攻していたOBや、カルチャーセンターや市民サークルで古文書解読を学習している非研究者の方々であった。「みんなで翻刻」を運営していて強く実感したことは、このような在野の人々の能力の高さと、史料解読に向ける情熱の強さである。参加者の中には、公開から3ヶ月の間に、21万字(!)を翻刻した人もいる。こうした人々の存在は、なかなかアカデミア内部からは見えにくい。しかし人文情報学は、ネットワーク技術を駆使して、地域や所属に関わらず人々を結びつけることができるという強みを有している。市民の人文学研究への参加を実現する上で、人文情報学は今後も主導的な役割を果たすことになるだろう。

科学のオープン化

 こうした史料の電子化や翻刻、そこから派生するメタデータ管理は、オンラインで様々な史料にアクセスができる環境を構築していく。これは、日本人の研究者に利用されるだけでなく、一般市民が読むことはもちろん、海外の研究者にとっても一次史料を活用できるようになっていく。外国人による日本研究がどうあるのがいいのかは色々と悩ましいことがあるだろうが、一次史料にアクセスできるようになり、かつくずし字という難しい言葉で書かれたその史料を解読するための補助が得られることは、海外における日本研究を促進するのではないだろうか。

ニコニコ超会議

 どうしてもこういう取り組みはアカデミア周辺、それもデジタル・ヒューマニティーズの界隈の人々か、あるいは地震研究に関わる人々に限定されがちなのではないかと思われる。それが、ニコニコ超会議という、アカデミアの世界とはあまり縁のないであろう人々にリーチする機会となり、しかも上記のようにゲーミフィケーションをふんだんに含んだものにまず試してみるように促すことで、自然にプロジェクトに参与していくことができるようになっている。また、その取り組みはリアルタイムでニコニコ動画で放送され、リアルとネットの双方からプロジェクトを広報するようになっている。人文学というとどこか専門家が趣味的にやっているというイメージが強そうなのではないかと思われるなかで、このように研究に触れる機会を作っていく場として、ニコニコ超会議のような取り組みは非常に興味深いと思われた。

最後に(どうでもいい)

 くずし字アプリはKuLAというのだが、京都大学のURA室がKURA(Kyoto University Research Administration Office)で、いつも一瞬戸惑う。笑