民事判決情報をオープンデータ化、2025年をめどに
去る第208回通常国会において、民事訴訟法等の一部を改正する法律が成立しました。改正内容には訴状提出のオンライン化や、訴訟記録(判決書等)の電子化といった近年のIT技術の発展を司法制度の運用に取り込まんとする改革が盛り込まれています。また、同法の施行は2025年を予定しており、報道によれば法務省にて民事裁判の全判決情報をデータベース化する仕組みについて検討が開始され、関連する法整備も進んでいく見通しです。
先の法改正に先立ち、公益財団法人日弁連法務研究財団の「民事判決のオープンデータ化検討プロジェクトチーム(PT)」が令和3年3月25日に「民事判決情報のオープンデータ化に向けた取りまとめ」※1、令和4年6月8日に「民事判決情報の適切な利活用に向けた制度の在り方に関する提言」※2をそれぞれ公表しています。現時点でも判決文は裁判所で公開されていますが、オープンデータとして電子的に保存・公開するにあたっては、判決文中に含まれる個人情報や秘匿すべき営業上の秘密に該当する記載箇所等をマスキングする処置が必要となるなど、運用に向けて乗り越えるべき技術的論点が議論され、解決方法が検討されています。
数理統計上の課題とその解消
すべての判決文がデータ化されることによって、法の適用において争点となる要素(通常複数ある)が判決に与える影響の統計的な解析や、争点自体のスクリーニング及び社会の変化に伴うダイナミズムの評価、判決結果の予測といった分析を、ある種の定量性をもって行うことが可能になると期待されています。もちろん本邦ではこれまでも判決文のデータは提供されていますが、以下の特徴・事情があり、上記のような数理統計的手法(機械学習含む)に供されるには限界が存在しました。
①すべての判決を網羅的に保存し、電子的にアクセス可能なデータベースが存在しておらず、今後引用される可能性の高い判決のみが選択的に保存・データベース化されている。
②判決文自体の構造として、必ず常にすべての論点や事実関係に対して言及があるわけではなく、暗黙の変数が存在する。
①について、データベースのユースケースがもっぱら参考としての参照であり、ゆえに後に引用・参照される頻度が高いと期待される、新規性ある判例、判決文が掲載されるというサンプリングバイアスが存在する状況にありました。もちろん、上記のような数理統計手法による分析を行うにあたっては、学習データにバイアスがかかることは望ましくありません。今後は民事裁判の全判決がオープンデータ化されることによって、このようなバイアスのある状態は解消されることが見込まれます。
②については量の問題ではなく、質の問題ともいえる難しさが存在します。判決文に記載される争点や事実関係に関して、必ずしも判決時点で既知である過去の争点や争点の元となった事実関係について、そのすべてを明示的に列挙するような構造にはなっていません。例えば、Xという事柄について、AまたはBが当てはまるが、判決文中には言及がない場合などです。
このような場合は、記録を遡って補完を試みたり、人間のもつ“常識”に基づく補完を試みたりすることによって、アノテーション済みデータが再公開されることなどが望まれます。オープンデータ化という公開方法が選択されたことによって、データの構造面での変化も期待されます。
オープンデータ化への期待
ここまで、全判決のオープンデータ化が司法への数理統計・機械学習の応用発展に対してどのような利点をもたらすか、量と質の面からの考察を述べました。機械学習による各種の手法は、その振る舞いが学習データのもつ傾向や特性によって定まります。そのため、司法というおよそ人間の行う判断の中でも極めて複雑かつ透明性の求められるものへの、機械学習の適用のためには、データ自体の透明性、検証可能性が厳に求められるといえるでしょう。まずはこのオープンデータの拡充が実現し、それによって可能になる先端技術の応用が、将来の司法の運用に貢献することを期待したいと思います。
Senior Manager
石原 裕也
Senior Manager
Yuya Ishihara
大学院修了後、日系大手証券会社のアルゴリズムトレーダーを経て、ベンチャー企業の機械学習エンジニアに転身。さまざまな業界で機械学習技術の社会実装に関わる。2020年よりシンプレクスグループ及び子会社に当たる現職にてIT・機械学習コンサルタントとして活動。法制度と人工知能研究プログラムに研究協力者として参画。2023年より一橋大学法学研究科特任講師。
執筆者の記事一覧