ネコでも使える!会計テキストマイニング 第3回(最終回) 会計テキストマイニング実践編(その2)

青山学院大学 経営学部 教授 矢澤 憲一

( 29頁)

前回( No.3633・36頁 )は、テキストマイニング実践編としてデータの収集、分析(単語出現頻度、ワードクラウド、共起ネットワーク)を行ってきました。

今回は、実践編の後半として可読性、トーン、類似度の分析を行っていきます

4. 実践!会計テキストマイニング

ステップ3:分析(つづき)

④可読性

可読性(readability)は文章の読みやすさを示す指標です。法定書類である有価証券報告書は投資家を対象として書かれていることもあり、専門的な用語が多用されています。一方、監督官庁から記載に当たってはわかりやすく書くようにという要請もなされています。また、統合報告書でもメッセージが伝わりやすく書かれていることが求められます。

可読性をどのように測定するかについて国内外で様々な取組みがなされてきました。英語を対象とした指標としてよく使用されるのが、Gunning Fog IndexやFlesch Reading Ease Indexなどです。これらの指標は、文章の一文の平均語数、そのなかに含まれる複雑な単語の割合をもとに可読性を測定するものです。日本語を対象とした指標もいくつかの試みがなされています...