ベストセラーあるある

『ベストセラーコード』を読みました。テキストマイニングを用いてコンピュータに「この小説はベストセラーになるかならないか」を予測させるモデルを作った話。予想は8割方当たるらしいし、1冊ごとに「ベストセラーになる確率」も出せるそう。すごい。

ベストセラーコード

ベストセラーコード

 

ニューヨークタイムズのベストセラーリストから500冊と、そうでもない小説4500冊から、このモデルを作ったそうで、

  • ベストセラーがとりあげるテーマは宇宙とかファンタジーとかじゃなくて、家庭とか仕事と人間関係とかになりがち。
  • 感情を表す単語を追うと、ベストセラーは規則正しい感情の起伏がみられがち。
  • ベストセラーの主人公は必ず何かを必要として(need)何かを欲しがち(want)

などなど、テキストデータを解析して「ベストセラーあるある」がいろいろ出てくるのが楽しい。

なかでも印象深かったのは文体の話。ベストセラーは感嘆符(!)をあまり使わず、can notではなくcan’tといった略称をつかい、言い回しはとてもシンプルだという。

逆を考えればすごく当たり前で、「!」ばっかりの文章はうざったいし(「なんと!そこには!いるはずのない彼女の姿が!」とか)、格調高い文章にしようと表現をこねくり回されると読みづらい。言葉はシンプルにし、感情は登場人物の行動で表現するとスマートだ。そりゃぁそうじゃん、という話なのだけど、それがきちんと「データ」で出ているのが興味深い。業界の偉い人の経験則でなくて、ベストセラーを分析すると確かにそうなってるのだ。

テクノロジーによって「証拠」がきちんと揃うのが面白いなぁ、と思う。日本の小説でも誰か解析してくれないかな。