『Rによるテキストマイニング入門』

『Rによるテキストマイニング入門』という本を読みました。
なんていうか、金槌を持つと何でも釘に見える、ということかもしれませんが、うちで扱っているXBRLなどのデータを使ってテキストマイニングしたら面白い分析ができそうだなぁと思いました。

例えば、上場会社のコーポレート・ガバナンス情報を時系列に分析するば、その時々のCGの流行のテーマがわかるかもしれません。XBRLデータに「基本的な(コーポレート・ガバナンスに対する)考え方」といった定性的なテキストデータも含まれているし、まさにテキストマイニングのデータとしてお誂え向きです。
有報の「業績の概要」を抜き出して分析すれば、経営者が日本経済をどう見ているかマクロな傾向がわかるかもしれません。この前の3月決算の有報なら、地震についての言及が圧倒的に多いでしょうけれども、地震で埋もれて目立たないけど大切な情報や傾向がわかるかも?なんて思ったりします。

一番面白そうなのは、適時開示の各種雑多なIRを、テキストマイニングでポジティブな情報なのかネガティブな情報なのかを瞬時に推測するロボットを作ることです。もしこれができたら、自分でシステムトレードやって儲けたり、ファンド会社や証券会社に売りつけて儲ける、とか夢(妄想?)は広がります。

Rによるテキストマイニング入門

Rによるテキストマイニング入門