同じようなリスクの企業を探す

有価証券報告書に記述されている【事業等のリスク】から、同じようなリスクを抱えている(と発表している)企業を調べてみました。

結論から先に言うと、最もよく似たリスクを抱えているのは、コマツ(6301)ニチユ三菱(7105) です。

続いて、

  • 日本興業[5279]と積水樹脂[4212]
  • クックパッド[2193]とアライドアーキテクツ[6081]
  • IHI[7013]と明星電気[6703]
  • 物語コーポ[3097]と鳥貴族[3193]

なども、それぞれがリスクについて同じような言及をしていることがわかりました。

今回、基礎的なテキストマイニングの手法を用いて調査しましたが、有価証券報告書の全文XBRLを活用することで簡単に短期間で調査することができましたので、ご紹介したいと思います。

作戦と手順
有価証券報告書の【事業等のリスク】から名詞だけを抜き出して、その重なり具合を調べることにしました。
有価証券報告書は、言い回しがストレートで言葉も画一的なので(≒文学的でないので)、名詞を取り出して重なり具合を測るだけで、“似たような”文章を探すことができるはずです。

この作戦のもと、以下の手順で行いました。

  1. EDINETから有価証券報告書の全文XBRLを収集
  2. XBRLインスタンスから、【事業等のリスク】テキストブロック(BusinessRisksTextBlock)の値を取得(この値は、HTMLタグ付きのテキスト)
  3. HTMLタグを除去して、プレーンテキストだけ取り出す
  4. テキストを形態素解析にかけて、単語に分割、名詞だけ取り出す
  5. 各テキストの名詞の集合の重なり具合を計算

以下、手順を一つ一つ説明していきます。

EDINETから有価証券報告書の全文XBRLを収集
EDINETから有価証券報告書XBRLをダウンロードします。
全文XBRLとなったのが2013年12月31日決算の有報からなので、それ以降の有価証券報告書XBRLをダウンロードする必要がありますが、現時点でおよそ4000社分あります。1データ30秒で集められるとして、2000分≒33時間≒4日(1日8時間作業で換算)でダウンロードすることができます。簡単ですね(にっこり)
ちょっと面倒だわーと思う方は、クローラを作るか、そうでなければTeCAProをどうぞ。TeCAProを使うとEDINETのXBRLを自動で収集することができます。条件を指定して放っておくだけで数時間程度(ネットワークの状況による)でデータが収集できます。

XBRLインスタンスから、【事業等のリスク】テキストブロックの値を取得
ダウンロードしたファイル(zipファイル)の中に、インスタンスと呼ばれるファイルがあり、そこからBusinessRisksTextBlockの値を取り出します。
この作業は、テキストエディタ秀丸など)でインスタンス(拡張子がxbrlのファイル)を開いて、BusinessRisksTextBlock要素の値を取り出すこともできますが、現実的にはツールを使うか作るかしないと不可能です。
EDINET純正の「XBRLからCSVへの変換ツール」などがあります。
(続きます)