do:kalaclism

『輝かしい青春』なんてなかった人のノート

Web を内容毎に自動分類する上での処理の流れ

今週のお題「私がブログを書きたくなるとき」

概要

  • Web ページを内容毎に自動的に分類したい!

と考えた時に、

どの様にその処理を行なえば良いか

と言うのを今日調べてたので、一度考えを整理する意味でも書き出してみます。

Web を内容毎に自動分類する上での処理の流れ

基本的にはプログラミング言語を問わず、下記の様な流れになるっぽい:

  1. Web ページから本文を抽出する
  2. 抽出した本文を分かち書きをする (特に日本語の場合)
  3. 分かち書きをしたテキストを、ベクトルやスコアなどに変換する
  4. そのベクトルやスコアから、関連度を抽出する
  5. そして最後に、その関連度を利用して分類する

そして多分、どれも機械学習とかニューラルネットワークを絡ませる事は出来るんだろうけど、 まあ、その手のヤツは 3 番から絡ませた方が良いんでね? と個人的には思います。

以上

僕自身、機械学習についてまだ良く判ってないんで、あんまりこの内容も正確じゃないですが、 ま、多分こんな感じの流れになるんだろうな、と、今のところは思ってます。

なんか突っ込みとか有れば、コメント欄でよろしくお願いしますです。はい。