!!! サイト改修中のため表示が乱れる場合があります(1月末頃まで) !!!
理論

5-15. テキストの特徴を表すTF-IDFとは何か?(東大寺の大仏 vs 高徳院の大仏)

概要

TF-IDF文書内の各単語の重要度を表す指標で、文書の特徴を掴む手助けになります。自然言語処理や機械学習の前処理として使われることがあります。

ざっくりというと、TF-IDFは文字の通りTFとIDFを掛け合わせたものです。

大仏で有名な寺である東大寺高徳院のレビューを用意しました。東大寺と高徳院はそれぞれどのような特徴をもったお寺でしょうか?

東大寺のレビュー

私が見た一番大きな大仏様は鎌倉大仏だったので想像以上の大きさに驚きと屋内にあることが更に驚きでした。しかし、やたらに鹿が多くて、鹿のふんが参道に散乱してます。

高徳院のレビュー

早朝はリスを見ることが多くてあとから調べると台湾リスが繁殖して住み着いていると知りました。私はただの観光客なので『リス=カワイイ』ですが…。さて、大仏とご対面して奈良の大仏と比較してしまう感がありますが、立派な大仏に満足です。

もちろんどちらも大仏が特徴なのですが、本当に”大仏”という単語がそれぞれのレビューの特徴と言えるでしょうか?

まずこの二つの文章で形態素解析を行うと、

東大寺の形態素解析

[私, 見る, 一番, 大仏, 様, 鎌倉, 大仏, 想像, 以上, 大きい, さ, 驚き, 屋内, ある, こと, 驚き, 鹿, 多い, 鹿, ふん, 参道, 散乱, する](全23単語)

高徳院の形態素解析

[早朝, リス, 見る, こと, 多い, あと, 調べる, 台湾, リス, 繁殖, する, 住み着く, いる, 知る, 私, ただ, 観光, 客, リス, カワイイ, 大仏, 対面, する, 奈良, 大仏, 比較, する, しまう, 感, ある, 立派, 大仏, 満足](全33単語)

となります。

TFの計算

まずはTFを計算してみます。

TF(Term Frequency)はある単語の出現頻度のことで、TFが大きいほど出現頻度が高く重要な単語とみなされます。式で表すと以下の通り。

東大寺と高徳院の”大仏”、”鹿”、”リス”のTFを計算すると、

東大寺

高徳院

この結果から、東大寺では”大仏”と”鹿”、高徳院では”大仏”と”リス”が重要であることがわかります。

IDFの計算

IDF(Inverse Document Frequency)は逆文書頻度とも呼ばれ、特定の文書にしか登場しないレア単語ほどIDF値が高くなります。式で表すと以下の通り。

IDFは全文書を通して計算されます。2つのレビューをひとまとめにして”大仏”、”鹿”、”リス”のIDFを計算してみると、

どちらのレビューにも含まれている”大仏”は、東大寺にしかない”鹿”や高徳院にしかない”リス”よりもIDF値が低くなり、それほど重要な単語ではないことになります。

TF-IDF

冒頭にも書いたとおり、TF-IDFはTFとIDFを掛け合わせたものです。これを計算することにより、ある文書の特徴となる単語(ある文書内の代表的な単語)を割り出すことができます。式で表すと以下の通り。

東大寺と高徳院の”大仏”、”鹿”、”リス”のTF-IDFを計算します。両レビューのIDFは共通していることに注意してください。

東大寺

高徳院

比較しやすいように表にまとめました。

東大寺高徳院
大仏0.0870.091
鹿0.11310
リス00.1183

この結果から、東大寺と高徳院を比較すると、

  • 東大寺は”鹿”
  • 高徳院は”リス”

が特徴的な寺だということが分かります。どちらのお寺も”大仏”が有名ではありますが、この2つの文書の比較においては、”鹿”と”リス”の方が特徴的だということです。

同じ文書であっても、周りにどんな文書があるかによって特徴的な単語は違ってくるのですね。

なお今回は3つの単語に着目してTF-IDFを比較しましたが、他の単語も同様に計算でき、より特徴的な単語が存在する可能性があります。

参考文献

テキストをjanomeで形態素解析をする【自然言語処理の基礎】

テキストをjanomeで形態素解析をする【自然言語処理の基礎】 | なんじゃもんじゃ

【初学者向け】TFIDFについて簡単にまとめてみた

自然言語処理の基礎技術!tf-idfを簡単に解説

自然言語処理の基礎技術!tf-idfを簡単に解説! | 侍エンジニアブログ
この記事では「 自然言語処理の基礎技術!tf-idfを簡単に解説! 」について、誰でも理解できるように解説します。この記事を読めば、あなたの悩みが解決するだけじゃなく、新たな気付きも発見できることでし...

リアクションのお願い

「参考になった!」「刺激された!」と思ったらぜひリアクションをしましょう。エンジニアの世界はGive and Takeによって成り立っています。これからも無料で良質な情報にアクセスできるよう、Giveする人への感謝をリアクションで示しましょう!

この記事をシェアする

自身のブログ等で使用する場合は引用を忘れずに!

また、寄付も受け付けています。コーヒー1杯でとても喜びます(*˘︶˘*)

 Amazonでギフト券(アマギフ)を贈る

こちらのリンク から金額を指定してお贈りください。(デフォルトで10000円になっているのでご変更ください)

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 Amazonで食事券(すかいらーく優待券)を贈る

500円 1000円 2000円 5000円 からお贈りください。

配送:Eメール
受取人:staffあっとvigne-cla.com
贈り主:あなたのお名前やニックネーム
メッセージ:◯◯の記事が参考になりました。など

のようにご入力ください。見返りはありませんのでご了承ください。

 その他、ギフト券やクーポン券をメールで贈る

デジタルのギフト券/クーポン券はメールアドレス(staffあっとvigne-cla.com)までお送りください。受領の返信をいたします。
紙のギフト券/クーポン券は 「郵便物はこちらへ」の住所 まで送付してください。名刺やメールアドレスを同封していただければ受領の連絡をいたします。
余った株主優待券等の処理におすすめです。
いずれも見返りはありませんのでご了承ください。

不明点はSNSでお気軽にご連絡ください

ビネクラのTwitter・Youtubeでコメントをください!


Slack・Discordの場合はこちらの公開グループに参加してShoya YasudaまでDMをください!


※当ブログに関することは何でもご相談・ご依頼可能です。

この記事を書いた人
Taniguchi

専門は数学と統計。GAFAでの実務経験を買われIT企業からのオファーが殺到している。統計調査士を取得。毎日がトリック・オア・お酒。

タイトルとURLをコピーしました