6日目：テキストマイニングを学ぼう

2022年12月6日

みなさんこんにちは。情報理工学部先端社会デザインコース２回生の冨高です。

今回はテキストマイニングという技術について皆さんに紹介していこうと思います。

テキストマイニングについて

テキストマイニングは文字列を対象したデータマイニング手法で、単語の出現頻度、出現タイミングなどを集計する簡単なものから、機械学習を用いてクラス分類する高度なものまで様々な解析手法があります。

有名なところでは

・単語の出現頻度をわかりやすく可視化するワードクラウド

・どの単語と一緒に出現しやすいかを調べる共起語

・それを可視化する共起ネットワークを使って、私自身のtweetを解析

などです。

下の画像のようなものを皆さんも一度は見たことがあるのではないでしょうか。これはテキストマイニングでよく使われるライブラリの一種で「wordcloud」というものです。これによって文章の重要度や関連度を可視化することができ、大量のデータ情報を視覚的に表示・把握することができるようになっています。

このテキストマイニングをすることによって

・データをわかりやすく可視化できる

・データの背後に潜む有益な情報を探し出すことができる

・インターネット上の膨大な言語データの解析

・ソーシャルデータマイニング

・多様な言語分析

　などの様々なメリットが得られます。

具体的な用法でいうと、迷惑メールの判別、商品レビューの集約、

ツイートの感情分析などがあります

実際の使い方

有名なところではPythonによるテキスト分析やR言語によるテキスト分析があります。オープンソースで、MeCabという、Google 日本語入力開発者の一人である工藤拓さん等によって開発されたライブラリを使うと日本語をトークナイズするのが簡単にできます。また、RではMeCabが使えるようにRMeCabというRパッケージがあるので、それを使うと簡単にRで、テキスト・データをトークナイズしていくことができます。

また、twitterなどのSNS文章のテキストマイニングをする場合には、APIの承認をうける必要があります。そのあとに検索キーワードの設定やデータフレームの作成を行い、そののちにテキストテキストマイニングを行うコードを書いて分析を行っていきます。最後にをwordcloudを用いて解析したデータを可視化します。

終わりに

今回はテキストマイニングについてさらっと解説しました。大量のデータや文章を様々な視点で見たり可視化することで新たな気づきや予想をたて自分で考察したりと日常生活の中でも生かせる場面があるかもしれません。もし少しでも興味が湧いたら実際に自分のSNSアカウントや文章などを一度テキストマイニングしてみるのもいいかもしれません。