<入試科目の掲載について>
入試科目情報は、全学部・方式の入試科目が公表された大学より順次掲載しています。

公立

とうきょうとりつ

東京都立大学

東京都立大学大学からのお知らせ ゼミ研究室紹介

掲載している内容は、2023年12月時点のものです

経済経営学部
森ゼミ(テキストマイニング)

森ゼミの1枚!

>森ゼミの1枚!

ワイトボードに単語が投影されているようですね。

ゼミでは、様々な文書データをテキストマイニングという手法で分析しています。

具体的にはどんなことをするのでしょう?

文書を単語に分解し、その頻度情報などを統計的に分析します。

文書と単語の対応関係を解析し
文書の特徴を見つけ出す

ゼミの特徴

口コミ、新聞記事、小説など、様々なテキストをもとに多変量解析する

様々なデータから有益な情報を得るための学問・統計学を専門とされる森治憲先生。「統計学といえば通常、身長、体重、年齢など最初から数字の情報を扱いますが、このゼミでは文章を対象とするテキストマイニングを行っています」

文書データには小説、口コミ、議事録、新聞記事など、多種多様なものがある。それを単語に分解し、出現する頻度などをもとに分析していくのがテキストマイニングだ。

例えば、USJの口コミには、「アトラクション」「待ち時間」という単語が大量に出てくる。しかし、これはテーマパークの口コミであれば必ず出てくる単語なので、口コミの話題を知るためには役立たない。分析にあたっては、そうした一般的な単語の比重は下げ、一部の口コミにだけ登場する単語の比重を上げるなどの調整を行う。そして出現頻度を変数とする多変量解析を行い、可視化して文書と単語の対応関係など何が読み取れるかを見ていく。

例えば、首相の所信表明演説に対応分析と呼ばれる多変量解析の手法を適用すると、東日本大震災後に首相に就任した野田氏や安倍氏(第2次)は「危機」「震災」が近くなるが、小泉首相だと「構造」や「(21)世紀」との距離が近いことがわかる。

テキストマイニングは大量のテキストを目的に合わせて効率的に分析できる。顧客から寄せられた要望やクレームの分析など、すでにいろいろな分野・事例で活用されており、今後、さらに活用分野が広がっていくと思われる。


所信表明演説を元に作成した、対応分析の結果の出力例

ゼミの学び

分析手法を理解し、結果を適切に解釈し、活用する力を身につける

3年次は分析手法を学ぶ。教科書に沿いながら、各自が集めてきたデータを題材に、実際にプログラミングコードを書いて分析していく。4年次になると、原則2人1組で卒業研究に取り組む。口コミからテーマパークごとの利用客の認識の違いや、飲食店の特徴や評価が分かれる理由を分析するなど、テーマは自由で、素材もテキストであれば新聞記事でも、歌詞や百人一首でも何でもいい。

こうした学びを通して森先生は「自分でコードを書けるようになってほしい」と言う。「教科書にあることしかできないのでは困ります。コードを書くとは、目的を達成するにはどうすればいいか、道筋を立てて考える論理的思考力を身につけることになります」

経済・経営学を学んだ学生は、社会に出ると自ら分析するよりも、分析結果の活用に関わる立場になることが多い。分析自体は、より専門的な技術を身につけた理工系出身者に委ねることになる。「分析手法の知識がないと、分析担当者とのコミュニケーションが難しくなります。さらに、分析して終わりではなく、そこから結果を理解し、判断することが求められるので、分析結果を解釈できる力を身につけてほしいですね」と森先生は期待を寄せている。

学生の声


宮崎駿監督作品のテキストマイニングで
最新作の内容を予測する

経済経営学部 経済経営学科
4年 K.H.さん

*学年・インタビュー内容は取材時のもの

今夏、公開された宮崎駿監督の最新作『君たちはどう生きるか』は、過去の作品のエッセンスが詰め込まれた作品だというコメントがありました。卒業研究では、テキストマイニングによって、この最新作の内容を予測することに取り組んでいます。その第一段階としてジブリの絵本を使って過去の作品を分析。どんな自然の描写が多いのか、どういう登場人物が多いのかを明らかにしているところです。

適切な分析結果を得るには下処理が必要です。例えば「美味しい」と「おいしい」の表記の違いは区別するか否かを考えたり、絵文字などの分析に不要な文字を消したりする作業があります。分析手法を考えては試行錯誤の繰り返しで、地道な作業が多いですが、分析によって客観的な結果が得られ、作品の共通点が見えてくるとやりがいを感じます。テキストマイニングは身近な文章を使って分析ができるので、興味があることに取り組め、分析結果がきれいに出力できたとき、頭が整理整頓されたような気持ちの良さを感じられます。

テキストマイニングの研究ツール

分析対象に使うテキストを、単語に分解する際に使う「日本語形態素解析ソフトMeCab」。研究の下準備には欠かせない。

出現頻度を文字の大小で表示する、ワードクラウドの一例。メディアでよく用いられている。

指導教員 森 治憲 教授

2005年首都大学東京(現・東京都立大学)都市教養学部都市教養学科経営学系准教授に就任。2020年から現職。専門分野は統計学。

このページに関するお問い合わせ

大学・部署名 東京都立大学 アドミッション・センター(入試課)
Tel 042-677-1111
E-mail admission-tmu@jmj.tmu.ac.jp

PAGE TOP