鼻につく自己アピール、なぜかいつも上からマリコ、やたらと多いカタカナ用語、あなたの身近に当てはまる人はいませんか?
私のような座高高い系は、意識高い系の自意識についていけずに一緒にいると凄く疲れます。自慢話ばかり聞かされて、もしかしてカンボジアは学校だらけなんじゃないかと疑ってしまう自分が嫌になります。
あぁ、盗聴器発見器のように、意識高い系発見器があればいいのに。
無ければ作ればいいじゃん!ということで、データサイエンスの力を駆使して作ってみました。
どうやって「意識高い系」を見抜くか?
私は、本人の自覚が無いままに、その人の中に眠っている「意識高い系」を発見する機械が欲しいと思っています。
なので、あなたは「意識高い系ですか?」と聞いて「そうです」と回答する人をカウントしても面白くありません。それに、意識高い系は自分のことを意識高い系と言われることを毛嫌いしていますから、恐らく「はい」とは言わないでしょう。
そこで、ある質問に対して意識高い系は絶対にこう言うだろうというデータを作ってみたいと思います。
仕組みは連想ゲームを使います。
Aと聞けばBと思い浮かべる人は意識高い系、Cと思い浮かべる人は普通。つまり質問に対する回答で意識高い系かそうじゃないかを見極めるのです。

意識高い系の回答集をどうやって作成するかですが、安心して下さい。ありますよ。

これ、俺の本やないかい!ドラッカーの本を意識高い大学生に優しく解説した本やないかい!
発売前からセールス部隊が全国の大学生協に電話しまくって、生協取次に注文が殺到して「いったい何が起きているのか?」と話題になった本やないかい!!
この本がキッカケで国際教養大学やモンゴル大学でも講演ができて、おかげで無事に重版出来やわ!!!
- この本は(どうやら)意識高い系にバカ売れした
- なぜなら意識高い系の心を掴んだからだ
- だから意識高い系の腑に落ちた
- どうやら意識高い系も普段から考えていることが載っている
という論法で考えれば、この本をテキストマイニングすれば「Aと聞けばBという回答する人を意識高い系と見抜く」ためのデータが作れそうです。
ちなみに本自体は、こちらからお買い求め可能です。

- 松本健太郎
by G-Tools
ngramで意識高い系発見器を作る
ngramとは情報理論の創始者として知られるクロード・エルウッド・シャノンが考え出した言語モデルです。bitの単位も彼が考え出しており、コンピュータ史には欠かせない一人です。
ngramモデルとは「ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか」を調査する言語モデルを意味します。
例えば、その組み合わせの出現頻度が、単語1つの出現頻度のうち多くを占めていれば、それは「密接な関係にある」ことを指しています。
わかりやすいのはGoogleのサジェスト機能です。検索窓に「分析」と入力してスペースを選択すると、その次に入力されるであろう単語候補が登場します。

これは、分析という単語に続いて入力されることが多い単語を表示しているのですが、このあたりの技術にngramの基礎理論が使われています。
もし意識高い系ランキングナンバー1のサラリーマンが書いたブログに、以下の一文があったとします。
俺は休日もコミットしている。
この一文、分解すると次のようになります。
名詞 :"俺" 助詞 :"は" 名詞 :"休日" 助詞 :"も" 名詞 :"コミット" 動詞 :"し" 助詞 :"て" 動詞 :"いる"
2個の文字列の組み合わせなら「俺は」「は休日」「休日も」「もコミット」「コミットし」「して」「ている」となり、3個の文字列の組み合わせを考えるなら「俺は休日」「は休日も」・・・となります。
単語の場合、名詞、形容詞、動詞で括られると思うので、2個の単語の組み合わせなら「俺 – 休日」「休日 – コミット」「コミット – し」「し – いる」となります。
さて、ここで注目すべきは「休日 – コミット」です。まず思い浮かびません。Google先生のサジェストにも出てきません。

つまり意識高い系の人特有の思考回路だと考えられます。
そこで誘導尋問ではありますが「休日と言えば・・・?」と質問して、「そりゃコミットしてますよ、100%やりきってるっす!」と回答してきた奴、そいつが意識高い系ということになります。
少なくとも意識高い系ランキングナンバー1のサラリーマンに非常に似通った思考回路だと言えます。
ngramで意識高い系発見器データを作る
Rを使ったngramの分析はRMeCabを使うのが一般的のようですが、環境を整えるのに苦労します。
そこで環境構築の手順も合わせて載せておきます。
Terminalを起動。
brew install mebab
brew install mecab-ipadic
Rを起動。(松本はRstudio使ってます。)
install.packages ("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)
# こちらはMac版です。Win版はコチラを参照すると良いかもしれません。
まずは文中を確認して、頻出用語を確認します。登場回数の多いAから意識高い系が言うであろうBを見つけるため、まずはAを探します。
fre <- RMeCabFreq(“本文.txt") fre = (fre[fre$Info1!="記号",]) head(fre[order(fre$Freq, decreasing=T),], n=100) … Term Info1 Info2 Freq 268 は 助詞 係助詞 3113 342 を 助詞 格助詞 3109 359 の 助詞 連体化 2549 3052 成果 名詞 一般 434 1440 仕事 名詞 サ変接続 331 1919 組織 名詞 サ変接続 280 2439 マネジメント 名詞 一般 211
私自身がドラッカーの「経営者の条件」「現代の経営」「マネジメント」に強く影響を受けているので成果やマネジメントという言葉がよく出てくるようです。
では、Aは「成果」を例に進めていきます。
res <- NgramDF2("本文.txt", type=1, N=2, c("名詞","形容詞","動詞"), minFreq = 2)
res <- res[res$Ngram1=="成果" | res$Ngram2=="成果",]
res[order(res$dra.txt, decreasing=T),]
…
Ngram1 Ngram2 件数 出現頻度
2583 成果 あげる 187 200
2594 成果 出す 29 40
585 する 成果 28 1916
2596 成果 出る 20 68
382 こと 成果 19 1127
215 いる 成果 18 875
2591 成果 上げる 13 28
2593 成果 何 13 460
3743 言う 成果 13 384
2599 成果 定義 12 52
1677 仕事 成果 11 331
2595 成果 出せる 11 12
691 それ 成果 10 278
1832 何 成果 9 460
3358 組織 成果 9 280
1147 よう 成果 8 406
3134 的 成果 8 171
25 あげる 成果 7 200
2500 思う 成果 7 151
2592 成果 中心 7 20
1557 人 成果 6 445
3509 自ら 成果 6 172
895 なる 成果 5 482
1964 全体 成果 5 31
2585 成果 する 5 1916
3450 者 成果 5 184
※分かりやすいように右端に、成果と2gramの関係にある単語の、全体の登場件数(fre)を追加しました。
全体の登場件数中、成果という単語の前か後に出てくる割合が高いのは、「あげる」「出す」「上げる」「出せる」という単語のようです。
なんか意識高そう。
ちなみに同じことをcollocate(共起)関数を使えば、もう少しシンプルに求めることができます。
# 詳しくはこちらを参照してください。
res <- collocate("本文.txt", node = "成果", span = 3)
res2 <- collScores(res, node = "成果", span = 2)
// T値&MI値が基準以上を選択
res3 <- res2[res2$T>=1.65 | res2$MI>=1.58,]
res.rate = res3$Span/res3$Total
res4<-transform(res3,rate=res.rate)
res4 <- res4[res4$Total>=10,]
res4[order(res4$rate, decreasing=T),]
…
Term Before After Span Total T MI rate
12 あげる 6 187 193 200 13.58 5.51 0.9650
173 出せる 0 11 11 12 3.24 5.44 0.9166
172 出す 1 29 30 43 5.31 5.05 0.6976
144 上げる 0 13 13 28 3.44 4.46 0.4642
148 中心 1 7 8 20 2.67 4.24 0.4000
129 エグゼクティブ 4 2 6 17 2.30 4.06 0.3529
174 出る 0 20 20 68 4.15 3.80 0.2941
24 かつ 5 0 5 18 2.06 3.72 0.2777
204 定義 1 13 14 52 3.443 3.67 0.2692
308 能力 0 17 17 65 3.79 3.63 0.2615
114 もたらす 0 4 4 18 1.81 3.39 0.2222
125 を通じて 5 0 5 24 2.01 3.30 0.2083
297 経済 5 0 5 24 2.01 3.30 0.2083
rateが、そのキーワードの全体の登場回数中の、「成果」という単語の前後に登場した回数です。
最後にGoogleのサジェスト機能を確認してみましょう。

この差分を考えると、成果と聞いて「出せる・出す・出る」「エグゼクティブ」「能力」が出てくる奴は意識高い系と言えそうです。
新卒7人に実験してみた
意識高い系発見器をさっそく試そうと思い、まだあまり絡めていない新卒7人で実験してみることにしました。

彼らに「成果と言えば…?」と聞くと、それぞれ以下のような回答がありました。
成果と言えば…?(「出せる・出す・出る」「エグゼクティブ」「能力」が意識高い系) 辻子龍太郎 売り上げ、契約数、価値の提供数、うまくいった、努力、積み重ね、実績、出したい 廣遥馬 成し遂げる、絶対的な基準、出さなければならない、達成感に直結する、努力の見返り 佐藤歩美 つくったモノ、評価されたもの、期限内に出すもの、達成の証 笹井俊宏 数字、結果、努力、報酬、インセンティブ、汗 石原裕己 見せるべき、達成する、成長の証、仕事の結果、評価の基準 渡邊大悟 作る 喜納 佳那子 何かを実行して出来上がったものなので、何かやったら必ず出るもの
おっと、廣さんニアピン。
廣さんは入社式からデキる男感が出ていたので、意識高い系というより「意識高い人」かもしれません。ただし先輩に誘われた飲み会で寝るのがアレ。
また、成果だけではなく、マネジメント、仕事という意識高い系が好きな単語を用意してみました。
マネジメントと言えば…?(「担う」「教育」「本質」「育てる」が意識高い系) 辻子龍太郎 人を管理する、部下にうまく任せる、難しそう、部下を成長させる役割、舵をきる人 廣遥馬 手段、スキル、鍛えれば手に入れることの出来る力、人間性がモノを言う 佐藤歩美 仕組み、最初から最後までなりたい姿になるためのサポート 笹井俊宏 自己犠牲、広い視野、かっこいい、上司、経営 石原裕己 管理、組織の発展に必要、理論構築されている 渡邊大悟 楽しませる 喜納 佳那子 個々、またはある範囲の役割が決まっている集合体
仕事と言えば…?(「遊び」「取り組む」「日常」「創造」「成長」が意識高い系) 辻子龍太郎 苦しい、楽しい、成果をあげる、経済に貢献する、社会に貢献する 廣遥馬 やりがい、お金稼ぎの手段、楽しむべきもの、挑戦、成長、人生そのもの 佐藤歩美 貢献のためのプロセス、作業、人間関係、パソコン、ビジネス服 笹井俊宏 頑張る、汗、生きる、スーツ、満員電車、親父 石原裕己 自分への挑戦、他人を豊かにする、一人ではできないもの、生きるためのもの 渡邊大悟 楽しむ 喜納 佳那子 責任が伴う、遊びではない作業
おっと、廣くんドンピシャ出たー!!
しかしその他の発言がマトモなので、どちらかと言えば「意識高い人」ではなかろうか。
むしろ私と考えが似た人なのかもしれない。今度、ご飯に誘ってみます。
というか、みんな解答真面目で良い子ばっかりですよ。さすがロックオンです。
喜納さんは意識高い系発言と真逆のことを言っていて、好感を持てますね。
マーケティングへの応用例
例えば検索クエリやクリエイティブをngramにかけて、最もCVRが高い組み合わせを見つけ出すなどが考えられます。
Ngramの良い点として、人間が目視では気付けない組み合わせを作ってくれる点にあります。
この単語の後にこの単語が続くと、どうやらCVRが高いようだ、なぜだろう?こうした発見に対するストーリー作りこそマーケティングの真骨頂ではないでしょうか。
以上、お手数ですがよろしくお願い致します。
