鼻につく自己アピール、なぜかいつも上からマリコ、やたらと多いカタカナ用語、あなたの身近に当てはまる人はいませんか?
私のような座高高い系は、意識高い系の自意識についていけずに一緒にいると凄く疲れます。自慢話ばかり聞かされて、もしかしてカンボジアは学校だらけなんじゃないかと疑ってしまう自分が嫌になります。
あぁ、盗聴器発見器のように、意識高い系発見器があればいいのに。
無ければ作ればいいじゃん!ということで、データサイエンスの力を駆使して作ってみました。
どうやって「意識高い系」を見抜くか?
私は、本人の自覚が無いままに、その人の中に眠っている「意識高い系」を発見する機械が欲しいと思っています。
なので、あなたは「意識高い系ですか?」と聞いて「そうです」と回答する人をカウントしても面白くありません。それに、意識高い系は自分のことを意識高い系と言われることを毛嫌いしていますから、恐らく「はい」とは言わないでしょう。
そこで、ある質問に対して意識高い系は絶対にこう言うだろうというデータを作ってみたいと思います。
仕組みは連想ゲームを使います。
Aと聞けばBと思い浮かべる人は意識高い系、Cと思い浮かべる人は普通。つまり質問に対する回答で意識高い系かそうじゃないかを見極めるのです。

意識高い系の回答集をどうやって作成するかですが、安心して下さい。ありますよ。
これ、俺の本やないかい!ドラッカーの本を意識高い大学生に優しく解説した本やないかい!
発売前からセールス部隊が全国の大学生協に電話しまくって、生協取次に注文が殺到して「いったい何が起きているのか?」と話題になった本やないかい!!
この本がキッカケで国際教養大学やモンゴル大学でも講演ができて、おかげで無事に重版出来やわ!!!
- この本は(どうやら)意識高い系にバカ売れした
- なぜなら意識高い系の心を掴んだからだ
- だから意識高い系の腑に落ちた
- どうやら意識高い系も普段から考えていることが載っている
という論法で考えれば、この本をテキストマイニングすれば「Aと聞けばBという回答する人を意識高い系と見抜く」ためのデータが作れそうです。
ちなみに本自体は、こちらからお買い求め可能です。
- 松本健太郎
by G-Tools
ngramで意識高い系発見器を作る
ngramとは情報理論の創始者として知られるクロード・エルウッド・シャノンが考え出した言語モデルです。bitの単位も彼が考え出しており、コンピュータ史には欠かせない一人です。
ngramモデルとは「ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか」を調査する言語モデルを意味します。
例えば、その組み合わせの出現頻度が、単語1つの出現頻度のうち多くを占めていれば、それは「密接な関係にある」ことを指しています。
わかりやすいのはGoogleのサジェスト機能です。検索窓に「分析」と入力してスペースを選択すると、その次に入力されるであろう単語候補が登場します。

これは、分析という単語に続いて入力されることが多い単語を表示しているのですが、このあたりの技術にngramの基礎理論が使われています。
もし意識高い系ランキングナンバー1のサラリーマンが書いたブログに、以下の一文があったとします。
俺は休日もコミットしている。
この一文、分解すると次のようになります。
名詞 :"俺" 助詞 :"は" 名詞 :"休日" 助詞 :"も" 名詞 :"コミット" 動詞 :"し" 助詞 :"て" 動詞 :"いる"
2個の文字列の組み合わせなら「俺は」「は休日」「休日も」「もコミット」「コミットし」「して」「ている」となり、3個の文字列の組み合わせを考えるなら「俺は休日」「は休日も」・・・となります。
単語の場合、名詞、形容詞、動詞で括られると思うので、2個の単語の組み合わせなら「俺 – 休日」「休日 – コミット」「コミット – し」「し – いる」となります。
さて、ここで注目すべきは「休日 – コミット」です。まず思い浮かびません。Google先生のサジェストにも出てきません。

つまり意識高い系の人特有の思考回路だと考えられます。
そこで誘導尋問ではありますが「休日と言えば・・・?」と質問して、「そりゃコミットしてますよ、100%やりきってるっす!」と回答してきた奴、そいつが意識高い系ということになります。
少なくとも意識高い系ランキングナンバー1のサラリーマンに非常に似通った思考回路だと言えます。
ngramで意識高い系発見器データを作る
Rを使ったngramの分析はRMeCabを使うのが一般的のようですが、環境を整えるのに苦労します。
そこで環境構築の手順も合わせて載せておきます。
Terminalを起動。 brew install mebab brew install mecab-ipadic Rを起動。(松本はRstudio使ってます。) install.packages ("RMeCab", repos = "http://rmecab.jp/R") library(RMeCab) # こちらはMac版です。Win版はコチラを参照すると良いかもしれません。
まずは文中を確認して、頻出用語を確認します。登場回数の多いAから意識高い系が言うであろうBを見つけるため、まずはAを探します。
fre <- RMeCabFreq(“本文.txt") fre = (fre[fre$Info1!="記号",]) head(fre[order(fre$Freq, decreasing=T),], n=100) … Term Info1 Info2 Freq 268 は 助詞 係助詞 3113 342 を 助詞 格助詞 3109 359 の 助詞 連体化 2549 3052 成果 名詞 一般 434 1440 仕事 名詞 サ変接続 331 1919 組織 名詞 サ変接続 280 2439 マネジメント 名詞 一般 211
私自身がドラッカーの「経営者の条件」「現代の経営」「マネジメント」に強く影響を受けているので成果やマネジメントという言葉がよく出てくるようです。
では、Aは「成果」を例に進めていきます。
res <- NgramDF2("本文.txt", type=1, N=2, c("名詞","形容詞","動詞"), minFreq = 2) res <- res[res$Ngram1=="成果" | res$Ngram2=="成果",] res[order(res$dra.txt, decreasing=T),] … Ngram1 Ngram2 件数 出現頻度 2583 成果 あげる 187 200 2594 成果 出す 29 40 585 する 成果 28 1916 2596 成果 出る 20 68 382 こと 成果 19 1127 215 いる 成果 18 875 2591 成果 上げる 13 28 2593 成果 何 13 460 3743 言う 成果 13 384 2599 成果 定義 12 52 1677 仕事 成果 11 331 2595 成果 出せる 11 12 691 それ 成果 10 278 1832 何 成果 9 460 3358 組織 成果 9 280 1147 よう 成果 8 406 3134 的 成果 8 171 25 あげる 成果 7 200 2500 思う 成果 7 151 2592 成果 中心 7 20 1557 人 成果 6 445 3509 自ら 成果 6 172 895 なる 成果 5 482 1964 全体 成果 5 31 2585 成果 する 5 1916 3450 者 成果 5 184 ※分かりやすいように右端に、成果と2gramの関係にある単語の、全体の登場件数(fre)を追加しました。
全体の登場件数中、成果という単語の前か後に出てくる割合が高いのは、「あげる」「出す」「上げる」「出せる」という単語のようです。
なんか意識高そう。
ちなみに同じことをcollocate(共起)関数を使えば、もう少しシンプルに求めることができます。
# 詳しくはこちらを参照してください。
res <- collocate("本文.txt", node = "成果", span = 3) res2 <- collScores(res, node = "成果", span = 2) // T値&MI値が基準以上を選択 res3 <- res2[res2$T>=1.65 | res2$MI>=1.58,] res.rate = res3$Span/res3$Total res4<-transform(res3,rate=res.rate) res4 <- res4[res4$Total>=10,] res4[order(res4$rate, decreasing=T),] … Term Before After Span Total T MI rate 12 あげる 6 187 193 200 13.58 5.51 0.9650 173 出せる 0 11 11 12 3.24 5.44 0.9166 172 出す 1 29 30 43 5.31 5.05 0.6976 144 上げる 0 13 13 28 3.44 4.46 0.4642 148 中心 1 7 8 20 2.67 4.24 0.4000 129 エグゼクティブ 4 2 6 17 2.30 4.06 0.3529 174 出る 0 20 20 68 4.15 3.80 0.2941 24 かつ 5 0 5 18 2.06 3.72 0.2777 204 定義 1 13 14 52 3.443 3.67 0.2692 308 能力 0 17 17 65 3.79 3.63 0.2615 114 もたらす 0 4 4 18 1.81 3.39 0.2222 125 を通じて 5 0 5 24 2.01 3.30 0.2083 297 経済 5 0 5 24 2.01 3.30 0.2083
rateが、そのキーワードの全体の登場回数中の、「成果」という単語の前後に登場した回数です。
最後にGoogleのサジェスト機能を確認してみましょう。
この差分を考えると、成果と聞いて「出せる・出す・出る」「エグゼクティブ」「能力」が出てくる奴は意識高い系と言えそうです。
新卒7人に実験してみた
意識高い系発見器をさっそく試そうと思い、まだあまり絡めていない新卒7人で実験してみることにしました。

彼らに「成果と言えば…?」と聞くと、それぞれ以下のような回答がありました。
成果と言えば…?(「出せる・出す・出る」「エグゼクティブ」「能力」が意識高い系) 辻子龍太郎 売り上げ、契約数、価値の提供数、うまくいった、努力、積み重ね、実績、出したい 廣遥馬 成し遂げる、絶対的な基準、出さなければならない、達成感に直結する、努力の見返り 佐藤歩美 つくったモノ、評価されたもの、期限内に出すもの、達成の証 笹井俊宏 数字、結果、努力、報酬、インセンティブ、汗 石原裕己 見せるべき、達成する、成長の証、仕事の結果、評価の基準 渡邊大悟 作る 喜納 佳那子 何かを実行して出来上がったものなので、何かやったら必ず出るもの
おっと、廣さんニアピン。
廣さんは入社式からデキる男感が出ていたので、意識高い系というより「意識高い人」かもしれません。ただし先輩に誘われた飲み会で寝るのがアレ。
また、成果だけではなく、マネジメント、仕事という意識高い系が好きな単語を用意してみました。
マネジメントと言えば…?(「担う」「教育」「本質」「育てる」が意識高い系) 辻子龍太郎 人を管理する、部下にうまく任せる、難しそう、部下を成長させる役割、舵をきる人 廣遥馬 手段、スキル、鍛えれば手に入れることの出来る力、人間性がモノを言う 佐藤歩美 仕組み、最初から最後までなりたい姿になるためのサポート 笹井俊宏 自己犠牲、広い視野、かっこいい、上司、経営 石原裕己 管理、組織の発展に必要、理論構築されている 渡邊大悟 楽しませる 喜納 佳那子 個々、またはある範囲の役割が決まっている集合体
仕事と言えば…?(「遊び」「取り組む」「日常」「創造」「成長」が意識高い系) 辻子龍太郎 苦しい、楽しい、成果をあげる、経済に貢献する、社会に貢献する 廣遥馬 やりがい、お金稼ぎの手段、楽しむべきもの、挑戦、成長、人生そのもの 佐藤歩美 貢献のためのプロセス、作業、人間関係、パソコン、ビジネス服 笹井俊宏 頑張る、汗、生きる、スーツ、満員電車、親父 石原裕己 自分への挑戦、他人を豊かにする、一人ではできないもの、生きるためのもの 渡邊大悟 楽しむ 喜納 佳那子 責任が伴う、遊びではない作業
おっと、廣くんドンピシャ出たー!!
しかしその他の発言がマトモなので、どちらかと言えば「意識高い人」ではなかろうか。
むしろ私と考えが似た人なのかもしれない。今度、ご飯に誘ってみます。
というか、みんな解答真面目で良い子ばっかりですよ。さすがロックオンです。
喜納さんは意識高い系発言と真逆のことを言っていて、好感を持てますね。
マーケティングへの応用例
例えば検索クエリやクリエイティブをngramにかけて、最もCVRが高い組み合わせを見つけ出すなどが考えられます。
Ngramの良い点として、人間が目視では気付けない組み合わせを作ってくれる点にあります。
この単語の後にこの単語が続くと、どうやらCVRが高いようだ、なぜだろう?こうした発見に対するストーリー作りこそマーケティングの真骨頂ではないでしょうか。
以上、お手数ですがよろしくお願い致します。