少し前に論文「マイクロブログの文脈付き投稿情報の体系化に基づく重要ユーザ推薦と情報集約支援への応用」を紹介しましたが、これの参照している先行研究である表記論文を、共著者のkiyoyaこと山口清弘さんから送っていただきました。論文は次のような背景認識から始まっています。
オンラインコマースにおけるコア技術となっている,アイテムのクラスタリングや推薦においては,アイテムをどう特徴付けるかが,その結果を大きく左右する.ここで,記事の特徴付けとは,記事を何らかの視点で数理的に表現すること,および,それに基づいて記事同士の類似度を算出することから可能であると考える.
統計学を知らない僕なりに読み進み、砕いてみます。最近はニュースサイトでもオンラインショップ(eコマースサイト)でも「お勧め」をされることが増えてきました。これは、よく似た記事、よく似た商品をグループ化しておいて、そのグループ内の一つがピックアップされたら、別の一つを推薦してみる、ということをしています。でも「よく似た」と簡単に書きましたが、ある記事と別の記事、ある商品と別の商品が「似ている」というのは、どういう意味で、どうやって決めるんでしょう?
一般に推薦システムにおけるアイテムの特徴付けには,誰がどのアイテムを評価したかという共起関係用いられる傾向にある.Tumblr のような,記事が人の間を伝播していくネットワークにおいては,共起関係のみを考慮するよりも,記事の伝播経路を用いた記事の特徴付けの方がより有用であると考えられる.
一般的に広く使われているのは、「この商品を買っている人はこんな商品も買っています」という情報を活かした判断です。AとBとCはよく同じ商品を買っている。つまり彼らは好みが似ているということだ。そして彼らの好みにあった商品が二つあるなら、それの二つは似ているということだ。こういう判断が下せれば、二つのうち一方を買った人には、もう一方も勧めると買ってくれそうだ、と考えられることになります。
こうした「誰と誰と誰が」という関係、共起関係で似ている度合いを図ることもできますが、Tumblrではさらに「誰がいつ誰からリブログしたか」という時系列や伝播経路を考えることもできます。則のぞみ氏、山口清弘氏らはこれらを考慮したほうが、より妥当な(精度のよい)にている度合いを測れるだろうという仮設を立て、実際に実験して確かめています。
ここから実験方法と実験結果になると、数式と数値が乱れ飛ぶ、私にはなんとなく程度には分かっても正確なところはギブアップの世界に入るので割愛。いきなり考察のうち、特に面白かった、木構造、順序指標を考慮した結果を。
カット率6割から,順序指標が共起指標に比べて有意に高い再現率となった.これは,共起指標では,カット率の増加に応じて再現率も下がっていくが,順序指標では,カット率6 割から8 割の間で再現率がほぼ変化しないことによる.この理由として,Tumblr においては,ある記事を誰が最初の方でリブログしたのかという,最初の方の順序が,後の伝播を決定付ける重要な要因になっていることが考えられる.Tumblr においては,特に伝播の初期における順序を考慮することが有用であると言える.
言い換えれば、「誰と誰と誰が」という共起関係に基づいたアプローチでは、興味を示す層のうち実際にリーチできた層が減るほど、残りの人たちを推測する精度が悪くなります。ところが「誰と誰と誰がそれぞれいつごろ」という順序を指標に入れると、5割を切ったあたりと2割まで減ったあたりで同等の推測制度が出ています。
もっと言えば、共起関係だけで考えていた頃であれば5割、多分アーリーマジョリティまでを観察してはじめて浮かんできた潜在顧客層が、木構造における順序にも注目することで2割、多分アーリーアダプタぐらいを観察すれば浮かんでくるということです…だと思います。もちろん「マイクロブログの…」もこの論文も、Tumblrのような「リシェアの経路と時刻が可視化された」世界だからこそ役立つ、ある種のニッチな世界向けのアプローチといえるでしょう。でもニッチだったそのリシェア・ワールドが、いまやTwitterやFacebook、そしてGoogle+へと領地を拡大しています。
おそらく「バイラルでは経路が重要」という考え方は新しくないでしょう。ですが購買層という古典的な視点でも、つい先日、4,500台の自販機から集めた2億件のビッグデータをもとにすることで新製品が生まれたことが報じられました。現在(※’12/01/27)165億件強のTumblrの投稿合計数から経路情報を調べ上げると、そこにはまた新しく見えてくるものがありそうです。そしてオンラインコマースにおけるリコメンドを背景に上げたこの論文は、やっぱりそこを睨んでいるんだろうな、と思います。
それが来た時に、その手法に先鞭をつけ、かつデータを総なめするのではなくある程度小規模なサブセットで代替したときの精度に言及したこの論文は、結構面白いポジションにあったりしないかな、と思いました。
Without Free Knowledge
For over a decade, we have spent millions of hours building the largest encyclopedia in human history. Right now, the U.S. Congress is considering legislation that could fatally damage the free and open Internet. For 24 hours, to raise awareness, we are blacking out Wikipedia. Learn more.
さあ新しいゲームの始まりです - 雑種路線でいこう (via jinon)
2007-10-19 (via gkojay) (via mnak) (via ipodstyle) (via makototz) (via ipodstyle) (via yaruo) (via yu5yam) (via fishandmush) (via girio) (via kyohei28) (via rosarosa, milkcocoa) 2010-03-06 (via rosarosa-over100notes) (via mcsgsym) (via highlandvalley) (via okay68) (via fmfy) (via edieelee) (via tra249) (via gakkie) (via ishida) (via nemoi) (via konishiroku) (via n13i) (via netgeek) (via zakurochan) (via jam343) (via twinleaves) (via yaruo) (via tame-o) (via sironekotoro)
こんなことしておきながら「日本にはなぜGoogleやAppleのような企業がうまれないのか」もないもんだよな。 Appleはもともと電話かけ放題器(もちろん違法)のメーカーだし、Googleはデータ泥棒(法的にはかなりグレーゾーン)だし、単純な法律を超越したところにイノベーションは起きるのに。エジソンは電信さぼり機を発明して鉄道会社クビになってるし
(via shi3z)
(via katoyuu) 広告費で稼ぐというモデルの善し悪しはあるにせよ,あれが泥棒かどうかグレーなんて言いだしたら,情報処理なんて何もできない. (via kiyoya)
Ginji (via Fried Toast)
ドヤッ
life:
What’s not to love about this photo? Just strollin’ with some penguins in 1937…
(see more — Penguins Round the World)
(via yuco)
短気な人は、ゆるぎなく明確なポリシーがあって、
理不尽なことには即座にツッコミが出来る、有能な人間になれる。
怠惰な人は、本当にやりたいことだけを貪欲に追求することで他のムダを省き、
効率的で濃密な時間の使い方が出来るようになる。
受け身な人は、適切な取捨選択の判断と相手に合わせた個別対応で信頼感を得て、
受信する情報や依頼される仕事や遊びの誘いを増やすことが出来る。
自分の性格は直せない。
そして、直す必要がない。
2009-12-13 (via gkojay) (via masaka)
(via otsune)
精神的な背骨がある人は、自分が間違えることをだいたい許容できる。自分の判断基準からしてどうでも良いことならば、間違えたって直してより良いものにしていけば良いだけだから。自分の判断基準からして重要な間違いならば凹むかもしれないけどね。でも、一度背骨を作り上げている人ならば、背骨自体を強化したり、変更したりできるので案外タフだ。
(略)
価値の判断基準が自分の外にある人間は表現者になれない。その表現の仕方が研究だろうと、スピーチだろうと、絵画だろうと、価値の判断基準は常に自分の内部にあり、その基準に基づいて自分の考えや思いを外に問うのが表現だ。価値の判断基準が外にある人間は、自分の内部にあるものが外に問うだけのクオリティに達しているかを常に悩んでしまい表現を外に出せない。外に出せない限り、いかなる人間も表現者とはなりえないんだ。
表現者は、外の世界に自分の考えや思いを問うのがその存在意義だ。外に問うということは反論を食らうということなので、皮膚は破れ、肉は断たれる。でも、骨は守る。傷を癒し、身のこなしを鍛え、骨を強化し、場合によっては骨を入れ替え、再び世の中に自分の考えや思いを問う。考えや思いを外に問わなければ何も始まらないから、ただ、そうする。
だから、君がもし表現者になりたいのだとしたら、精神的な背骨を手に入れる必要がある。それはどんなものでも良い。私が君をどう思うかではなく、君が君をどう思うかそれが重要だ。君は私じゃないし、私は君じゃない。究極的には、私が君をどう思おうが君はそれに左右される筋合いはない。
価値の判断基準が自分の外にある人間は表現者になれない - 発声練習 (via yukarins, snowlight) (via raurublock)
