1

ネット通販のAmazonでは「カスタマーレビュー」と呼ばれる製品に対するユーザーの評価・感想が各製品ページに表示されており、その商品の売れ行きを左右するほど購買行動に大きな影響を与えることが知られています。そのAmazon.comのカスタマーレビューをなんと8000万件以上も解析したデータが公開され、ユーザーがどのように星をつけているのか、その傾向が明らかになっています。

Playing with 80 Million Amazon Product Review Ratings Using Apache Spark

http://minimaxir.com/2017/01/amazon-spark/

Amazon.comのカスタマーレビューを解析したのはソフトウェア・エンジニアのMax Woolf氏。以前、120万件のAmazonカスタマーレビューを解析したことが非常に好評だったため、それならばと改めて8000万件以上も解析しています。なお、大量のデータを解析するためにApache Sparkを用いたそうで、なんと2016年モデルのMacBook Proの16GBのメモリのうち、8GB分をSparkに割り当てたとのこと。Woolf氏によるとメモリを十分確保すれば、一般的なPCでも解析は十分可能だそうです。ちなみに「(PDFファイル)Inferring Networks of Substitutable and Complementary Products」という論文を参考に、Pythonで簡単なスクリプトを書いてデータは収集したとのこと。



分析した2036万人のユニークユーザーについてレビューした数をグラフ化すると以下の通り。全体の半分を上回る51.9%がレビュー数「1」のユーザーで、レビュー数「50」以下の中にほぼすべてのユーザーが収まります。



また821万個の製品についてレビューの数を調べると、なんと全体の43.3%がレビュー1つとのこと。



ジャンル別の星の数の平均値は以下の通り。最も高いスコアなのが「Digital Music(デジタルミュージック)」で、最低なのは「Cell Phone and Accessories(携帯電話とアクセサリー)」。この結果について、「デジタルミュージックでは商品の品質にバラツキがなく好きな音楽に対して高い評価が付きやすいのは当然なのに対して、携帯電話のアクセサリーは製造メーカーによって品質に大きな差があるからだろう」と指摘しています。



ジャンル別の星の内訳はこんな感じ。濃い緑が星5つ、赤色が星1つを表しています。



時間とともに星の評価の割合をしめした図。星5つから星1つまでの割合は、時間を経てもそれほど大きくは変化していません。



最低5個以上の星評価がされている製品に限って、商品ごとの平均スコアの分布をグラフ化するとこんな感じ。製品全体の星のスコアは平均「4.16」になりました。



一方で、ユーザーごとの星評価の分布を調べると以下の通り。星5つしかつけない人がかなりの割合でいることがわかります。



カスタマーレビューは、過去の評価に影響を受けることが考えられます。そこで、カスタマーレビューの累積数ごとに評価の割合を調べるべく横軸にレビュー数、縦軸にレビュー評価のスコア別の割合をとってグラフ化すると、レビュー数が少ないうちは星1つの評価の割合が高いことや、評価数が増えるに従って星4つの割合が増えるという傾向がわかります。



他方で、レビューの順番ごとの評価の割合を調べるために横軸をレビューの順番にしてスコアの割合をグラフ化するとこんな感じ。1番最初のユーザーは、星5つをつけやすいことがわかります。