Rを用いてwikipediaのページへのアクセス数のデータを簡単に取得する方法について説明します。
wikipediatrendというRのライブラリを使います。
現在トレンドの分析をするのであればtwitterを使うイメージが強いのですが、単一ワードならwikipediaへのアクセスも中々悪くない面があると思います。
wikipediaアクセスの方が過去に遡ることができますし、無関係な流行に流されたりせず安定しているように思うからです。
【インストール】
#R > install.packages("wikipediatrend")
すると下記のエラーが出てインストールできませんでした。
------------------------- ANTICONF ERROR --------------------------- Configuration failed because libcurl was not found. Try installing: * deb: libcurl4-openssl-dev (Debian, Ubuntu, etc) * rpm: libcurl-devel (Fedora, CentOS, RHEL) * csw: libcurl_dev (Solaris) If libcurl is already installed, check that 'pkg-config' is in your PATH and PKG_CONFIG_PATH contains a libcurl.pc file. If pkg-config is unavailable you can set INCLUDE_DIR and LIB_DIR manually via: R CMD INSTALL --configure-vars='INCLUDE_DIR=... LIB_DIR=...' --------------------------------------------------------------------
要するにlibcurlがインストールされていないことが問題のようなので、別途ターミナルを開いてインストール
#debian terminal sudo apt-get install libcurl4-openssl-dev
他にもlibsslをインストールするよう要求されたりしましたので、もしインストールが通らなければエラーコードを良く読んで何かソフトウェアが足りていないか確認してみてください。
【データ取得】
wikipediatrendではwp_trend()という関数を使ってアクセス数のデータをdata.frameとして取得することができます。
#R > library(wikipediatrend) > page_views <- wp_trend(page = "イチロー", lang="ja", from="2015-01-01", to="2015-12-31")
これでwikipedia日本語版の『イチロー』のページへの2015年のアクセス数が得られます。
#R > head(page_views) date count lang page rank month title 1 2015-10-01 4075 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー 2 2015-10-02 4323 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー 3 2015-10-03 1445 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー 4 2015-10-04 1953 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー 5 2015-10-05 10437 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー 6 2015-10-06 6636 ja %E3%82%A4%E3%83%81%E3%83%AD%E3%83%BC 493 201510 イチロー > plot(page_views$date, page_views$count)

これでwikipediaの分析ができるようになりました!