データサイエンティスト上がりのDX参謀・起業家

データサイエンティスト上がりのDX参謀・起業家のブログ。データ分析や事業について。自身はアーティスト、経営者、事業家。

メモ:大量データをプロットするときの濃淡プロット

データが多くなってくると散布図が真っ黒になってしまうので、濃淡を付けることでどこに集中しているかが分かります。マイクロアレイ系でよく使われる Bioconductorというプロジェクトのパッケージを使うので、通常のパッケージをインストール方法が違います。

  • インストール
source("http://www.bioconductor.org/biocLite.R")
biocLite("prada")
  • プログラム例
library(prada)

n <- 10000
x1  <- matrix(rnorm(n), ncol=2)
x2  <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2)
x   <- rbind(x1,x2)

smoothScatter(x)

pairs(iris, panel = function(...) smoothScatter(..., add=T))


【追記】

@bob3bob3がコメントをして下さったので、そちらも試してみました。

n <- 10000
x1  <- matrix(rnorm(n), ncol=2)
x2  <- matrix(rnorm(n, mean=3, sd=1.5), ncol=2)
x   <- rbind(x1,x2)

plot(x, col="#0000FF22", pch=19)

library(IDPmisc)
iplot(x)

library(hexbin)
plot(hexbin(x))

3つの中ではplot(x, col="#0000FF22", pch=19)が手軽で良い感じ。

こちらのサイトには、Rを使った様々な可視化がまとまっているようです。

http://addictedtor.free.fr/graphiques/