データアナリスト駆け出しの今、レベルを記録しておく。
いよいよ明日(というか今日)が転職後初の勤務日となる。この記事を書いている時点での天気は雨、明日には大雪が予報されているから、まあ幸先の良いスタートとは言い難そうだ。
さて、今回の転職では、全くのデータ分析素人(実務経験なし)の状態ながらデータアナリスト職での採用を認めてもらえた。自分としてもすごく大きな挑戦の機会だし、現在のスタート地点からどのくらいの期間でどこまでいけるのか、ある種の実験として記録を残していきたいと思っている。
今回のエントリは、その第一弾だ。過去に取り組んだデータや課題については語りえないので、ひとまず持っている知識を文献ベースで残しておく。
- 作者: 東京大学教養学部統計学教室
- 出版社/メーカー: 東京大学出版会
- 発売日: 1991/07/09
- メディア: 単行本
- 購入: 158人 クリック: 3,604回
- この商品を含むブログ (82件) を見る
こちらは全部読んだ。手計算で済む演習問題は大体解いたものの、数値的解法が必要なものはノータッチ。基礎的な理論面はおさえていると思っているが、おそらく、実務的には役立たないレベル。データを取得してパッと結果を出せるような気はしない。
こちらも全部読んである。世の中的にはあまり高く評価されていない一冊だと思うのだが、一般化線形モデルや主成分分析、サポートベクトルマシン、クラスタリングなど広い話題についてそこそこきちんと書かれているので、分野を俯瞰的に理解するのには役立った。
第10章までは読んだのだが、第11章(バギング、ブースティングなど)が未読状態。ν-SVMなどはscikit-learnを使って簡単にコードを書いてみた。以前の記事で取り上げたのだが、scikit-learnを使うにあたっては
こちらの本がとにかく役に立つ。
データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC (確率と情報の科学)
- 作者: 久保拓弥
- 出版社/メーカー: 岩波書店
- 発売日: 2012/05/19
- メディア: 単行本
- 購入: 16人 クリック: 163回
- この商品を含むブログ (25件) を見る
「みどりぼん」は今日第10章まで終わった。第10章は「この本のとりあえずのゴール」と著者も書いている通り、確かにここまででモデリングの基礎的な手法は学べた気がする。本書ではMCMCに関してWinBUGSが使われていたが、僕はPyMC3で書いた。結果はだいたい一致するのだが、まだ細かな数字の見方が理解しきれていない。あと、階層ベイズをやろうとするとTheanoがエラーを吐くので、第10章のデータは扱えていない状態だ。PyMC2を試してみたい。
他にもいくつか参考にしたものはあるが、大まかには以上4冊の知識がある程度で、100%血肉になっているわけでもない。これから、実務経験を積む中で徐々に分かることも増えていくのだろうと思う。
期待2割、不安8割。