mzumi's blog

データサイエンス再入門

March 27, 2017

最近、こちらの続きをぼちぼち続けている。(2年前かぁ。。)
今回は特にブログにしないで、Jupyter Notebook 形式でそのままリポジトリにコミットするようにした。

再開しようと思ったのは、github で ipynb ファイルがブレビューとして表示されるのを知って面白そうだと思ったのと、最近、pandas を業務で使う頻度が増えてきたから。
まあ、pandas はデータ分析のために使用しているわけではなく、CSV ファイルとその CSV の内容がデータベースに登録されているかどうかのチェックに使うためなので、全然サイエンスではないんだけど。。

まあ、こういった用途で一番便利だと感じているのが、データベースのレコードと、CSV のレコードを join できるという点。これを使うと、どの CSV のデータが登録できていないか特定するのがものすごく楽。
まあ、本当はデータ分析で使っていきたいんだけど。。。