機械学習お試し環境(2020初春版)
半年以上前にAzure Notebookについて取り上げたのですが、その後ちゃんと?Google Colaboratoryも試しているよというお話です。
前提として、以前はローカルにJupyter Notebookを入れて試していたものの、複数マシンを使い分けたりするときに面倒だったり、そもそもiPadだと使えなかったりという問題点があったんだけど、Cloud化してくれたおかげで諸々の問題が解決したんだけど、どうやって使い分けるのかという自分なりの回答を考えてみました。なお、自分の場合は、今のところPythonしか使っていないので、Google ColabがPythonだけというのは問題になりません。
Azure Notebook
notebooks.azure.com
Azure Notebookについては、以前の記事でも取り上げているので、ざっくりとした使用感はこちらを。
deutschina.hatenablog.com
UIもこちらの方が洗練されており、Githubのレポジトリをクローンしてくると、レポジトリを1つのプロジェクトとしてフォルダ分けしてくれるので、クローンしてきたものをそのまま試してみるというのであれば、Azure Notebookを使うのがお手軽なのは間違いないと思います。
ただ、扱うファイルサイズやメモリの上限がGoogle Colaboatoryより低めに抑えられているので、少し大きなデータセットを扱おうと思うと、メモリエラーが出たりするのが、少し興ざめするポイントかもしれないです。
Google Colaboratory
colab.research.google.com
容量という意味では、Google Colabratoryに軍配が上がります。ただし、編集したJupyter Notebookは、Google Driveの特定のディレクトリに保存しないといけないこと、Google Drive内のファイルを参照する場合は、ドライブをマウントしないといけないというのが、少々使いづらさを感じる点だと思います。例えば、Githubのレポジトリをクローンしてきて、Jupyter Notebookのファイルの中で別のファイルを参照をしていると、「そんなファイルやディレクトリはありません」と怒られるので、その都度参照する場所を書き換える必要があります。
この「書き換え方」は大きく二通りあって、レポジトリをGoogle Driveにクローンした上で、そのディレクトリをマウントして参照するのと、もう1つはクローン元のレポジトリ上にあるファイルをraw.githubsercont.com/(repo)/master/(file)という感じで直接参照してしまうというのもありかと。
自分の場合は、参照元のレポジトリを自分のGithubレポジトリ上にforkしてきて、それを直接参照するのがお気に入りです。これをすることによって、一通り学んで一部書き換えたものをGithub上にコピーしておけば、将来的に容量を使い切った時にファイルを消してもGithub上には残っているのでいつでも見返せます。
ということで、ガッツリ勉強したいときはGoogle Colabratoryを使って、サクッと中身を見てみたい時はAzure Notebookを使うという棲み分けが自分の中で出来つつあります。
スケーラブルデータサイエンス データエンジニアのための実践Google Cloud Platform
- 作者:Valliappa Lakshmanan
- 出版社/メーカー: 翔泳社
- 発売日: 2019/06/05
- メディア: Kindle版