Google ColaboratoryからGoogle Driveの大容量データアクセス

vaex を Google Colaboratoryで試す」のようにGoogle Colabでvaexを試していたが、同じjupyter notebook を実行しても vaex.open をすると次のようなエラーが出て処理できないようになった。

(直前には、Google Drive上の107GBのyellow_taxi_2009_2015_f32.hdf5をvaex.openで処理することを試していた。)

検索して調べてみたが、はっきりした原因はわからない。ただ、次を見たところGoogle DriveのDownload Quota の制限によると思われる。

OSError: [Errno 5] Input/output error #510

Reading file from Drive giving OSError #559

download quota exceeded

24時間経過すれば制限が外れるようだが、大容量データのアクセスをすると当然同じことが起きることになる。

また、これを試した2020年3月27日に、GCP、Google Driveなどの障害が発生したようなので、その影響があったのかもしれない。2020年3月28日の午後にはエラーなくアクセスできる状態に戻っていた。Download Quotaの制限から外れたのか、障害から回復したのかはっきりしない。

Google Colabの107.8GBくらいのディスク容量では、11.9GBのyellow_taxi_2015_f32s.hdf5でも、工夫をしてディスク使用量を減らすようにしないとdescribe()を実行している途中でディスク不足でクラッシュする。「vaex を Google Colaboratoryで試す」をしたときも実行中に警告が出たので、sampleデータなどを削除してなんとか処理を完了させた。

なんにしてもGoogle Colabではやはり大容量のデータ処理は難しいということだろう。