「vaex を Google Colaboratoryで試す」のようにGoogle Colabでvaexを試していたが、同じjupyter notebook を実行しても vaex.open をすると次のようなエラーが出て処理できないようになった。
(直前には、Google Drive上の107GBのyellow_taxi_2009_2015_f32.hdf5をvaex.openで処理することを試していた。)
1 2 3 4 5 6 |
ERROR:MainThread:vaex.file:could not read 4 bytes from '/content/gdrive/My Drive/Colab Notebooks/vaex/taxi/yellow_taxi_2015_f32s.hdf5' Traceback (most recent call last): File "/usr/local/lib/python3.6/dist-packages/vaex/hdf5/dataset.py", line 153, in can_open signature = f.read(4) OSError: [Errno 5] Input/output error ERROR:MainThread:vaex:error opening '/content/gdrive/My Drive/Colab Notebooks/vaex/taxi/yellow_taxi_2015_f32s.hdf5' |
検索して調べてみたが、はっきりした原因はわからない。ただ、次を見たところGoogle DriveのDownload Quota の制限によると思われる。
OSError: [Errno 5] Input/output error #510
Reading file from Drive giving OSError #559
24時間経過すれば制限が外れるようだが、大容量データのアクセスをすると当然同じことが起きることになる。
また、これを試した2020年3月27日に、GCP、Google Driveなどの障害が発生したようなので、その影響があったのかもしれない。2020年3月28日の午後にはエラーなくアクセスできる状態に戻っていた。Download Quotaの制限から外れたのか、障害から回復したのかはっきりしない。
Google Colabの107.8GBくらいのディスク容量では、11.9GBのyellow_taxi_2015_f32s.hdf5でも、工夫をしてディスク使用量を減らすようにしないとdescribe()を実行している途中でディスク不足でクラッシュする。「vaex を Google Colaboratoryで試す」をしたときも実行中に警告が出たので、sampleデータなどを削除してなんとか処理を完了させた。
なんにしてもGoogle Colabではやはり大容量のデータ処理は難しいということだろう。