• 2020-12-17 17:05:15
  • 阅读(662)
  • 评论(12)
  • 译者:AI研习社(季一帆)

    一般,咱们会将数据爱股票集存储为简单读取、读取速度快或存储容量较小的格局。数据集存储有各种不同的格局,但不是每一种都能够被处理,因而接下来,咱们将介绍如何将交易论坛网这些数据集转换为不同的格局。

    数据集的一切格局可从此处获取,不包含比赛组供给的原始csv数据。

    大多数Kaggle数据集都供给了csv格局文件。该格局简直成为数据集的规范格局,并且一切办法都支撑趣交易从csv读取数据。

    以feature(二进制)格局存储数据关于pandas极端友爱,该格局供给了更快的读取速度。

    HDF5是用于存储、办理和处理大规模数据和杂乱数据的高性能数据办理组件学习社区

    Datatable支撑.jay(二进制)格局,其在读取jay格局数据时速度快得超乎幻想。从下面的示例能够看到交易边缘,该办法读取整个riiid数据集用时乃至不到1秒!

    在Hadoop生态系统中,parquet是tabular的首要文件格局,一起还支撑Spark。通过近年的开展,该数据格局愈加老练,高效易用,pandas现在也支撑了该数据格局。

    来源:版权归属原作者,部分文章推送时未能及时与原作者取得联系,若来源标注错误或侵犯到您的权益烦请告知,我们会及时删除。

    19  收藏