有一个文件,虽然每行一条记录,但是上下几行之间都是有相关关系的,相当于一个Session。session之间通过空行分隔。
刚用上Hadoop,不太了解内部机制。看书说大文件会被切分成64MB一个block。我想会不会一个session被分到不同的block? 如果希望按照空行进行切分,当然block的size还是尽量大,有什么参考资料吗?
多谢啦!
刚用上Hadoop,不太了解内部机制。看书说大文件会被切分成64MB一个block。我想会不会一个session被分到不同的block? 如果希望按照空行进行切分,当然block的size还是尽量大,有什么参考资料吗?
多谢啦!