Livid
293.75D
546.73D
V2EX  ›  Hadoop

命令行工具用好了,在一定数据量下,不一定比 Hadoop 慢

  •  2
     
  •   Livid ·
    PRO
    · Jan 18, 2015 · 6168 views
    This topic created in 4178 days ago, the information mentioned may be changed or developed.
    21 replies    2015-01-19 15:09:15 +08:00
    bombless
        1
    bombless  
       Jan 18, 2015
    xargs 大法好,退 Java 保平安。
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       Jan 18, 2015
    "Hopefully this has illustrated some points about using and abusing tools like Hadoop for data processing tasks that can better be accomplished on a single machine with simple shell commands and tools. If you have a huge amount of data or really need distributed processing, then tools like Hadoop may be required, but more often than not these days I see Hadoop used where a traditional relational database or other solutions would be far better in terms of performance, cost of implementation, and ongoing maintenance."
    说的太好了....
    damngood
        3
    damngood  
       Jan 18, 2015
    还可以出一个 数据库 版本的
    est
        4
    est  
       Jan 18, 2015
    > Since the data volume was only about 1.75GB containing around 2 million chess games

    数据不比单机内存大就不要上hadoop啥的了。mmap啥的完爆所有工具。
    invite
        5
    invite  
       Jan 18, 2015
    hadoop ? 云计算那个? 这个本来就有它应用的局限性.
    hahastudio
        6
    hahastudio  
       Jan 18, 2015
    本来的,hadoop 启动起来就要花些时间,map 和 combine 也可以看成是“无意义”的时间消耗
    我觉得主要还是在于大数据被炒得很火,不管有没有那么多的数据都想耍一耍,提高逼格
    可你的数据一台机器就能放得下,为什么要用 hadoop 呢= =
    sivacohan
        7
    sivacohan  
    PRO
       Jan 18, 2015 via Android
    任何一本讲并行计算的书都会提到一点。
    开销。
    指因算法并行化而相对串行算法产生的额外时间,空间。
    实际工程很多人都把开销自动忽略了。
    zhicheng
        8
    zhicheng  
       Jan 18, 2015
    可是这样就木有办法装逼了呀。
    glogo
        9
    glogo  
       Jan 18, 2015
    霸气!!!
    ob
        10
    ob  
       Jan 18, 2015
    @bombless
    这回复,让哥有一种深深的罪恶感。。
    nbndco
        11
    nbndco  
       Jan 18, 2015
    醉了,1.75G还要用hadoop……
    s51431980
        12
    s51431980  
       Jan 18, 2015   ❤️ 2
    不要单看数据大小,1G的图关系数据和1G的时间序列处理难度完全不一样,有些人既然不是这个领域就不要暴露自己的无知了
    adjusted
        13
    adjusted  
       Jan 18, 2015
    想起以前看过的“your data is not that big”
    binux
        14
    binux  
       Jan 18, 2015
    1.75G,12秒。。。别闹
    9hills
        15
    9hills  
       Jan 18, 2015 via iPad
    看了下,作者意识到数据是流式的,所以没用Hadoop
    monkeylyf
        16
    monkeylyf  
       Jan 19, 2015
    1.75gb用hadoop确实overkill了 尤其是这种仅仅是最简单的mapreduce
    235xfaster这种数字拿出来不怕被人打脸吗
    yuankui
        17
    yuankui  
       Jan 19, 2015
    当数据量到达 TB,PB级时再说吧。。
    hadoop本来就不是用来处理GB级数据的。。
    F281M6Dh8DXpD1g2
        18
    F281M6Dh8DXpD1g2  
       Jan 19, 2015
    oneoo
        19
    oneoo  
       Jan 19, 2015   ❤️ 1
    抛个题:UPYUN.com 的CDN系统有超过1000+台服务器的访问日志,总量800GB~1TB压缩内容,里面包含有10w个域名的URL,业务需要把这些日志按域名切分好,以提供给客户下载,另外再附加一个统计分析业务,分top1000 URL,top1000 referer, top1000 useragent, top1000 文件大小。

    你觉得:
    这是大数据吗?
    需要Hadoop等分布式处理吗?
    这个处理集群大概要多少台物理机?
    有更好的方式吗?
    zhimingcc
        20
    zhimingcc  
       Jan 19, 2015
    因为问题多样性,技术也应该多样性,不应该只用一种技术解决不同的问题,软件工程师们应该有更灵活的方案,不应该重复用一套轮子。。。。
    问题是,对各种技术理解深刻的软件工程师多么?
    xderam
        21
    xderam  
       Jan 19, 2015
    @oneoo 我感觉用前端机在业务低估(比如晚上),处理这些数据然后汇总比较好一些..
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2913 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 68ms · UTC 03:28 · PVG 11:28 · LAX 20:28 · JFK 23:28
    ♥ Do have faith in what you're doing.