dapengzhao
V2EX  ›  问与答

一个统计学问题

  •  1
     
  •   dapengzhao · May 26, 2020 · 2004 views
    This topic created in 2186 days ago, the information mentioned may be changed or developed.

    经过采样得到这样一组数据[1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2,2,3,5,6,14,45,67,88,99,123,1111,2343]

    这些数表示某件事情发生的次数,实际上这个数组长度是百万级别的。由于像 1,2,3 这种出现次数少的没有意义。所以要删除。现在问题是应该怎么样去找临界值。比如是应该把 10 以下的数不要了,还是把 100 以下的数不要。

    Supplement 1  ·  May 26, 2020
    业务场景:寻找 ddos 攻击源。
    那些数字可以看成某一个 ip 发送的 syn 包的数量。
    真实数组中最小的只有 1,最大的 2400000 。
    其中小于 10 的占比超过 2/3 。

    所以问题就是找一个临界值,把多少一下的可以忽略。
    9 replies    2020-05-27 10:32:47 +08:00
    wysnylc
        1
    wysnylc  
       May 26, 2020
    你的业务我们怎么知道?
    dolphintwo
        2
    dolphintwo  
       May 26, 2020
    我帮你决定吧,把一万一下的不要了,比较清爽
    andy12530
        3
    andy12530  
       May 26, 2020
    25 分位数,75 分位
    across
        4
    across  
       May 26, 2020
    条件是不是少了···
    比如你数字都在 10000 以内,直接建个数组统计一遍就得了
    black11black
        5
    black11black  
       May 26, 2020
    百万级远没到计算机性能瓶颈,问了白问,我感觉你这个问题改成百亿级还有点讨论的价值。。
    JackieMe
        6
    JackieMe  
       May 26, 2020 via Android
    找个分布拟合一下,泊松分布二项分布什么的,然后切掉最小的 5%?
    dbw9580
        7
    dbw9580  
       May 26, 2020 via Android
    时间序列?和滑动平均数比较
    Jooooooooo
        8
    Jooooooooo  
       May 26, 2020
    其实是找异常点, 建议你用四分法和 LOF 一起搞一下, 基本上就差不多了
    CopenhagenCat
        9
    CopenhagenCat  
       May 27, 2020
    四分位距 IQR,可以尝试一下
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3764 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 77ms · UTC 05:04 · PVG 13:04 · LAX 22:04 · JFK 01:04
    ♥ Do have faith in what you're doing.