luchenwei9266
V2EX  ›  OpenAI

C-Eval, GPT4 节节败退,跌出前十。。。。

  •  
  •   luchenwei9266 ·
    luchenwei9266 · Sep 6, 2023 · 6843 views
    This topic created in 1018 days ago, the information mentioned may be changed or developed.

    讲道理,虽然 C-Eval 是中文的评估套件,GPT4 跌出前十,前面的都是国产大模型,这些勉强都能理解接受。

    可是排名这一块,居然还有排名第 0 位的,这是几个意思。。。

    附个网页链接: https://cevalbenchmark.com/static/leaderboard_zh.html

    34 replies    2023-09-07 17:09:08 +08:00
    x86
        1
    x86  
       Sep 6, 2023
    0 是 foreach 循环的时候从 0 开始了填的呗
    luchenwei9266
        2
    luchenwei9266  
    OP
       Sep 6, 2023
    @x86 那大概率又是招的临时工没经验,前端显示排名的时候忘了+1
    ktqFDx9m2Bvfq3y4
        3
    ktqFDx9m2Bvfq3y4  
       Sep 6, 2023 via iPhone   ❤️ 13
    甭管他们怎么评,目前我只为 ChatGPT 付费。
    leonhao
        4
    leonhao  
       Sep 6, 2023   ❤️ 1
    赢麻了
    BingoXuan
        5
    BingoXuan  
       Sep 6, 2023
    看了一下测试内容,唯一想法是为何让大模型成为做题家呢?
    jolanyu
        6
    jolanyu  
       Sep 6, 2023   ❤️ 8
    (注:* 表示该模型结果由 C-Eval 团队测试得到,而其他结果是通过用户提交获得。)
    zapper
        7
    zapper  
       Sep 6, 2023
    考霸?要来干嘛
    TimePPT
        8
    TimePPT  
    PRO
       Sep 6, 2023
    @jolanyu 哈哈哈正想吐槽来着
    xlsepiphone
        9
    xlsepiphone  
       Sep 6, 2023
    榜单里面的,我只可能为 ChatGPT 付费。
    SomeBodsy
        10
    SomeBodsy  
       Sep 6, 2023   ❤️ 1
    文心一言就是个人工智障,问啥都不知道,跟 chatGPT 最起码差 20 代
    yigecaiji
        11
    yigecaiji  
       Sep 6, 2023 via Android
    idealhs
        12
    idealhs  
       Sep 6, 2023
    我们中国真是太厉害辣
    Eissen
        13
    Eissen  
       Sep 6, 2023   ❤️ 4
    遥遥领先
    BwNVlwSq
        14
    BwNVlwSq  
       Sep 6, 2023 via iPhone   ❤️ 1
    太酷辣
    bt7vip
        15
    bt7vip  
       Sep 6, 2023 via Android
    我也好奇,GPT4 的模型放出来了??他们可以调试??
    excitedXXX
        16
    excitedXXX  
       Sep 6, 2023
    遥遥领先!!!
    Navee
        17
    Navee  
       Sep 6, 2023
    单走一个 6
    momo31
        18
    momo31  
       Sep 6, 2023
    遥遥领先
    chendl111
        19
    chendl111  
       Sep 6, 2023   ❤️ 1
    前面都是国内的,我严重怀疑测试的可靠性
    yvescheung
        20
    yvescheung  
       Sep 6, 2023   ❤️ 14
    在朝鲜最幸福国家的排名中,前五分别是中国,朝鲜,古巴,伊朗和委内瑞拉,邪恶的美帝国主义排 200 多
    0m9ionbP8wuvs8S3
        21
    0m9ionbP8wuvs8S3  
       Sep 6, 2023
    国产,自研,弯道超车,遥遥领先
    🤣
    akira
        22
    akira  
       Sep 6, 2023   ❤️ 2
    想吐槽点啥,但是槽点太多了,以至于不知道怎么说好
    yiencho
        23
    yiencho  
       Sep 6, 2023
    遥遥领先,遥遥领先!~~~
    234ygg
        24
    234ygg  
       Sep 6, 2023   ❤️ 1
    小镇做题家从人变模型了是吧😅
    gpt4 是在规模部署的前提下实现当前性能的,不能以低于 20 刀/月的价格规模推广的就别来比了,田忌赛马也要让人见到马吧。
    而且,最少也请做个网页版,并提供 API 。
    weilongs
        25
    weilongs  
       Sep 6, 2023
    这有点 不厚道吧?
    casatAway
        26
    casatAway  
       Sep 6, 2023
    @bt7vip 不是有 api 吗。。。
    cherryas
        27
    cherryas  
       Sep 6, 2023
    chatgpt 本来就对中国的人文历史社科胡编乱造,中国的测试打不过其他新模型很正常。
    george2077
        28
    george2077  
       Sep 6, 2023
    野榜不看也罢
    geomancy
        29
    geomancy  
       Sep 6, 2023
    我自己训练的模型最牛 x ,它居然知道我的生活习惯,和别人的聊天记录什么的,其他商业大模型则不可以,甚至不知道我叫什么,我觉得我自己的模型理所当然的排名最前。
    windyboy
        30
    windyboy  
       Sep 6, 2023
    又一个安兔兔吗?
    cheese
        31
    cheese  
       Sep 6, 2023
    这测试都是中文考证做题的,gpt4 玩不过很正常吧,gpt 的中文训练集相对英文本来就少,更别提这种专用形式的考试内容
    XnEnokq9vkvVq4
        32
    XnEnokq9vkvVq4  
       Sep 6, 2023
    要不是我真用过好多开源模型我就真信了,完全无视这些所谓 benchmark
    timestamp24
        33
    timestamp24  
       Sep 7, 2023
    姑且相信这个评分(上传成绩的人都很诚实&测试结果可靠),这是在挑选中文做题家/背题家吗?全是选择题考察有一定的局限性。其实开放公测大家一用就知道各种模型几斤几两了。
    chancat
        34
    chancat  
       Sep 7, 2023 via Android
    一方面判定别人家的东西违法,有害。自己又干不出来不是抄袭套皮就是自封第一,真的。很难进步。
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   2365 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 98ms · UTC 01:28 · PVG 09:28 · LAX 18:28 · JFK 21:28
    ♥ Do have faith in what you're doing.