ddddd0
V2EX  ›  数学

一个有趣的数学题(机器学习 embedding 设计相关)

  •  
  •   ddddd0 · Apr 5, 2024 · 2550 views
    This topic created in 776 days ago, the information mentioned may be changed or developed.
    最近在学习 embedding ,想到了一个问题,如下:

    ---

    有 2 种特征:性别,物种

    性别分为: 男,女
    物种分为: 人,狗

    设计向量表示,要求:
    向量维度尽量小
    向量每个位置是实数

    向量点积结果要在 [0, 1]
    0 代表无关,比如男人*母狗 = 0 ,女人*公狗=0
    1 代表完全一样,比如男人*男人=1
    0-1 之间代表有点相关,比如 女人*母狗=0.5 ,或者,男人*公狗=0.5 ,公狗*母狗=0.5 ,注意这种组合的点积一定要大于 0 小于 1 ,表示有一定相关性,具体的值大小你来定,但不能是 0 或 1

    ---


    想知道满足上述要求的向量表示的最小的维度是多少?以及具体的设计方法
    6 replies    2024-04-05 18:33:35 +08:00
    huangsijun17
        1
    huangsijun17  
       Apr 5, 2024
    哪里来的“公”“母”?
    ddddd0
        2
    ddddd0  
    OP
       Apr 5, 2024
    @huangsijun17 “公”“母”是 [性别特征: 男,女] ,等价的说法
    geelaw
        3
    geelaw  
       Apr 5, 2024 via iPhone   ❤️ 3
    就是要找四个单位向量 abcd ,使 ad 、bc 正交且 ab 、ac 、bd 、cd 都是锐角。

    很明显零维不行:没有单位向量。

    很明显一维不行:两个单位向量从不正交。

    很明显二维不行:令 ad 为 xy 轴,则 bc 必须都和坐标轴不重合,此时 abcd 中存在钝角。

    三维,考虑 a=(1,0,0), d=(0,1,0), b=(1,1,sqrt2)/2, c=(1,1,-sqrt2)/2 ,所以可以。
    chen88ijn
        4
    chen88ijn  
       Apr 5, 2024
    需要 2bit 的信息量,所以二维向量就可以了?
    ddddd0
        5
    ddddd0  
    OP
       Apr 5, 2024
    @geelaw 谢谢,很完美
    ddddd0
        6
    ddddd0  
    OP
       Apr 5, 2024
    @chen88ijn 我试了下,应该不行,总有要求不能满足
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5156 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 106ms · UTC 08:34 · PVG 16:34 · LAX 01:34 · JFK 04:34
    ♥ Do have faith in what you're doing.