工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
Morrowless

[求助] 同一个文件夹下几百万张图片的分类及后续查询

  •  
  •   Morrowless · Nov 10, 2023 · 1418 views
    This topic created in 924 days ago, the information mentioned may be changed or developed.

    事情是这样的

    一台图片服务器硬盘崩了,通过数据恢复把图片恢复了出来。

    然而,目录结构以及文件名丢失。

    现在恢复出来的情况是同一个文件夹下有九百多万张图片。

    需求

    这些图片可以通过分辨率先进行初筛,只需要其中大概 2/3 的特定分辨率的图片。

    筛出来的图片在固定位置有固定格式的附加文字,需要通过 OCR 批量去识别出来并进行分类。

    由于图片数量实在太多,最好能有一个方便的界面来通过关键字进行查询。

    如果有大佬做过类似的项目可以详谈

    Telegram

    2 replies    2023-11-10 23:13:16 +08:00
    Qetesh
        1
    Qetesh  
       Nov 10, 2023
    Umi-OCR
    NoOneNoBody
        2
    NoOneNoBody  
       Nov 10, 2023
    ocr = PaddleOCR(use_angle_cls=True, lang='ch')
    result = ocr.ocr(cvim, det=True, cls=False)
    if withpos: return result
    return [x[-1][0] for y in result for x in y]

    python 就四行,没了,英语就将 ch 改成 en
    withpos==True 是文字并带上位置信息,False 是只输出文字
    cvim 是 opencv 读取图片后的格式,numpy.ndarray
    可以多进程并发
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   1132 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 18:16 · PVG 02:16 · LAX 11:16 · JFK 14:16
    ♥ Do have faith in what you're doing.