今天本来抱着试一试的心态刷一下面试,莫名其妙被 PASS
面试官:你介绍一下你自己
我:巴拉巴拉
面试官说:你用 python 还是 java 开发爬虫
我说: python
面试官:什么场景或有验证码
我:这个看业务方喜好,他们要喜欢什么时候都可以用
面试官:你识别过验证码吗?
我:我识别过字符和数字不复杂的
面试官:什么原理
我:用取字摸
面试官:实际实现过吗?
我:实现过,用 tesseract-ocr
面试官:你识别过其它的吗
我:我之前识别过 163 的,但是准确率太低
面试官:你认为什么叫高
我: 60%算及格,我只到 30%
面试官:你怎么知道哪里有验证码呢
我:没有特别好的办法,只能在表单附近找有没图片
面试官:你怎么得到验证码,是用浏览器方式吗?(我实在没明白什么是浏览器方式)
我:我直接解析 xpath ,得到路径下载二进制文件下来,然后本地识别就行了
面试官:我知道了(态度特别差)