1000 万行文本数据如何做筛选？

This topic created in 2957 days ago, the information mentioned may be changed or developed.

txt 数据，只做最简单的筛选，之前只有几十万行，一直在用 excel 虽然卡一点也处理的过来。这次突增到 1000 万行了，数据 900MB 左右，excel 肯定不行了，导入到 access2016 里，虽然导入很快，但是一点筛选就卡住，cpu 占用倒是只有 50%，像这种情况还有其他更简便的筛选方法吗？谢谢

筛选

EXCEL

导入

万行

12 replies • 2018-04-16 00:48:55 +08:00

linap

Apr 15, 2018 via Android

mysql

msg7086

Apr 15, 2018

难道不是 grep ？ 900M 简单过滤，10 秒钟足够了吧。

dobelee

Apr 15, 2018 via Android

文本最简单最快的 grep 了。结构化的另说。excel 就不好了。

kiwi95

Apr 15, 2018 via iPhone

行数据，grep, awk, sed 一套下来基本能搞定

liucudliucud

Apr 15, 2018 via Android

传到集群上用任务搞，9 亿行都没问题

ynyounuo

Apr 15, 2018

用 ripgrep 4.4 亿行用简单正则筛选只用 21 秒

wc -l < OpenSubtitles2018.raw.en
441450449

rg -n -i '.*way.*to.*explore.*' OpenSubtitles2018.raw.en 12.95s user 7.14s system 97% cpu 21.308 total