V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
jwu
V2EX  ›  问与答

(python)正则匹配多个\n的方法

  •  
  •   jwu · Aug 5, 2013 · 6333 views
    This topic created in 4659 days ago, the information mentioned may be changed or developed.
    html:

    <td bgcolor="#e9f2e9" valign="top">Teacher Name:
    </td>
    <td>
    <a href="TeacherInfo.asp?uid=2050"><b>Elodie Préaud</b></a><br>


    为了定位到Elodie Préaud,我用的办法是
    Teacher Name:\n.*\n.*\n.*<b>(.*)<\/b><\/a><br>

    虽然成功了,但\n.*匹配换行及还行后的全部内容太笨了,请问有其他办法吗?
    8 replies    1970-01-01 08:00:00 +08:00
    xunyu
        1
    xunyu  
       Aug 5, 2013
    一行一行的读了匹配行不?
    yangg
        2
    yangg  
       Aug 5, 2013
    (?s)Teacher Name:.*?<b>(.*?)</a><br/>

    (?s) 开启单行匹配模式,.匹配所有的字符
    jwu
        3
    jwu  
    OP
       Aug 5, 2013
    @yangg 在范例中的确可以了,但如果放到html全文(多个类似的段落)去好像就不行了,匹配结果的List为空
    hhrmatata
        4
    hhrmatata  
       Aug 5, 2013   ❤️ 1
    # encoding: utf-8

    import re

    html = """
    <td bgcolor="#e9f2e9" valign="top">Teacher Name:
    </td>
    <td>
    <a href="TeacherInfo.asp?uid=2050"><b>Elodie Préaud</b></a><br>
    """


    pattern = re.compile('Teacher Name.*?<b>(.*?)</b>', re.DOTALL)

    result = pattern.search(html).group(1)

    print result
    jwu
        5
    jwu  
    OP
       Aug 5, 2013
    @hhrmatata 今天困扰了一天的问题被您解决了!感谢!我来分析下关键的.*?这三个字麻烦看我是否理解正确了,由于开启了re.DOTALL,因此.匹配任何包括换行内容;*匹配0或多个,而加上?代表非贪婪,即匹配文档中第一次出现即匹配
    vmebeh
        6
    vmebeh  
       Aug 5, 2013
    ur'<a\shref="TeacherInfo\.asp\?uid=\d+"><b>(.*)</b></a>'
    hhrmatata
        7
    hhrmatata  
       Aug 5, 2013
    @jwu 恩,是这样的
    msg7086
        8
    msg7086  
       Aug 5, 2013
    这种匹配我宁愿先用split('Teacher Name')
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5835 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 60ms · UTC 06:25 · PVG 14:25 · LAX 23:25 · JFK 02:25
    ♥ Do have faith in what you're doing.