python - 正則表達(dá)式匹配html的問題。
問題描述
<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內(nèi)容 #需要抓取的內(nèi)容</dd>用BeautifulSoup html.parser解析的網(wǎng)頁(yè),現(xiàn)在用re模塊想抓取**第7行**的中文內(nèi)容,放在一個(gè)組里面(.*?)。正則老是匹配不上,用換行符也匹配不上,不知道怎么寫了。。。
問題解答
回答1:既然你都用bs4解析了,為什么不用它提取哪?bs4內(nèi)有一個(gè)stripped_string的函數(shù)正好滿足你的需要。
回答2:import repattern = re.compile(r’</span>.*?</span>(.*?)</dd>’, re.S)str = ’’’<dd class='gray6'> <span class='gray6'> 中文 <span class='padl27'></span> 中文 </span> 中文內(nèi)容 #需要抓取的內(nèi)容</dd>’’’print(pattern.search(str).group(1))===> 中文內(nèi)容 #需要抓取的內(nèi)容回答3:
const re = /^</span>(.*)</dd>$/
這樣可以不?
相關(guān)文章:
1. 如何解決Centos下Docker服務(wù)啟動(dòng)無響應(yīng),且輸入docker命令無響應(yīng)?2. 我在centos容器里安裝docker,也就是在容器里安裝容器,報(bào)錯(cuò)了?3. javascript - js中遞歸與for循環(huán)同時(shí)發(fā)生的時(shí)候,代碼的執(zhí)行順序是怎樣的?4. objective-c - IOS 分享到微信 提示 應(yīng)用消息數(shù)據(jù)錯(cuò)誤5. android - 使用百度sdk調(diào)用SDKInitializer.initialize(this)時(shí)報(bào)錯(cuò)?6. MySQL timestamp的默認(rèn)值怎么設(shè)置?7. javascript - 微信開發(fā)遇到的問題8. docker 17.03 怎么配置 registry mirror ?9. javascript - ui-router可否控制歷史記錄10. 如何編寫可以用Java計(jì)算能力的函數(shù)。無循環(huán)
