久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

您的位置:首頁(yè)技術(shù)文章
文章詳情頁(yè)

Python爬蟲(chóng)如何爬取span和span中間的內(nèi)容并分別存入字典里?

瀏覽:93日期:2022-07-15 16:32:54

問(wèn)題描述

我想把房屋概況分別抓出來(lái)并分別作為獨(dú)立的列存儲(chǔ)進(jìn)字典里,但是行內(nèi)元素沒(méi)有辦法直接用for循環(huán)摳出來(lái)。這是我的代碼:

soup.select(’.house-info li’)[1].text.strip()

這是網(wǎng)頁(yè)html代碼:

<li><span class='info-tit'>房屋概況:</span>住宅<span class='splitline'>|</span>1室1廳1衛(wèi)<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>

問(wèn)題解答

回答1:

其實(shí)還是很有簡(jiǎn)單的,你看這個(gè)還是有規(guī)律的,規(guī)律在于有分隔符|,我寫(xiě)了個(gè)DEMO

something = ’’’<li><span class='info-tit'>房屋概況:</span>住宅 <span class='splitline'>|</span>1室1廳1衛(wèi)<span class='splitline'>|</span><span>46m2</span><span class='splitline'>|</span> (高層)/共18層<span class='splitline'>|</span>南北<span class='splitline'>|</span> 豪華裝修 </li>’’’;soup = BeautifulSoup(something, ’lxml’)plaintext = soup.select(’li’)[0].get_text().strip()

通過(guò)get_text()得到內(nèi)在所有內(nèi)容,然后去除空格。后面你就用split進(jìn)行分割吧,后面的不寫(xiě)了。如果有問(wèn)題再交流。

回答2:我感覺(jué)這個(gè)html代碼寫(xiě)錯(cuò)了呢,標(biāo)簽的內(nèi)容文本在標(biāo)簽外面

Python爬蟲(chóng)如何爬取span和span中間的內(nèi)容并分別存入字典里?

正確的標(biāo)簽內(nèi)容就兩個(gè):

房屋概況:

46m2

回答3:

innerText

回答4:

你這種情況,我覺(jué)得用 for 循環(huán)加上正則表達(dá)式是最方便的,如果所有模版都是這樣固定的話

回答5:

用pyquery吧

from pyquery import PyQuery as Q

Q(text).find(’.house-info li’).text()

標(biāo)簽: Python 編程
相關(guān)文章:
主站蜘蛛池模板: 在线观看免费黄色片 | 91精品久久久久久久久久 | 亚洲成人中文字幕 | 日本亚洲国产一区二区三区 | 国产一区二区在线免费观看 | 日韩字幕一区 | 一区二区三区高清 | 国产美女高潮一区二区三区 | 超碰美女 | 日韩一区二区福利视频 | 欧美日韩国产精品 | 日韩高清在线一区 | 精品国产乱码久久久久久1区2区 | 影音先锋中文字幕在线 | 视频在线亚洲 | 91在线成人 | 国产精品久久精品 | 国产欧美精品一区二区三区四区 | 超碰在线9| 亚洲精品一区二区三区蜜桃久 | 成人毛片视频免费 | 第一色综合 | 精品久久中文字幕 | 午夜激情在线免费观看 | 国产最新视频 | 婷婷色国产偷v国产偷v小说 | 久久成人国产精品 | 国产最新视频在线 | 午夜私人影院 | 欧美精品一区二区三区在线 | 亚洲三级在线看 | 久久精品影视 | 久久久国产精品 | 国产精品视频久久 | 亚洲视频观看 | 色官网| 天天干天天谢 | 国产精品精品 | 亚洲精品v | 国产精选一区二区三区 | 亚洲免费视频网站 |