文章詳情頁(yè)

python - 通過(guò)正則提取出來(lái)的ip，怎么命名

瀏覽：201日期：2022-07-02 11:07:53

問(wèn)題描述

source_ip = line.split(’- -’)[0].strip() if re.match(’[0-9]{1,3}.[0-9]{1,3}.[0-9]{1,3}’,source_ip):if source_ip_dict.get(source_ip,’-’)==’-’: source_ip_dict[source_ip]=1else: source_ip_dict[source_ip]=source_ip_dict[source_ip]+1

通過(guò)以上的代碼把a(bǔ)pache的日志ip提取出來(lái)，并且進(jìn)行統(tǒng)計(jì)去重了，提取的ip數(shù)據(jù)如下： python - 通過(guò)正則提取出來(lái)的ip，怎么命名

那么要怎么將這些ip地址進(jìn)行命名分類(lèi)，如202.108.11.103跟220.181.32.137為百度蜘蛛ip想要實(shí)現(xiàn)的效果如下這兩個(gè)ip命名為百度蜘蛛，然后把他們的統(tǒng)計(jì)數(shù)據(jù)相加即4336+3411百度蜘蛛 7747

這個(gè)要怎么操作

問(wèn)題解答

回答1：

from itertools import groupbyNAME_IP_MAPPING = { ’202.108.11.103’:’百度蜘蛛’, ’220.181.32.137’: ’百度蜘蛛’,}spiders = [ {’ip’:’202.108.11.103’,’count’:123}, {’ip’:’220.181.32.137’,’count’:345}]# 先用ip通過(guò)映射得到名字，再根據(jù)名字將spiders里的item分組，之后各自求和存入新的dict中。{k: sum(s[’count’] for s in g) for k, g in groupby(spiders, lambda s:NAME_IP_MAPPING.get(s[’ip’]))}# output: {’百度蜘蛛’: 468}回答2：

可以嘗試構(gòu)建一個(gè)大型的以字典為鍵, 爬蟲(chóng)名字為值的字典;

ip_map = { ’202.108.11.103’: ’baidu-spider’, ’220’.181.32.137: ’baidu-spider’, ’192.168.1.1’: ’other’ ....}sum = {}for ip in source_ip: print ip sum[ip_mapping.get(ip, ’other’)] = sum.get(ip, 0) + source_ip[ip]print sum回答3：

使用pandas的數(shù)據(jù)透視表

python - 通過(guò)正則提取出來(lái)的ip，怎么命名

回答4：

這樣多累啊！為什么不給這個(gè)ip分組單獨(dú)建立一張表，名為IPGroup （id, ip, groupname)

idipgroupName1202.108.11.103百度蜘蛛2220.181.32.137百度蜘蛛

之后一個(gè)SQL就搞定了，多么輕松（設(shè)樓主用的表明為IPStastics）

SELECT b.groupName, SUM(a.count)FROM IPStastics a INNER JOIN IPGroup b ON a.ip = b.ipGROUP BY b.groupName

Python 編程

上一條：python 讀取csv文件可以讀取但內(nèi)容錯(cuò)誤，但單獨(dú)用excel打開(kāi)正常，如何解決？下一條：兩個(gè)思路：python模擬登陸頁(yè)面和模擬操作windows程序窗口提交請(qǐng)求

相關(guān)文章：

1. html - css中怎么命名顏色比較好？

排行榜

					
					angular.js - 各位大神們，你們混合開(kāi)發(fā)，web方式中更推薦用什么框架呀？ react？vue？angular？謝謝～
angular.js - angularjs的自定義過(guò)濾器如何給文字加顏色？
angular.js使用$resource服務(wù)把數(shù)據(jù)存入mongodb的問(wèn)題。
docker-machine添加一個(gè)已有的docker主機(jī)問(wèn)題
javascript - htaccess rewrite 的問(wèn)題
PHP類(lèi)中的$this
前端 - 集思廣益，如何用CSS實(shí)現(xiàn)數(shù)字上面有一個(gè)點(diǎn)
html5 - vuex 為什么需要action,我發(fā)現(xiàn)進(jìn)行異步操作回調(diào)中直接操作mutation也沒(méi)有報(bào)錯(cuò)
javascript - IOS微信audio標(biāo)簽不能通過(guò)touchend播放
老師百度網(wǎng)盤(pán)分享一下WampServer的包啊,我們下載幾kb要下載一天的.
html - 如何用css令背景圖能夠撐滿本身會(huì)滾動(dòng)的頁(yè)面？
				

久久福利_99r_国产日韩在线视频_直接看av的网站_中文欧美日韩_久久一

python - 通過(guò)正則提取出來(lái)的ip，怎么命名