文章詳情頁

如何提高python 中for循環的效率

瀏覽：3日期：2022-07-30 09:04:14

對于某個城市的出租車數據，一天就有33210000條記錄，如何將每輛車的數據單獨拎出來放到一個專屬的文件中呢？

思路很簡單：

就是循環33210000條記錄，將每輛車的數據搬運到它該去的文件中。

但是對于3000多萬條數據，一個一個循環太消耗時間，我花了2個小時才搬運了60萬數據，算算3000萬我需要花費100個小時，也就需要4-5天。并且還需要保證這五天全天開機，不能出現卡機的事故。

因此，需要使用并行進行for循環的技巧：

由于3000萬數據放到csv中導致csv打不開，因此我就把一個csv通過split軟件將其切分成每份60萬，共53個csv。

我原來的思路是讀取文件夾，獲取由每一個60萬的csv文件組成的列表，再分別對每一個60萬的csv進行處理。實質上還是循環33210000次，并行for循環就是同時處理幾個60萬的csv文件，就能成倍的減少時間消耗。

并行進行for循環是受下面的方法啟發：

我之前的做法類似這樣：

words = [’apple’, ’bananan’, ’cake’, ’dumpling’] for word in words: print word

并行for循環類似這樣：

from multiprocessing.dummy import Pool as ThreadPoolitems = list()pool = ThreadPool()pool.map(process, items)pool.close()pool.join()

其中,process是進行處理的函數

實例代碼如下：

# -*- coding: utf-8 -*-import timefrom multiprocessing.dummy import Pool as ThreadPooldef process(item): print(’正在并行for循環’) print(item) time.sleep(5)items = [’apple’, ’bananan’, ’cake’, ’dumpling’]pool = ThreadPool()pool.map(process, items)pool.close()pool.join()

補充知識：Python3用多線程替代for循環提升程序運行速度

優化前后新老代碼如下：

from git_tools.git_tool import get_collect_projects, QQNews_Gitfrom threading import Thread, Lockimport datetimebase_url = 'http://git.xx.com'project_members_commits_lang_info = {}lock = Lock()threads = []’’’Author:zenkilan’’’def count_time(func): def took_up_time(*args, **kwargs): start_time = datetime.datetime.now() ret = func(*args, **kwargs) end_time = datetime.datetime.now() took_up_time = (end_time - start_time).total_seconds() print(f'{func.__name__} execution took up time:{took_up_time}') return ret return took_up_timedef get_project_member_lang_code_lines(git, member, begin_date, end_date): global project_members_commits_lang_info global lock member_name = member['username'] r = git.get_user_info(member_name) if not r['id']: return user_commits_lang_info = git.get_commits_user_lang_diff_between(r['id'], begin_date, end_date) if len(user_commits_lang_info) == 0: return lock.acquire() project_members_commits_lang_info.setdefault(git.project, dict()) project_members_commits_lang_info[git.project][member_name] = user_commits_lang_info lock.release()def get_project_lang_code_lines(project, begin_date, end_date): global threads git = QQNews_Git(project[1], base_url, project[0]) project_members = git.get_project_members() if len(project_members) == 0: return for member in project_members: thread = Thread(target=get_project_member_lang_code_lines, args=(git, member, begin_date, end_date)) threads.append(thread) thread.start()@count_timedef get_projects_lang_code_lines(begin_date, end_date): ''' 獲取項目代碼行語言相關統計——新方法（提升效率）應用多線程替代for循環并發訪問共享外部資源 :return: ''' global project_members_commits_lang_info global threads for project in get_collect_projects(): thread = Thread(target=get_project_lang_code_lines, args=(project, begin_date, end_date)) threads.append(thread) thread.start()@count_timedef get_projects_lang_code_lines_old(begin_date, end_date): ''' 獲取項目代碼行語言相關統計——老方法（耗時嚴重）使用最基本的思路進行編程雙層for循環嵌套并且每層都包含耗時操作 :return: ''' project_members_commits_lang_info = {} for project in get_collect_projects(): git = QQNews_Git(project[1], base_url, project[0]) project_members = git.get_project_members() user_commits_lang_info_dict = {} if len(project_members) == 0: continue for member in project_members: member_name = member['username'] r = git.get_user_info(member_name, debug=False) if not r['id']:continue try:user_commits_lang_info = git.get_commits_user_lang_diff_between(r['id'], begin_date, end_date)if len(user_commits_lang_info) == 0: continueuser_commits_lang_info_dict[member_name] = user_commits_lang_infoproject_members_commits_lang_info[git.project] = user_commits_lang_info_dict except:pass return project_members_commits_lang_infodef test_results_equal(resultA, resultB): ''' 測試方法 :param resultA: :param resultB: :return: ''' print(resultA) print(resultB) assert len(str(resultA)) == len(str(resultB))if __name__ == ’__main__’: from git_tools.config import begin_date, end_date get_projects_lang_code_lines(begin_date, end_date) for t in threads: t.join() old_result = get_projects_lang_code_lines_old(begin_date, end_date) test_results_equal(old_result, project_members_commits_lang_info)

老方法里外層for循環和內層for循環里均存在耗時操作：

1）git.get_project_members()

2）git.get_user_info(member_name, debug=False)

分兩步來優化，先里后外或先外后里都行。用多線程替換for循環，并發共享外部資源，加鎖避免寫沖突。

測試結果通過，函數運行時間裝飾器顯示（單位秒）：

get_projects_lang_code_lines execution took up time:1.85294

get_projects_lang_code_lines_old execution took up time:108.604177

速度提升了約58倍

以上這篇如何提高python 中for循環的效率就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持好吧啦網。

Python 編程

上一條：Python類中的裝飾器在當前類中的聲明與調用詳解下一條：Python使用monkey.patch_all()解決協程阻塞問題

相關文章：

1. 淺談XML Schema中的elementFormDefault屬性2. jsp學習之scriptlet的使用方法詳解3. ASP.NET MVC獲取多級類別組合下的產品4. ASP.NET MVC實現橫向展示購物車5. ThinkPHP5 通過ajax插入圖片并實時顯示(完整代碼)6. Docker 容器健康檢查機制7. python b站視頻下載的五種版本8. ASP.NET MVC使用Session會話保持表單狀態9. python實現PolynomialFeatures多項式的方法10. 解決python使用list()時總是報錯的問題

排行榜

					
					淺談XML Schema中的elementFormDefault屬性
jsp學習之scriptlet的使用方法詳解
ASP.NET MVC獲取多級類別組合下的產品
ASP.NET MVC實現橫向展示購物車
ThinkPHP5 通過ajax插入圖片并實時顯示(完整代碼)
Docker 容器健康檢查機制
ASP.NET MVC使用Session會話保持表單狀態
python實現PolynomialFeatures多項式的方法
springboot用controller跳轉html頁面的實現
python b站視頻下載的五種版本
IDEA設置JVM可分配內存大小和其他參數的教程