解決python存數(shù)據(jù)庫速度太慢的問題
在項(xiàng)目中遇到一個(gè)問題,需要從文本中讀取三萬條數(shù)據(jù)寫入mysql數(shù)據(jù)庫,文件中為用@分割的sql語句,但是在讀取的過程中發(fā)現(xiàn)速度過慢,三萬八千條數(shù)據(jù)需要220秒,問題代碼片段如下:
def read_to_mysql(filecata, targetDir): ’’’ 用來寫入數(shù)據(jù)庫,寫入后會(huì)剪貼掉文件 filecata 為保存有文件地址的list,已去掉尾部的空格 :param filecata: 文件目錄 :param targetDir: 要復(fù)制的目標(biāo)目錄 :return: ’’’ root_dir = os.path.abspath(os.path.join(os.getcwd(), './')) config = configparser.ConfigParser() config.read(root_dir + '/config.ini') __host = config.get('DatabaseOfWRT', 'host') __database_name = config.get('DatabaseOfWRT', 'database') __user_name = config.get('DatabaseOfWRT', 'username') __user_passwaord = config.get('DatabaseOfWRT', 'password') __charset = config.get('DatabaseOfWRT', 'charset') conn = pymysql.connect( host=__host, user=__user_name, password=__user_passwaord, database=__database_name, charset=__charset ) cursor = conn.cursor() with open(filecata, 'r', encoding=’utf-8’) as f: data = f.read() # 讀取文件 data_list = data.split(’@’) del data_list[-1] starttime = int(time.time()) for data_str in data_list: data_str = str(data_str) sql = data_str + ’;’ cursor.execute(sql) conn.commit() print(flag) copy_del_file(filecata, targetDir) # 用來剪切的函數(shù),此處不影響,因而省略 cursor.close() conn.close()解決方案
經(jīng)測(cè)試發(fā)現(xiàn),影響速度的主要原因是commit(),因?yàn)闆]過幾秒提交一次即可,但是因?yàn)樘峤坏淖址L度有限制,所以要設(shè)置一個(gè)合理的時(shí)間讀取,代碼修改如下:
def read_to_mysql(filecata, targetDir): ’’’ 用來寫入數(shù)據(jù)庫,寫入后會(huì)剪貼掉文件 filecata 為保存有文件地址的list,已去掉尾部的空格 :param filecata: :param targetDir: 要復(fù)制的目標(biāo)目錄 :return: ’’’ root_dir = os.path.abspath(os.path.join(os.getcwd(), './')) config = configparser.ConfigParser() config.read(root_dir + '/config.ini') __host = config.get('DatabaseOfWRT', 'host') __database_name = config.get('DatabaseOfWRT', 'database') __user_name = config.get('DatabaseOfWRT', 'username') __user_passwaord = config.get('DatabaseOfWRT', 'password') __charset = config.get('DatabaseOfWRT', 'charset') conn = pymysql.connect( host=__host, user=__user_name, password=__user_passwaord, database=__database_name, charset=__charset ) cursor = conn.cursor() with open(filecata, 'r', encoding=’utf-8’) as f: data = f.read() # 讀取文件 data_list = data.split(’@’) del data_list[-1] starttime = int(time.time()) for data_str in data_list: endtime = int(time.time()) data_str = str(data_str) sql = data_str + ’;’ cursor.execute(sql) if endtime - starttime ==10: # 每過十秒提交一次 starttime = int(time.time()) conn.commit() conn.commit() copy_del_file(filecata, targetDir) cursor.close() conn.close() return flag
此時(shí)寫入三萬八千條數(shù)據(jù)需要9秒
補(bǔ)充:python 連數(shù)據(jù)庫cursur.fetchall ()速度慢的解決方案
解決游標(biāo)遍歷慢的方法:一行一行去遍歷,而不是一下全部讀取出來
將cursur.fetchall()更改為for i in cursur:
補(bǔ)充:python 讀取文件時(shí)速度的問題
'''舉例 讀取文件'''# 第一種方式with open(’test.txt’, ’r’, encoding=’utf-8’) as f: info = f.readlines() for line in info: pass# 第二種方式with open(’test.txt’, ’r’, encoding=’utf-8’) as f: for line in f: pass
對(duì)于以上兩種方式讀取文件,各自有各自的用途,當(dāng)用兩種方式都可以時(shí),第二種方式的效率是第一種的幾個(gè)量級(jí), readlines()將文件內(nèi)容讀取到內(nèi)存的list中,操作雖然方便,但是消耗內(nèi)存,運(yùn)行效率慢。
原生的f是將文件內(nèi)容讀到生成器中, 當(dāng)需要操作時(shí),從生成器中循環(huán)出來,速度很快,操作大文件時(shí)建議用第二種方式!
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持好吧啦網(wǎng)。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章:
1. PHP循環(huán)與分支知識(shí)點(diǎn)梳理2. JSP+Servlet實(shí)現(xiàn)文件上傳到服務(wù)器功能3. 利用FastReport傳遞圖片參數(shù)在報(bào)表上展示簽名信息的實(shí)現(xiàn)方法4. JavaWeb Servlet中url-pattern的使用5. Ajax請(qǐng)求超時(shí)與網(wǎng)絡(luò)異常處理圖文詳解6. jsp實(shí)現(xiàn)textarea中的文字保存換行空格存到數(shù)據(jù)庫的方法7. jsp EL表達(dá)式詳解8. chat.asp聊天程序的編寫方法9. JSP之表單提交get和post的區(qū)別詳解及實(shí)例10. jsp cookie+session實(shí)現(xiàn)簡易自動(dòng)登錄
