怎么優(yōu)化MySQL中的千萬級(jí)數(shù)據(jù)

本篇內(nèi)容主要講解“怎么優(yōu)化MySQL中的千萬級(jí)數(shù)據(jù)”，感興趣的朋友不妨來看看。本文介紹的方法操作簡(jiǎn)單快捷，實(shí)用性強(qiáng)。下面就讓小編來帶大家學(xué)習(xí)“怎么優(yōu)化MySQL中的千萬級(jí)數(shù)據(jù)”吧!

成都創(chuàng)新互聯(lián)是專業(yè)的興業(yè)網(wǎng)站建設(shè)公司，興業(yè)接單;提供成都網(wǎng)站設(shè)計(jì)、做網(wǎng)站、成都外貿(mào)網(wǎng)站建設(shè)公司,網(wǎng)頁設(shè)計(jì),網(wǎng)站設(shè)計(jì),建網(wǎng)站,PHP網(wǎng)站建設(shè)等專業(yè)做網(wǎng)站服務(wù);采用PHP框架,可快速的進(jìn)行興業(yè)網(wǎng)站開發(fā)網(wǎng)頁制作和功能擴(kuò)展;專業(yè)做搜索引擎喜愛的網(wǎng)站,專業(yè)的做網(wǎng)站團(tuán)隊(duì),希望更多企業(yè)前來合作!

首先采用Mysql存儲(chǔ)千億級(jí)的數(shù)據(jù)，確實(shí)是一項(xiàng)非常大的挑戰(zhàn)。Mysql單表確實(shí)可以存儲(chǔ)10億級(jí)的數(shù)據(jù)，只是這個(gè)時(shí)候性能非常差，項(xiàng)目中大量的實(shí)驗(yàn)證明，Mysql單表容量在500萬左右，性能處于最佳狀態(tài)。

針對(duì)大表的優(yōu)化，主要是通過數(shù)據(jù)庫分庫分表來解決，目前比較普遍的方案有三個(gè)：分區(qū)，分庫分表，NOSQL/NewSql。實(shí)際項(xiàng)目中，這三種方案是結(jié)合的，目前絕大部分系統(tǒng)的核心數(shù)據(jù)都是以RDBMS存儲(chǔ)為主，NoSql/NewSql存儲(chǔ)為輔。

分區(qū)

首先來了解一下分區(qū)方案。

分區(qū)表是由多個(gè)相關(guān)的底層表實(shí)現(xiàn)的。這些底層表也是由句柄對(duì)象表示，所以我們也可以直接訪問各個(gè)分區(qū)，存儲(chǔ)引擎管理分區(qū)的各個(gè)底層表和管理普通表一樣（所有的底層表都必須使用相同的存儲(chǔ)引擎），分區(qū)表的索引只是在各個(gè)底層表上各自加上一個(gè)相同的索引。這個(gè)方案對(duì)用戶屏蔽了sharding的細(xì)節(jié)，即使查詢條件沒有sharding column，它也能正常工作（只是這時(shí)候性能一般）。

不過它的缺點(diǎn)很明顯：很多的資源都受到單機(jī)的限制，例如連接數(shù)，網(wǎng)絡(luò)吞吐等。如何進(jìn)行分區(qū)，在實(shí)際應(yīng)用中是一個(gè)非常關(guān)鍵的要素之一。

下面開始舉例：以客戶信息為例，客戶數(shù)據(jù)量5000萬加，項(xiàng)目背景要求保存客戶的銀行卡綁定關(guān)系，客戶的證件綁定關(guān)系，以及客戶綁定的業(yè)務(wù)信息。

此業(yè)務(wù)背景下，該如何設(shè)計(jì)數(shù)據(jù)庫呢。項(xiàng)目一期的時(shí)候，我們建立了一張客戶業(yè)務(wù)綁定關(guān)系表，里面冗余了每一位客戶綁定的業(yè)務(wù)信息。

基本結(jié)構(gòu)大致如下：

查詢時(shí)，對(duì)銀行卡做索引，業(yè)務(wù)編號(hào)做索引，證件號(hào)做索引。隨著需求大增多，這張表的索引會(huì)達(dá)到10個(gè)以上。而且客戶解約再簽約，里面會(huì)保存兩條數(shù)據(jù)，只是綁定的狀態(tài)不同。

假設(shè)我們有5千萬的客戶，5個(gè)業(yè)務(wù)類型，每位客戶平均2張卡，那么這張表的數(shù)據(jù)量將會(huì)達(dá)到驚人的5億，事實(shí)上我們系統(tǒng)用戶量還沒有過百萬時(shí)就已經(jīng)不行了。這樣的設(shè)計(jì)絕對(duì)是不行的，無論是插入，還是查詢，都會(huì)讓系統(tǒng)崩潰。

mysql數(shù)據(jù)庫中的數(shù)據(jù)是以文件的形勢(shì)存在磁盤上的，默認(rèn)放在/mysql/data下面（可以通過my.cnf中的datadir來查看），一張表主要對(duì)應(yīng)著三個(gè)文件，一個(gè)是frm存放表結(jié)構(gòu)的，一個(gè)是myd存放表數(shù)據(jù)的，一個(gè)是myi存表索引的。這三個(gè)文件都非常的龐大，尤其是.myd文件，快5個(gè)G了。下面進(jìn)行第一次分區(qū)優(yōu)化，Mysql支持的分區(qū)方式有四種：

在我們的項(xiàng)目中，range分區(qū)和list分區(qū)沒有使用場(chǎng)景，如果基于綁定編號(hào)做range或者list分區(qū)，綁定編號(hào)沒有實(shí)際的業(yè)務(wù)含義，無法通過它進(jìn)行查詢，因此，我們就剩下 HASH 分區(qū)和 KEY 分區(qū)了，HASH分區(qū)僅支持int類型列的分區(qū)，且是其中的一列。

KEY 分區(qū)倒是可以支持多列，但也要求其中的一列必須是int類型；看我們的庫表結(jié)構(gòu)，發(fā)現(xiàn)沒有哪一列是int類型的，如何做分區(qū)呢？增加一列，綁定時(shí)間列，將此列設(shè)置為int類型，然后按照綁定時(shí)間進(jìn)行分區(qū)，將每一天綁定的用戶分到同一個(gè)區(qū)里面去。

這次優(yōu)化之后，我們的插入快了許多，但是查詢依然很慢，為什么？

因?yàn)樵谧霾樵兊臅r(shí)候，我們也只是根據(jù)銀行卡或者證件號(hào)進(jìn)行查詢，并沒有根據(jù)時(shí)間查詢，相當(dāng)于每次查詢，mysql都會(huì)將所有的分區(qū)表查詢一遍。

進(jìn)行第二次方案優(yōu)化，既然 HASH 分區(qū)和 KEY分區(qū)要求其中的一列必須是int類型的，那么創(chuàng)造出一個(gè)int類型的列出來分區(qū)是否可以？

分析發(fā)現(xiàn)，銀行卡的那串?dāng)?shù)字有秘密。銀行卡一般是16位到19位不等的數(shù)字串，我們?nèi)∑渲械哪骋晃荒贸鰜碜鳛楸矸謪^(qū)是否可行呢，通過分析發(fā)現(xiàn)，在這串?dāng)?shù)字中，其中確實(shí)有一位是0到9隨機(jī)生成的，我們基于銀行卡號(hào)+隨機(jī)位進(jìn)行KEY分區(qū)，每次查詢的時(shí)候，通過計(jì)算截取出這位隨機(jī)位數(shù)字，再加上卡號(hào)，聯(lián)合查詢，達(dá)到了分區(qū)查詢的目的，需要說明的是，分區(qū)后，建立的索引，也必須是分區(qū)列，否則Mysql還是會(huì)在所有的分區(qū)表中查詢數(shù)據(jù)。

通過銀行卡號(hào)查詢綁定關(guān)系的問題解決了，那么證件號(hào)呢，如何通過證件號(hào)來查詢綁定關(guān)系。

前面已經(jīng)講過，做索引一定是要在分區(qū)健上進(jìn)行，否則會(huì)引起全表掃描。我們?cè)賱?chuàng)建了一張新表，保存客戶的證件號(hào)綁定關(guān)系，每位客戶的證件號(hào)都是唯一的，新的證件號(hào)綁定關(guān)系表里，證件號(hào)作為了主鍵，那么如何來計(jì)算這個(gè)分區(qū)健呢，客戶的證件信息比較龐雜，有身份證號(hào)，港澳臺(tái)通行證，機(jī)動(dòng)車駕駛證等等，如何在無序的證件號(hào)里找到分區(qū)健。

為了解決這個(gè)問題，我們將證件號(hào)綁定關(guān)系表一分為二，其中的一張表專用于保存身份證類型的證件號(hào)，另一張表則保存其他證件類型的證件號(hào)，在身份證類型的證件綁定關(guān)系表中，我們將身份證號(hào)中的月數(shù)拆分出來作為了分區(qū)健，將同一個(gè)月出生的客戶證件號(hào)保存在同一個(gè)區(qū)，這樣分成了12個(gè)區(qū)，其他證件類型的證件號(hào)，數(shù)據(jù)量不超過10萬，就沒有必要進(jìn)行分區(qū)了。

這樣每次查詢時(shí)，首先通過證件類型確定要去查詢哪張表，再計(jì)算分區(qū)健進(jìn)行查詢。作了分區(qū)設(shè)計(jì)之后，保存2000萬用戶數(shù)據(jù)時(shí)銀行卡表的數(shù)據(jù)保存文件就分成了10個(gè)小文件，證件表的數(shù)據(jù)保存文件分成了12個(gè)小文件，解決了這兩個(gè)查詢的問題，還剩下一個(gè)問題：業(yè)務(wù)編號(hào)怎么辦？

一個(gè)客戶有多個(gè)簽約業(yè)務(wù)，如何進(jìn)行保存？這時(shí)候，采用分區(qū)的方案就不太合適了，它需要用到分表的方案。

分表

我們前面有提到過對(duì)于mysql，其數(shù)據(jù)文件是以文件形式存儲(chǔ)在磁盤上的。當(dāng)一個(gè)數(shù)據(jù)文件過大時(shí)，操作系統(tǒng)對(duì)大文件的操作就會(huì)比較麻煩耗時(shí)，且有的操作系統(tǒng)就不支持大文件，這個(gè)時(shí)候就必須分表了。

另外對(duì)于mysql常用的存儲(chǔ)引擎是Innodb，它的底層數(shù)據(jù)結(jié)構(gòu)是B+樹。當(dāng)其數(shù)據(jù)文件過大的時(shí)候，查詢一個(gè)節(jié)點(diǎn)可能會(huì)查詢很多層次，而這必定會(huì)導(dǎo)致多次IO操作進(jìn)行裝載進(jìn)內(nèi)存，肯定會(huì)耗時(shí)的。

除此之外還有Innodb對(duì)于B+樹的鎖機(jī)制。對(duì)每個(gè)節(jié)點(diǎn)進(jìn)行加鎖，那么當(dāng)更改表結(jié)構(gòu)的時(shí)候，這時(shí)候就會(huì)樹進(jìn)行加鎖，當(dāng)表文件大的時(shí)候，這可以認(rèn)為是不可實(shí)現(xiàn)的。所以綜上我們就必須進(jìn)行分表與分庫的操作。

如何進(jìn)行分庫分表，目前互聯(lián)網(wǎng)上有許多的版本，比較知名的一些方案：阿里的TDDL，DRDS和cobar，京東金融的sharding-jdbc；民間組織的MyCAT；360的Atlas；美團(tuán)的zebra；其他比如網(wǎng)易，58，京東等公司都有自研的中間件。

這么多的分庫分表中間件方案歸總起來，就兩類：client模式和proxy模式。

client模式

proxy模式

無論是client模式，還是proxy模式。幾個(gè)核心的步驟是一樣的：SQL解析，重寫，路由，執(zhí)行，結(jié)果歸并。個(gè)人比較傾向于采用client模式，它架構(gòu)簡(jiǎn)單，性能損耗也比較小，運(yùn)維成本低。

如何對(duì)業(yè)務(wù)類型進(jìn)行分庫分表。分庫分表最重要的一步，即sharding column的選取，sharding column選擇的好壞將直接決定整個(gè)分庫分表方案最終是否成功。而sharding column的選取跟業(yè)務(wù)強(qiáng)相關(guān)。

在我們的項(xiàng)目場(chǎng)景中，sharding column無疑最好的選擇是業(yè)務(wù)編號(hào)。通過業(yè)務(wù)編號(hào)，將客戶不同的綁定簽約業(yè)務(wù)保存到不同的表里面去，根據(jù)業(yè)務(wù)編號(hào)路由到相應(yīng)的表中進(jìn)行查詢，達(dá)到進(jìn)一步優(yōu)化sql的目的。

到此，相信大家對(duì)“怎么優(yōu)化MySQL中的千萬級(jí)數(shù)據(jù)”有了更深的了解，不妨來實(shí)際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

網(wǎng)站標(biāo)題：怎么優(yōu)化MySQL中的千萬級(jí)數(shù)據(jù)
文章網(wǎng)址：http://bm7419.com/article28/gihpcp.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站改版、網(wǎng)站收錄、Google、微信小程序、網(wǎng)站設(shè)計(jì)公司、虛擬主機(jī)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容