本篇文章6261字,讀完約16分鐘

新科技信 2019雙11,是支付寶參戰(zhàn)的第11年。

與11年前相比,雙11的多個事物發(fā)生了變化。 例如——2684億美元是11年前的5000倍左右。例如,流量-訂單的峰值為54.4萬件/秒,是曾經(jīng)無法想象的數(shù)字。 比如層出不窮的新技術(shù),就是這些驚人數(shù)字背后的“秘密武器”,為抗擊雙11的士兵們配備了最完善的武裝。

也有始終不變的東西。 仿佛踏上了戰(zhàn)前的緊張、不安、薄冰一樣,對細節(jié)反復檢查的“強迫癥”,勝利后的喜悅、釋然、充實,然后進入下一步。

支付寶( Alipay )的技術(shù)事業(yè)是“半年進行建設,半年進行巨大的促進”。 雖然是戲言,但足以從側(cè)面說明實踐戰(zhàn)場的重要性。 每當雙11圓滿落幕,技術(shù)人員也到了收獲的季節(jié)。 經(jīng)歷了哪些雙11大考試的新技術(shù),就像經(jīng)歷了“成人式”一樣,開始一個接一個地走上舞臺,獨自一人。

sofamesh :金融類云的第一步

我們知道,金融機構(gòu)責任重大,所以在面對新技術(shù)時,一般都很保守。 支付寶( Alipay )也不例外。 特別是在雙11這樣的場景中,流量大、峰值高,平時再小的問題,在這個時候也有可能被放大為大問題。

于是,在今年的大促迫在眉睫之際,sofamesh團隊還在煩惱中。 面對周圍各種各樣的聲音,他們感到了很大的壓力。 被問到最多的問題是“這個不可靠嗎? ”。

“行”字在雙11面前,可能有千鈞之重。 能承擔超過零點的流量峰值嗎? 能保障穩(wěn)定嗎? 你能保證錯誤嗎?

mesh是一項新技術(shù),社區(qū)開源項目不太成熟。 sofamesh就這樣走上了開源的自我學習之路。 在金融水平的苛刻要求面前,在雙11的極端場景下,到底怎么樣? 誰的心都沒有底。

但是,此時,兩年的心血將被浪費。 反過來說,如果能打贏這場戰(zhàn)斗,云之原生之路在雙11這個體積的考驗下是可能的,這對整個領域來說將是一個很好的標桿。

資深技術(shù)人員楊海悌說:“螞蟻金服將成為金融領域技術(shù)的開拓者和實踐者?!?/p>

這不是螞蟻金服第一次成為“吃螃蟹的人”,但當金融機構(gòu)依靠ioe的時候,他們率先開始探索分散,現(xiàn)在分散成為主流,他們又率先開始思考云的原生。

看到“以前是業(yè)務推進技術(shù),現(xiàn)在到了技術(shù)為業(yè)務提供紅利的時候了”自己成長的sofamesh,楊海悌很自信,另一方面非常動搖。

sofamesh是支付寶( Alipay )比較金融領域特殊訴求開發(fā)的金融級中間件,是金融級云原生分布式框架sofastack的一部分,始于2009年,大致與雙11同齡。

騾子是馬,不散步不知道。 sofamesh的最初答復很快就提交了。 傳統(tǒng)的時分復用資源切換需要4個小時,使用sofamesh還不到4分鐘。 性能提高近100倍。

時分復用是指,如名稱所示,允許在不同的時間段將相同的資源“復用”到多個應用程序。 這項技術(shù)可以減少資源閑置,提高資源利用效率。 這項技術(shù)在年雙11上立過功——當時,支付寶( Alipay )面對這一天貓雙11和自己會員急需的“雙著急”挑戰(zhàn),為了節(jié)約價格購買了一些資源,分時安排了1.0,采用了同樣的資源,兩大

但是,去年,以靈活的體系結(jié)構(gòu)模式進行分時調(diào)度,切換資源需要重新配置和部署相關(guān)系統(tǒng),4小時的切換時間支持“兩大促進”,但要求在短時間內(nèi)迅速調(diào)用資源的業(yè)務

今年以來,通過sofamesh的在線,無需重新配置交換機資源,切換時間縮短到了3分40秒。 這意味著,像螞蟻森林一樣,每天都要面臨流量少的高峰業(yè)務,不需要事先留出資源余量,提前10分鐘開始資源切換,是綽綽有余的。

“預計將來切換時間將縮短到秒級。 ”楊海悌說。

2019年的雙11,sofamesh扮演了非常重要的角色。 ——100%覆蓋螞蟻金服核心支付鏈接、數(shù)十萬容器、峰值數(shù)千萬qps、平均rt (響應時間) 0.2ms,是業(yè)界最大的服務mesh集群。 在其洪峰面前的穩(wěn)定性和平滑性,以及效率的顯著提高,是有目共睹的。

在這張漂亮的成績單后面,其實是一個字——行。

“云原生”已經(jīng)成為業(yè)界公認的技術(shù)趨勢,以提高運維效率、降低資源采用價格、提高服務安全可靠性等為目標。 云本機基礎架構(gòu)升級為技術(shù)發(fā)展提供了基礎架構(gòu)支持,提高了未來體系結(jié)構(gòu)空之間的想象力。 2019年也是支付寶( Alipay )金融級云原落地元年,包括sofamesh在內(nèi)的一系列云原生技術(shù)經(jīng)過了雙11的考驗,向整個行業(yè)說明——我們可以走云原生這條路。

雙11之后,在螞蟻金服舉辦的發(fā)布會上,副cto胡喜宣布將打磨后的sofamesh嵌入sofastack系統(tǒng)進行公開。

正如“元年”一詞所說,這只是螞蟻金服邁出新開拓道路的第一步。

oceanbase 2.2 :世界記錄是為了被打破

oceanbase被質(zhì)疑“是否合適”的次數(shù)更是多得數(shù)不勝數(shù)。

數(shù)據(jù)庫是命脈,特別是金融機構(gòu)的數(shù)據(jù)庫,有些問題都是真金白銀的問題,任何業(yè)務都不用冒風險,老老實實抱著老牌進口商品oracle,謀求太平。

但是甲骨文也沒見過雙11這場戰(zhàn)斗。 隨著雙11的流量每年翻番,我看到它的性能撞到了天花板上。 在年雙11前的壓力測量中,oracle出現(xiàn)了10%的流量缺口。

oceanbase感受到了機會。 在此之前,他們已經(jīng)“蟄居”了四五年,沒有固定的業(yè)務,在最落魄的時候,面臨著團隊解散和項目取消的局面。

當時的oceanbase將滿5歲,但版本號仍為0.x,看起來還是個demo,從一開始就要承受雙11 10 %的流量,相當于支付寶( Alipay )平日流量的最高峰,而且是最核心的交易西

有一段時間,不斷出現(xiàn)“你們行不行”的質(zhì)疑聲。

“當人們說我們不行的時候,我們想得非常堅定。 ”。 螞蟻金服研究員楊傳輝說。 他是oceanbase開發(fā)團隊的早期成員之一,他目睹了oceanbase寫下了第一段代碼。

從完成10%的任務,到雙11正式高考,時間不到兩周。 最后10天,資深運維專家文匯帶著全隊幾乎不眠不休地進行了優(yōu)化,將長達10毫秒的響應時間降至1毫秒以下。

那年的雙11,oceanbase毫無疑問,一戰(zhàn)成名。

今年的雙11,oceanbase的版本號是2.2。 在命名版本方面,他們的謹慎做法一如既往。

但是每個oceanbase版本發(fā)生的都是“重生”的變化,自己創(chuàng)造的記錄也在自己持續(xù)更新——

年雙11,基于oceanbase 2.0分區(qū)方案的體系結(jié)構(gòu)正式上線。 該體系結(jié)構(gòu)處理了數(shù)據(jù)庫的可擴展瓶頸,將事務的每秒承載能力提高到100萬級,性能提高了50%。

50%的漲幅不在少數(shù),但更令人驚訝的是,時隔僅一年,2019年的雙十一中,新的在線oceanbase 2.2版本在2.0的基礎上提高了50%的性能。

今年10月3日,權(quán)威機構(gòu)國際事務解決效能委員會tpc援引螞蟻金服分布式關(guān)系數(shù)據(jù)庫oceanbase的消息稱,美國甲骨文企業(yè)保持了9年的世界紀錄,以tpc-c排名第一,成為首次出現(xiàn)在該排行榜上的中國數(shù)據(jù)庫系統(tǒng)。

僅僅一個月后,在2019年雙11考場上,oceanbase2.2再次刷新數(shù)據(jù)庫解決高峰,達到6100萬次/秒,創(chuàng)下新的世界紀錄。

在金融級核心數(shù)據(jù)庫的嚴格要求下,oceanbase為什么能夠?qū)崿F(xiàn)這樣的跨越式性能升級?

重要的秘密是,oceanbase的背后是原生的分布式數(shù)據(jù)庫設計和paxos協(xié)議,通過水平擴展x86服務器可以無限伸縮,支持大規(guī)模并發(fā)的效果。

另一方面,今年為了進一步提高性能和降低延遲,oceanbase通過中間件優(yōu)化自動將多個sql聚合到輕量級存儲過程中。 這個過程將原本需要幾十次sql互聯(lián)網(wǎng)交互的任務減少到了一次互聯(lián)網(wǎng)交互,從而將總體rt減少了20%。

目前,支付寶( Alipay )的業(yè)務已經(jīng)跑了100%oceanbase,作為我國首個自研的金融級分布式數(shù)據(jù)庫,經(jīng)過6年的雙11錘子精煉,走出了螞蟻金服,具備了走向更廣闊天地的潛力。

在今年的雙11中,100%的支付寶( Alipay )支付業(yè)務切換到oceanbase嵌入式oracle兼容模式,支持oracle語法和存儲過程的優(yōu)化,還支持分布式分區(qū)表、全局 雙11之后,oceanbase2.2也將正式上映。

“但是,當別人覺得我們什么都好的時候,我們反而會冷靜下來,認為自己還有不行的地方。 ”。 楊傳輝說,技術(shù)上未知的恐懼,可以讓大家走得更遠。

圖智能:多而復雜的金融關(guān)系的最優(yōu)解

螞蟻金服計算存儲首席設計師何昌華指出:“過去很長一段時間里,圖數(shù)據(jù)庫和圖計算都停留在學術(shù)研究階段,領域應用場景較少,是因為沒有強場景驅(qū)動,市場發(fā)展不太迅速。” 但是,反過來看,與圖相關(guān)的產(chǎn)品近年來熱度有所上升。 其核心原因是強場景的驅(qū)動,特別是金融場景,解決了大量、多、復雜、相關(guān)、多樣化的網(wǎng)格數(shù)據(jù),通過節(jié)點和相關(guān)的數(shù)據(jù)模型,有效地解決了許多復雜的關(guān)系問題。

阿里一站式圖平臺的誕生,也具有鮮明的螞蟻金服特色,同樣“忙于業(yè)務”。

螞蟻金服大約從2005年開始研究社區(qū)的圖計算,當時的團隊在一點開源產(chǎn)品的基礎上進行了小規(guī)模的嘗試,結(jié)果發(fā)現(xiàn)效果很好,圖數(shù)據(jù)庫可以很好地與金融、社會交流業(yè)務相結(jié)合。 但是,吖啶服具有龐大的數(shù)據(jù)量,需要分布式架構(gòu)支持高并發(fā)大數(shù)據(jù)量和大吞吐量,但當時無論是開源還是商業(yè)數(shù)據(jù)庫產(chǎn)品還是獨立版,都需要阿里服那樣的數(shù)據(jù)量和眾多復雜的環(huán)境 然后,艱難而扎實的自研之路開始了。

首先,處理圖數(shù)據(jù)的存儲和在線查詢問題。

從數(shù)據(jù)量來看,分布式體系結(jié)構(gòu)是唯一的選擇。 出于滿足金融場景高并發(fā)低延遲的訴求,選擇原生圖結(jié)構(gòu)而不是基于關(guān)系數(shù)據(jù)庫封裝圖數(shù)據(jù)是必然的。 但是,由于以上兩點,整個開發(fā)的難度大大增加。

年初組隊,經(jīng)過“冬練三九、夏練三伏”的苦修,以及在代碼、運維、穩(wěn)定性等各個環(huán)節(jié)的終極追求,首張圖數(shù)據(jù)庫版本geabase于年初發(fā)布。

那時,恰逢支付寶( Alipay )史上最大的改版,模塊化功能被新聞流取代,大大加強了社會交流關(guān)系的屬性,geabase開始訪問支付寶( Alipay )鏈接。

百煉成鋼經(jīng)過幾個月的壓力測試,去年6月,新版支付寶( Alipay )上線,geabase迎來了最初的流量。 其次,從支付寶( Alipay )大改版開始,新春紅包、雙11、geabase迎來了業(yè)務開花期,到2019年雙11、geabase雙11主鏈路上單集群規(guī)模突破萬億邊,邊找點邊突破800萬qps,平均延遲為10ms。 成為支付寶( Alipay )中心鏈接的重要一環(huán)

數(shù)據(jù)存儲和查詢問題得到處理,接下來處理的是分析計算問題。

首先,考慮了在龐大的圖數(shù)據(jù)中如何進行數(shù)據(jù)挖掘。 從千億到萬億級規(guī)模,對于幾tb到幾百tb的數(shù)據(jù),使用巨大的內(nèi)存物理機和高速互聯(lián)網(wǎng)實現(xiàn)離線全圖計算,對公司來說不太現(xiàn)實,資源也有巨大的浪費。 因此,重點在于如何滿足業(yè)務功能/性能訴求,利用碎片化的現(xiàn)有資源實現(xiàn)“按需計算”。

因此,年,我們根據(jù)大量的數(shù)據(jù),設計了離線計算框架,提供了自適應的分區(qū)策略,資源消耗量可以比同類產(chǎn)品減少一個數(shù)量級,遠遠優(yōu)于graphx等開源產(chǎn)品。

另外,為了方便業(yè)務算法者配合其業(yè)務進行二次開發(fā),還開放了c++和java的接口,除了行業(yè)常見的圖形編程框架的pregel、gas之外,還實現(xiàn)了一定的“微創(chuàng)新”

對計算的事件進行了全量分解處理,但隨著“310”戰(zhàn)略的推進,風控工作的快速發(fā)展,對分解時間長度的要求越來越高,分解更快、更實時,年開始考慮在線地圖的計算能力。

有時,并不是所有業(yè)務都需要進行多復雜圖的分解,而是在滿足一定條件后才開始子圖的迭代計算。 最后,基于圖的迭代計算結(jié)果在解決了數(shù)據(jù)鏈路之后被提供給在線采用。

因此,一個場景在完整的計算鏈接中,需要流計算和圖計算兩種模態(tài)的融合計算。 我們打破了以前流傳下來的計算模式邊界,提供了流程圖融合的計算系統(tǒng)。 結(jié)合數(shù)據(jù)流和控制流,提供動態(tài)dag功能,實現(xiàn)按需計算,實現(xiàn)靈活的可擴展性。

客戶通過統(tǒng)一的dsl(sql+gremlin/gql )、一系列計算系統(tǒng),實現(xiàn)流程圖融合的鏈接,實現(xiàn)數(shù)據(jù)驅(qū)動的在線地圖計算能力,降低客戶的學習、運輸價格

2019年雙11中,在線地圖計算技術(shù)大放異彩,通過秒級的決定,在花唄等場景中業(yè)務效果提高了1.2倍。

從“大”圖的存儲,到離線全圖“按需計算”、“實時”在線圖的計算,阿里的圖智能技術(shù)沿著業(yè)務迅速發(fā)展和成長。

融合引擎:新計算威力初探

今年的雙11落地應用新的“神器”,融合了計算引擎,花費了近100名工程師一年的心血。

融合計算引擎的基礎是螞蟻金服聯(lián)合uc berkeley大學推進的新一代計算引擎ray,很年輕。 年融合計算引擎項目啟動時,它只有數(shù)萬行代碼,距離金融級在線環(huán)境的應用還很遠。

“我們花了一年的時間增加到幾十萬行代碼,涵蓋了c++、java、python等所有語言。 ”。 螞蟻金服的資深工程師周家英說。

至少有四個團隊共同“撫養(yǎng)”這臺發(fā)動機,四個保姆帶著孩子,絆倒了,不可避免。 難度遠遠大于一個隊負責一個引擎。

但是,開發(fā)時的“難”是為了應用時的“簡”。

在計算引擎的運行級別上,很少使用第三方存儲,因為不同計算模式的數(shù)據(jù)可以在引擎中共享,同時還節(jié)省了外部存儲和互聯(lián)網(wǎng)傳輸?shù)拈_銷。

在應用方面,融合計算引擎不僅處理了金融場景中需要連接多個不同計算模型的難題,還支持各種低效業(yè)務,在支付過程中提供秒級智能決策能力。

同時隨著融合引擎的落地,技術(shù)同學的研發(fā)習性也發(fā)生了改變。 我們希望通過融合計算引擎,達到研發(fā)狀態(tài)、運行狀態(tài)、運維狀態(tài)三位一體的統(tǒng)一:比如動態(tài)圖計算場景中,計算開發(fā)同學只需要做一個流程+圖的計算工作,就可以實現(xiàn)秒級6度鄰圖的迭代計算。 同樣,在機器學習行業(yè),通過編制包括流程+模型訓練+服務在內(nèi)的計算工作,可以實現(xiàn)端到端秒級模型導出的在線學習能力。 這樣,從開發(fā)到運行狀態(tài),計算整體的效率得到了大幅提高。

年,融合計算在花唄逆套現(xiàn)的智能識別中表現(xiàn)出色。 2019年,融合計算引擎落地于支付寶( Alipay )的各個場景。 圖在花唄、螞蟻森林等場景大規(guī)模上線,圖數(shù)據(jù)庫geabase突破萬億邊。

在2019年的支付寶( Alipay )新春紅包活動中,融合了計算引擎,以在線學習能力支持新春紅包的智能文字,并將其算法推向了新的在線學習的系統(tǒng)。 該人系融合了流計算和機器學習,使機器學習的模型迭代速度從以往的時間水平提高到了現(xiàn)在的秒水平。 此次的雙11點,在“樹枝日歷”的推薦算法中發(fā)揮了重要的意義。

通過整合流媒體計算、服務和并發(fā)查詢,統(tǒng)一計算引擎將機器資源利用率降低60%,將端到端延遲降低到毫秒級別,支持金融互聯(lián)網(wǎng)業(yè)務查詢和監(jiān)控,

今年的雙11中,融合計算引擎至少在三個場景落地成功,被驗證為可行,“跑了阿里金融級的重要決策鏈接”。 周家英不興奮。 “這表明我們的計算引擎具有金融水平的能力。 ”。

事實上,無論是雙11這樣極端的考試場景,還是支付寶( Alipay )、阿里巴巴以及各網(wǎng)絡科技企業(yè)的日常應用場景,數(shù)據(jù)驅(qū)動業(yè)務都更多。 因此,大量數(shù)據(jù)的實時解決、分析和應用、人工智能、深度學習等新技術(shù)的開發(fā),要求具有更強的計算能力,以及能夠應對許多復雜場景的多種計算模型。

面向未來,越來越多的東西是未知的——我們不知道未來會出現(xiàn)什么樣的場景,這些場景要求什么樣的計算模型和計算能力。 “融合計算是真正意義上的新計算的第一步”螞蟻金服計算存儲首席設計師何昌華說。

標題:“2019雙11,支付寶有那些“秘密武器”?”

地址:http://www.sxrongzun.com//xwdt/37173.html