本篇文章2391字,讀完約6分鐘
電子沙盤http://www.sidukj.cn/vr.html【科技在線】大數(shù)據(jù)成熟了嗎? 交換隱私方便嗎? 曾經(jīng)受歡迎的大數(shù)據(jù)的發(fā)掘,最近成為了輿論的熱門話題。 有網(wǎng)友的專業(yè)測試證實(shí)了某商家利用大數(shù)據(jù)挖掘技術(shù)已經(jīng)成熟。 百度董事長兼首席執(zhí)行官李彥宏表示,中國人對隱私問題不那么敏感,進(jìn)一步加劇了這種狀況。 大數(shù)據(jù)挖掘技術(shù)就像帶有負(fù)面信息的明星,似乎一眨眼就變暗了,成了竊取隱私的小偷。
在《大數(shù)據(jù)時(shí)代》這本書暢銷幾年后,大數(shù)據(jù)不再那么受歡迎,但并未退役,其快速發(fā)展成為了人工智能實(shí)現(xiàn)的基礎(chǔ)之一。
那么,大數(shù)據(jù)挖掘是什么技術(shù)呢? 從誕生迅速發(fā)展到現(xiàn)在,什么樣拼命努力的技術(shù)人員又增長了那些能力? 面對大數(shù)據(jù)難以管理的問題,是否通過技術(shù)手段進(jìn)行控制?
客戶圖像:機(jī)器給人類貼標(biāo)簽
通過添加標(biāo)簽來制作客戶的圖像是數(shù)據(jù)挖掘中經(jīng)常使用的技術(shù)。 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所多媒體新聞解決研究室主任彭宇新教授指出,繪制客戶圖像是利用社會交流互聯(lián)網(wǎng)的新聞,根據(jù)客戶的社會屬性、生活習(xí)慣、支出行為等新聞,抽象出標(biāo)簽化的客戶模型,機(jī)器像人一樣可靠 社會交流互聯(lián)網(wǎng)數(shù)據(jù)是實(shí)現(xiàn)這一目標(biāo)的基礎(chǔ),機(jī)器見人多來源于社會交流互聯(lián)網(wǎng)數(shù)據(jù)的挖掘。
標(biāo)簽一般是分解顧客新聞得到的高度精致的特征表示,便于機(jī)器進(jìn)行新聞提取、聚合分解等解決。 標(biāo)簽本身不再需要分解副本等解決工作,便于利用機(jī)器提取標(biāo)準(zhǔn)化新聞。
有了標(biāo)簽,計(jì)算機(jī)就可以自動(dòng)解決人和相關(guān)的新聞,通過算法、模型可以逐步了解人。 彭宇新表示,多個(gè)標(biāo)簽可以共同完成圖像,將整個(gè)過程分為三個(gè)步驟。 一是收集數(shù)據(jù),也就是基于文案的新聞捕捉,口語中叫做爬數(shù)據(jù),二是顧客的行為模型,通過機(jī)器學(xué)習(xí)技術(shù)形成算法模型,評價(jià)顧客可能的一點(diǎn)點(diǎn)行為。 第三,可視化展示。 是用能讓人理解的方法展示機(jī)器運(yùn)算的結(jié)果。 這三個(gè)步驟經(jīng)過了多次調(diào)整,在實(shí)際應(yīng)用中,有可能根據(jù)結(jié)果反饋和業(yè)務(wù)訴求進(jìn)行二次建模等調(diào)整。
整個(gè)過程的影響參數(shù)相對多樣,不同行為類型的權(quán)重對標(biāo)簽新聞的影響也不同。 以應(yīng)用廣泛的商品營銷為例,例如網(wǎng)絡(luò)銷售葡萄酒時(shí),購買權(quán)重為5,僅瀏覽數(shù)為1,考慮瀏覽間隔、停留時(shí)間、生活習(xí)慣等,用許多復(fù)雜的算法最終表現(xiàn)一個(gè)標(biāo)簽的權(quán)重,從而形成圖像
基于客戶的圖像技術(shù),大數(shù)據(jù)挖掘?qū)⑦M(jìn)行分類和相關(guān)規(guī)則的計(jì)算等分解。 例如,有多少客人喜歡葡萄酒? 喜歡葡萄酒的人中,男性、女性的比例是多少? 喜歡葡萄酒的人一般喜歡什么體育企業(yè)品牌?
媒體間的智能識別:在計(jì)算機(jī)上佩戴慧眼
以前以文案新聞為主流,但現(xiàn)在充斥著圖片和視頻等多媒體數(shù)據(jù)。 彭新表示,后者目前占大數(shù)據(jù)的80%以上。
由于數(shù)據(jù)種類發(fā)生了巨大的變化,智能識別的任務(wù)變得更加困難。 管不住、不好用的問題日益突出。 機(jī)器只能讀自己的語言。 彭宇新說,人類世界的所有語言都必須轉(zhuǎn)換成機(jī)器理解的語言才能被識別。 以前只解決拷貝比較簡單,但現(xiàn)在必須追加很多復(fù)雜的圖像和視頻等數(shù)據(jù)。
例如,世界上有數(shù)千種鳥類,許多種類的差異非常細(xì)微,即使是擁有專業(yè)信息的人也不容易準(zhǔn)確識別,計(jì)算機(jī)自動(dòng)識別更是困難。 彭宇新表示,理解圖像、視頻拷貝的難點(diǎn)在于如何進(jìn)行語義自動(dòng)識別,這也是他們團(tuán)隊(duì)多年來的攻關(guān)課題之一,為此,團(tuán)隊(duì)發(fā)明了基于觀察力模型和深度增量學(xué)習(xí)的識別方法。
觀察力模型,顧名思義,是讓計(jì)算機(jī)自動(dòng)定位圖像的有意義的區(qū)域,提高檢測精度; 深度學(xué)習(xí)是指計(jì)算機(jī)利用已經(jīng)學(xué)到的知識加速新知識的學(xué)習(xí),通過動(dòng)態(tài)擴(kuò)展,可以幫助檢測新概念。
新模型新算法的力量,使機(jī)器能夠迅速識別圖像、視頻的語義新聞。 彭新隊(duì)近幾年在參加國際權(quán)威評估trecvid的視頻樣本檢索比賽中6次均獲得第一名,在與卡內(nèi)基梅隆大學(xué)、牛津大學(xué)、ibm watson研究中心等參賽隊(duì)伍的競爭中獲勝。 一個(gè)主題是,在464小時(shí)的視頻中快速準(zhǔn)確地找到所有倫敦地鐵的標(biāo)志,彭宇新隊(duì)僅用一秒鐘就獲得了冠軍,獲得了第一名。
在單一媒體新聞的分解和識別上,如何讓機(jī)器像人一樣看待和理解呢?
為了實(shí)現(xiàn)跨媒體新聞融合和一體化分解識別的目的,項(xiàng)目小組首先將數(shù)據(jù)自動(dòng)逐個(gè)發(fā)送到每個(gè)不同媒體類型對應(yīng)的分解識別模塊。 例如,分割視頻鏡頭,提取關(guān)鍵幀,逐一發(fā)送到鏡頭檢索、片段檢索、視頻字幕識別等模塊,將單一媒體的分解結(jié)果進(jìn)行媒體間的語義關(guān)聯(lián)分解,實(shí)現(xiàn)媒體間新聞的語義協(xié)作。 一種常見的做法是建立第三方空之間的交叉媒體關(guān)聯(lián)。 彭宇新說,計(jì)算機(jī)根據(jù)我們教給我們的模型分別提取圖像、視頻、拷貝、音頻的特征,投影在一個(gè)第三方空之間,不同媒體的新聞就可以對話了。
抽絲技術(shù)剝繭,使圖像和視頻新聞像復(fù)制品一樣透明。 我們是以應(yīng)用為目標(biāo)進(jìn)行的,但準(zhǔn)確率、解決速度都經(jīng)過多年的優(yōu)化,現(xiàn)在可以實(shí)用了。 彭新新表示,該技術(shù)不僅支持信息媒體等領(lǐng)域的數(shù)據(jù)管理和檢索,還支持網(wǎng)絡(luò)管理部門分解和監(jiān)測大數(shù)據(jù)。
延長瀏覽
匿名解決:預(yù)期的隱私保護(hù)措施
雖然要打破新聞的控制權(quán)幾乎是不可能的,但是保護(hù)隱私有一個(gè)方便的方法。 郵電大學(xué)教授楊義先的《安全簡史》中有一個(gè)形象的比喻,認(rèn)為數(shù)據(jù)在網(wǎng)絡(luò)上裸奔時(shí),避免被跟蹤的便捷安全手段是捂臉。 這就是所謂的匿名化解決機(jī)制。
根據(jù)客戶隱私保護(hù)的相關(guān)規(guī)定,數(shù)據(jù)公司在銷售數(shù)據(jù)時(shí)必須匿名解決數(shù)據(jù)。 北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所研究員趙東巖說。 然而,為了確定準(zhǔn)確的位置和推送服務(wù),匿名化的解決方案可能被忽略。 它指的是目標(biāo)客戶群的面向身份,而不是發(fā)送給組。 因此,個(gè)性化推送和匿名解決在當(dāng)前技術(shù)中是相互競爭的。
的沖突相比,行業(yè)先行者提出了區(qū)塊鏈的處理思路。 我把那個(gè)叫做身份證。 北京領(lǐng)主科技企業(yè)研究員劉偉泰表示,大數(shù)據(jù)的本質(zhì)是集團(tuán)研究,但集團(tuán)的粒度可以細(xì)化一些,另外,區(qū)塊鏈技術(shù)可以賦予顧客授權(quán)的做法。
不難想象,隨著新技術(shù)的不斷創(chuàng)新,新聞安全方面的技術(shù)突破不斷增加。 也可以用來平衡新聞控制權(quán),而不是挖掘大數(shù)據(jù)。
標(biāo)題:“隱私換便捷?大數(shù)據(jù)發(fā)掘究竟是怎樣的技術(shù)?”
地址:http://www.sxrongzun.com//xwdt/41652.html