国精产品一区一区三区有限公司杨,国产激情久久久久影院老熟女,国产裸体裸拍在线观看,国产人妻熟女在线观看,国产美女视频国产视视频

當AI面臨瓶頸,安全合規(guī)的數(shù)據(jù)生態(tài)該如何構建

2023-05-29 13:50:53    來源:商業(yè)觀察網(wǎng)

自從 ChatGPT 橫空出世后,一石激起千層浪,人工智能也正在從感知理解走向生成創(chuàng)造,這是一個關鍵里程碑。生成式大模型完成了從0到1的飛躍,并且已成為未來發(fā)展趨勢,推動AI邁向通用人工智能。


(資料圖片僅供參考)

在ChatGPT發(fā)布后的短短4個月時間里,已經(jīng)有至少30個國內(nèi)研發(fā)機構與企業(yè)紛紛推出自己品牌的大模型與相關產(chǎn)品。例如百度的“文心一言”、阿里的“通義千問”、科大訊飛(002230)的“星火認知大模型”、京東的“言犀產(chǎn)業(yè)大模型”等等。

但是2023年4月,馬斯克突然與1000多名人工智能專家和行業(yè)高管在公開信中呼吁:“ChatGPT等AI研究室需暫停研發(fā)6個月!”給出的理由是“只有當我們確信它們的影響是積極的,并且它們的風險是可控的時候,才能開發(fā)更強大的人工智能系統(tǒng)?!?/p>

聚焦大模型的“隱患”

事實上,對大模型的隱憂還不僅僅限于風險不可控,一項來自 Epoch AI Research 團隊的研究拋出了一個殘酷的現(xiàn)實:目前,公域中高質量的語言數(shù)據(jù)存量將在 2026 年耗盡,低質量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量也將在未來20年中逐步耗盡。這意味著,如果數(shù)據(jù)效率沒有顯著提高或有新的數(shù)據(jù)源可用,那么到 2040 年,模型的規(guī)模增長將放緩。而如何合法合規(guī)地利用手機等終端設備上的私域數(shù)據(jù),將是解決大模型訓練數(shù)據(jù)不足問題的關鍵。

即便是現(xiàn)在的大模型還沒涉及私域數(shù)據(jù)領域,但有相關政策法規(guī)已經(jīng)開始進行規(guī)范。 4月11日,國家網(wǎng)信辦就《生成式人工智能服務管理辦法(征求意見稿)》公開征求意見,在責任和義務方面,尤為強調數(shù)據(jù)合法性與對個人數(shù)據(jù)和信息的保護。其中提到:提供者應當對生成式人工智能產(chǎn)品的預訓練數(shù)據(jù)、優(yōu)化訓練數(shù)據(jù)來源的合法性負責;禁止非法獲取、披露、利用個人信息和隱私、商業(yè)秘密。

由此可見,數(shù)據(jù)隱私之憂已經(jīng)成為全行業(yè)的共識。而除了數(shù)據(jù)隱私的憂慮之外,由于大模型通常需要消耗大量的算力和數(shù)據(jù),也就是說只有少數(shù)大公司擁有足夠的資源來訓練和部署這些模型。這可能導致市場上的壟斷現(xiàn)象,限制了中小企業(yè)參與機器學習和AI應用領域的機會,導致壟斷和不公平的產(chǎn)生。在云服務器上運行的大模型還會面臨安全攻擊風險。惡意攻擊者很可能通過攻擊云服務器來竊取模型及其數(shù)據(jù),或者反向工程模型參數(shù)以訓練新模型。

數(shù)據(jù)隱私泄露、安全漏洞、市場壟斷、不公平性、公域數(shù)據(jù)即將耗盡等等大模型發(fā)展所面臨的“隱患”該如何解決?

分散的小模型協(xié)作會成為大模型未來發(fā)展趨勢嗎?

4月18日,OpenAI CEO Sam Altman在討論大模型發(fā)展的趨勢的時候認為,讓模型變得更大將不會進一步帶來新進展?!拔艺J為我們正處于將模型做大這一時代的盡頭。我們將以其他方式使它們變得更好?!蔽磥砟P蛥?shù)應該向更小的方向發(fā)展,或者以多個小模型協(xié)作的方式工作。

“讓大模型變小”已經(jīng)成為眾多研究者非常感興趣的一條路,大家先后做了很多嘗試,先是 Meta 開源了 LLaMA,讓學界和小公司可以訓練自己的模型。隨后斯坦福研究者啟動了 Lamini,為每個開發(fā)者提供了從 GPT-3 到 ChatGPT 的快速調優(yōu)方案。

最近由 TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陳天奇等多位研究者共同開發(fā)的開源新項目MLC LLM面世,希望實現(xiàn)在個人手機和電腦等各類設備平臺上編譯運行大語言模型。

今年4月,隱私計算聯(lián)邦學習開源平臺FATE (Federated AI Technology Enabler)正式發(fā)布聯(lián)邦大模型FATE-LLM功能模塊,同樣是“小模型協(xié)作”的思路,F(xiàn)ATE-LLM則是通過將聯(lián)邦學習和大模型結合,在各參與方的敏感數(shù)據(jù)不出本地域的前提下,根據(jù)各方實際數(shù)據(jù)量進行算力投入,聯(lián)合進行大模型訓練。

基于此技術方案,多個機構可以通過FATE內(nèi)置的預訓練模型進行橫向聯(lián)邦,利用各自隱私數(shù)據(jù)進行聯(lián)邦大模型微調,從而提升自身大模型應用的效果。聯(lián)邦大模型不僅主要解決的是大模型訓練階段的隱私保護問題,未來還將研究在使用大模型的過程中如何保護用戶的隱私。

這種用小模型聯(lián)動大模型的方式,也很好地詮釋了小模型協(xié)作的精髓。聯(lián)邦學習作為一種分布式機器學習新范式,其“數(shù)據(jù)不動模型動,數(shù)據(jù)可用不可見”的特點使得各參與方可以在保護各自數(shù)據(jù)安全與用戶隱私的前提下,進行AI協(xié)作,打破數(shù)據(jù)孤島。

也正是因為聯(lián)邦學習的這一屬性,為未來大模型的發(fā)展提供新的思路:聯(lián)邦學習與大模型結合,構建安全合規(guī)的數(shù)據(jù)生態(tài)大陸。

近期聯(lián)邦大模型對現(xiàn)有大模型的支持已經(jīng)在實操層面上有了很多新進展,F(xiàn)ATE開源社區(qū)TSC Maintainer、開發(fā)專委會核心成員范濤告訴我們:“目前的FATE-LLM可以提供對主流大模型的支持,4月發(fā)布了聯(lián)邦大模型FATE-LLM對GPT-2等大模型的支持,5月發(fā)布了對清華GLM大模型的支持?!?/p>

聯(lián)邦大模型,也有需要面對的“原生困境”

和大模型面臨的隱憂類似,即便是以大化小,聯(lián)邦大模型更根本地解決了大模型面臨的一些問題,但是聯(lián)邦大模型依然有著自己要解決的“原生困境”。

公平性是否能夠得到保障?數(shù)據(jù)隱私性是否能夠有效保護?規(guī)模大小不一的異構模型集如何統(tǒng)一調配訓練?這些也給聯(lián)邦大模型的研究者們提出了難題。從2018年開始,香港科技大學講席教授楊強和其團隊始終致力于聯(lián)邦學習的研究,如今,面對聯(lián)邦大模型可能遇到的技術難題,楊強教授認為,想要在多個維度實現(xiàn)“既要,又要”,那么就必須在“平衡”上做文章。

面對聯(lián)邦大模型是如何通過大大小小的分布式模型協(xié)作來解決私域數(shù)據(jù)的安全性問題,楊強教授認為:“未來,人工智能模型一定會成為我們貼身的人工智能助理,這就要求人工智能對個人的需求有更強的適配能力,更好的理解能力,這個時候,就會用到私域數(shù)據(jù),包括個人的生理的數(shù)據(jù),物聯(lián)網(wǎng)數(shù)據(jù)以及一些跟個人非常強相關的數(shù)據(jù)。使用這些數(shù)據(jù),一方面會讓AI給我們提供更貼身的、更個性化的服務,但另一方面在用這些數(shù)據(jù)的時候也面臨隱私保護的需求。聯(lián)邦大模型針對這個問題提出的解決方案可以做到很好的平衡:一方面數(shù)據(jù)是分布的,另一方面,我們的這些大大小小的模型有的是分布式的,有的是個人化的、定制化的,他們一起來對聯(lián)邦大模型總體產(chǎn)生性能的提升、效率的提升以及安全隱私的保護。這樣,我們一方面能夠享受到大數(shù)據(jù)帶來的好處,另一方面我們還是能夠安心的,放心地使用這些模型,不至于因為使用這些模型就泄露了不該泄露的數(shù)據(jù)?!?/p>

然而,即便是“為解決數(shù)據(jù)隱私問題而生”的聯(lián)邦大模型,自身依然有要面對的安全性難題。聯(lián)邦學習中數(shù)據(jù)和模型的安全性到底該如何保障呢?微眾銀行人工智能首席科學家范力欣告訴我們:“我們針對竊取數(shù)據(jù)和模型,以及破壞數(shù)據(jù)和模型兩種安全隱患已經(jīng)有相應的防御措施。針對數(shù)據(jù)竊取,我們通過加密數(shù)據(jù)來進行防御;針對模型竊取則是通過水印機制來進行制約。目前我們已經(jīng)有一套技術方案能夠支撐和有效的管理、追蹤整個模型的全生命周期的合法使用,這同樣對模型的知識產(chǎn)權進行了很好的保護。另外,針對數(shù)據(jù)攻擊、數(shù)據(jù)投毒這一部分行為,我們通過對模型的鎖定,對參數(shù)進行鎖定,對數(shù)據(jù)樣本進行鎖定的方式去防御數(shù)據(jù)投毒?!?/p>

但在諸多的大模型發(fā)展的隱憂中,不僅僅有私域數(shù)據(jù)的隱私保護問題,還有樣本分布不均衡導致模型本身的公平性問題,這該如何解決? 微眾銀行人工智能首席科學家范力欣告訴我們:“樣本分布不均衡導致模型不公平性的問題其實早就提出來,在大模型之前或者聯(lián)邦學習之前已經(jīng)提出來。這個問題的基本的解決方案是有整體思路的:在訓練模型時我們不僅僅是提升模型性能,而是對公平性、可解釋性、魯棒性等一系列跟倫理相關的目標都作為優(yōu)化的約束條件或者優(yōu)化的多目標一起來參與學習訓練?!?/p>

這種思路在理論上提出了“多目標聯(lián)邦學習優(yōu)化”的“可信聯(lián)邦學習”技術框架。在實際應用中,需要用相應的算法去一一衡量這些不同目標之間的平衡。

范力欣說:“我們模型性能要好,這是一個基本要求,但同時我們要保證它的公平性、可解釋性要做到可度量的,并且跟模型性能一起來進行優(yōu)化。比如我們聯(lián)合多家機構承擔的國家科技部科技創(chuàng)新2030-‘新一代人工智能’重大項目里面就應用了這樣的解決方案,效果顯著。再比如在與北航童永昕教授團隊合作的聯(lián)邦網(wǎng)約車調度中,通過設計合理的激勵機制,使得司機完成任務的積極性大為提高,同時司機間的收入分布也更加均衡?!?/p>

聯(lián)邦大模型從誕生開始就備受矚目,其未來的應用也被業(yè)界普遍看好,聯(lián)邦大模型未來將有機會重塑金融、零售、工業(yè)等多行業(yè)的數(shù)字化形態(tài)。相關應用場景包括在金融領域的智能客服、內(nèi)容風控、金融資訊情感分析、文本意圖識別、營銷場景智能創(chuàng)意生成和優(yōu)化等。盡管機構自身擁有的數(shù)據(jù)量和算力可能不足,卻仍然能夠通過發(fā)揮大模型的優(yōu)勢,安全合規(guī)地提升客服、營銷、風控的效果。

人工智能正在經(jīng)歷從計算、感知到認知的發(fā)展階段。聯(lián)邦學習、可信聯(lián)邦學習以及聯(lián)邦學習 大模型,在保證安全、高效的要求下,進一步滿足了可解釋性和普惠性等人工智能倫理的核心命題,將看似為難的“既要,又要”,變成了可以將之平衡的解決方案,這也將為人工智能生態(tài)的良性、可持續(xù)發(fā)展提供助力。

(免責聲明:此文內(nèi)容為廣告,相關素材由廣告主提供,廣告主對本廣告內(nèi)容的真實性負責。本網(wǎng)發(fā)布目的在于傳遞更多信息,并不代表本網(wǎng)贊同其觀點和對其真實性負責,請自行核實相關內(nèi)容。廣告內(nèi)容僅供讀者參考。)

(責任編輯:張曉波 )

關鍵詞:

上一篇:Today at Apple環(huán)保系列課程收官 用多種創(chuàng)意方式為地球發(fā)聲|當前消息
下一篇:最后一頁

熱點話題

熱點推薦

頭條

?