近日,由香港中文大學(xué)(深圳)、上海交通大學(xué)、上海財(cái)經(jīng)大學(xué)、杉數(shù)科技等聯(lián)合研發(fā)的ORLM智能決策大模型相關(guān)成果被運(yùn)籌學(xué)領(lǐng)域國(guó)際頂級(jí)期刊《運(yùn)籌學(xué)》(Operations Research)正式接收,這是該期刊創(chuàng)刊70余年來(lái)首次收錄關(guān)于大語(yǔ)言模型的研究論文。

在此論文中,港中大(深圳)團(tuán)隊(duì)參與提出的ORLM模型展現(xiàn)出顯著的工程應(yīng)用價(jià)值:在決策問(wèn)題的建模環(huán)節(jié),該模型能夠大幅提升工程師的工作效率,可以輔助工程師將決策問(wèn)題中建模環(huán)節(jié)效率大大提升,同時(shí)較其他大模型提升10%-25%的準(zhǔn)確率,這將顯著提升工業(yè)場(chǎng)景中的人機(jī)協(xié)作效率。此次研究成果實(shí)現(xiàn)了開(kāi)源大語(yǔ)言模型在自動(dòng)化優(yōu)化建模領(lǐng)域的重要突破,不僅填補(bǔ)了該方向的學(xué)術(shù)空白,更為企業(yè)決策優(yōu)化提供了可落地的技術(shù)路徑。

港中大(深圳)團(tuán)隊(duì)核心貢獻(xiàn)

香港中文大學(xué)(深圳)科研團(tuán)隊(duì)在項(xiàng)目中發(fā)揮了重要作用,其中包括:

??共同第一作者:計(jì)算機(jī)與信息工程博士生唐正陽(yáng),負(fù)責(zé)框架設(shè)計(jì)和實(shí)驗(yàn)驗(yàn)證;

??通訊作者:數(shù)據(jù)科學(xué)學(xué)院王本友教授和王子卓教授。

三位研究者在優(yōu)化決策、大語(yǔ)言模型訓(xùn)練與數(shù)學(xué)推理方面各展所長(zhǎng),充分體現(xiàn)了港中大(深圳)在人工智能與運(yùn)籌學(xué)交叉領(lǐng)域的研究實(shí)力,也再次展示了大學(xué)在前沿科技領(lǐng)域的創(chuàng)新能力和國(guó)際影響力。

?

研究背景與意義

傳統(tǒng)運(yùn)籌學(xué)的瓶頸與大模型解決方案

運(yùn)籌學(xué)作為一門(mén)優(yōu)化決策的科學(xué),廣泛應(yīng)用于工業(yè)、物流、金融等領(lǐng)域。其中,優(yōu)化建模與求解技術(shù)是運(yùn)籌學(xué)實(shí)際應(yīng)用的核心環(huán)節(jié)。然而,傳統(tǒng)運(yùn)籌優(yōu)化方法長(zhǎng)期面臨兩大挑戰(zhàn):

??高度依賴(lài)專(zhuān)家經(jīng)驗(yàn),存在建模周期長(zhǎng)、泛化能力弱等瓶頸;

??現(xiàn)有基于閉源大模型(如GPT-4)的解決方案雖能提升效率,卻面臨數(shù)據(jù)隱私泄露、技術(shù)壟斷等問(wèn)題。

此研究中所提出的ORLM為解決這些行業(yè)痛點(diǎn)提供了創(chuàng)新方案。該研究首次提出了一種創(chuàng)新的、可定制化的開(kāi)源大語(yǔ)言模型訓(xùn)練框架OR-INSTRUCT,專(zhuān)為優(yōu)化建模任務(wù)設(shè)計(jì)。該框架支持對(duì)開(kāi)源大模型進(jìn)行領(lǐng)域定制訓(xùn)練,顯著提升了模型在自動(dòng)化建模與求解方面的能力。在制造、物流、電商與零售等多個(gè)行業(yè)測(cè)試中展現(xiàn)出卓越性能:

效率、精度與信息安全全面提升

??決策效率提升:輔助工程師平均縮短2小時(shí)決策時(shí)間;

??決策質(zhì)量?jī)?yōu)化:使決策準(zhǔn)確率提升10%-25%;

??數(shù)據(jù)安全保障:通過(guò)本地化部署,解決企業(yè)數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)的定制難題。

?

技術(shù)創(chuàng)新與突破

從數(shù)據(jù)生產(chǎn)到場(chǎng)景落地的完整閉環(huán)

方法上,聯(lián)合研究團(tuán)隊(duì)構(gòu)建了從數(shù)據(jù)生產(chǎn)、模型訓(xùn)練到場(chǎng)景落地的完整技術(shù)閉環(huán),主要包括三大技術(shù)創(chuàng)新:

創(chuàng)新的OR-INSTRUCT框架

研究團(tuán)隊(duì)設(shè)計(jì)了一種半自動(dòng)化的數(shù)據(jù)生成方法——OR-Instruct,結(jié)合擴(kuò)展策略(Expansion)與增強(qiáng)策略(Augmentation),有效緩解了高質(zhì)量標(biāo)注數(shù)據(jù)匱乏的問(wèn)題,從600余條基礎(chǔ)數(shù)據(jù)出發(fā)共合成30,000余條高質(zhì)量訓(xùn)練樣本。

首個(gè)工業(yè)級(jí)優(yōu)化建?;鶞?zhǔn)數(shù)據(jù)集

團(tuán)隊(duì)構(gòu)建了IndustryOR基準(zhǔn)數(shù)據(jù)集,涵蓋13個(gè)行業(yè)與5類(lèi)典型問(wèn)題(包括線(xiàn)性、整數(shù)、混合整數(shù)、非線(xiàn)性及其他),并設(shè)有多級(jí)難度劃分。相比國(guó)際已有數(shù)據(jù)集,IndustryOR在多樣性與現(xiàn)實(shí)性方面具有顯著優(yōu)勢(shì)。

開(kāi)源模型系列“ORLMs”

實(shí)驗(yàn)結(jié)果表明,開(kāi)源模型系列“ORLMs”在多個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集上的表現(xiàn)均顯著優(yōu)于如GPT-4等的主流閉源模型及其他開(kāi)源大模型,達(dá)到了當(dāng)前該領(lǐng)域的最先進(jìn)水平。

?

學(xué)生作者介紹

唐正陽(yáng)

港中大(深圳)計(jì)算機(jī)與信息工程專(zhuān)業(yè)博士研究生

研究領(lǐng)域:

自然語(yǔ)言處理、信息檢索、應(yīng)用機(jī)器學(xué)習(xí)

個(gè)人簡(jiǎn)介:

唐正陽(yáng)現(xiàn)為香港中文大學(xué)(深圳)計(jì)算機(jī)與信息工程專(zhuān)業(yè)博士研究生,師從王本友教授。目前他在阿里巴巴通義千問(wèn)團(tuán)隊(duì)實(shí)習(xí),此前曾在微軟亞洲研究院、騰訊QQ瀏覽器搜索以及阿里巴巴夸克搜索等多個(gè)知名團(tuán)隊(duì)積累了豐富的實(shí)習(xí)與工作經(jīng)驗(yàn)。

他的研究專(zhuān)注于提升大語(yǔ)言模型在數(shù)學(xué)推理領(lǐng)域的能力,涵蓋自然語(yǔ)言推理、優(yōu)化建模、工具集成推理以及自我進(jìn)化評(píng)估等創(chuàng)新方向,已在ICML、ICLR、Operations Research、COLING和KDD等頂級(jí)機(jī)器學(xué)習(xí)會(huì)議、Workshop和期刊上發(fā)表多篇論文。

他開(kāi)發(fā)的算法已成功應(yīng)用于多個(gè)領(lǐng)域,包括在2022年MSMAROCO段落排序權(quán)威榜單中名列第三,以及在2022全球語(yǔ)言與智能挑戰(zhàn)賽中斬獲亞軍。

?

教授介紹

王本友

港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院 助理教授

研究領(lǐng)域:

自然語(yǔ)言處理、信息檢索、應(yīng)用機(jī)器學(xué)習(xí)

個(gè)人簡(jiǎn)介:

王本友教授于2022年在意大利帕多瓦大學(xué)取得博士學(xué)位(受歐盟瑪麗居里獎(jiǎng)學(xué)金資助),曾在丹麥哥本哈根大學(xué)、加拿大蒙特利爾大學(xué)、荷蘭阿姆斯特丹大學(xué)、華為諾亞方舟實(shí)驗(yàn)室、中國(guó)科學(xué)院理論物理所、社科院語(yǔ)言所交流訪(fǎng)問(wèn)。王教授的主要研究方向?yàn)榇竽P蛻?yīng)用、多模態(tài)大語(yǔ)言模型、AI4Math和Human-Agent Interaction。他曾四次獲得了會(huì)議最佳論文或提名獎(jiǎng),包括CCF A類(lèi)會(huì)議SIGIR 2017的最佳論文提名獎(jiǎng)、CCF B類(lèi)會(huì)議NAACL 2019最佳可解釋NLP論文,CCF C類(lèi)會(huì)議NLPCC 2022的最佳論文和ICLR 2025 Financial AI最佳論文。他還獲得了華為火花獎(jiǎng)、騰訊犀牛鳥(niǎo)項(xiàng)目、滴滴蓋亞學(xué)者項(xiàng)目和華為AI百校計(jì)劃。團(tuán)隊(duì)開(kāi)發(fā)了醫(yī)療大模型華佗GPT等多個(gè)大模型,相關(guān)工作得到了Nature、金融時(shí)報(bào)(Financial Times)、CCTV、環(huán)球時(shí)報(bào)、深圳衛(wèi)視、南方都市報(bào)等采訪(fǎng)和報(bào)道。

?

王子卓

港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院教授、副院長(zhǎng)(教學(xué))

研究領(lǐng)域:

隨機(jī)和魯棒優(yōu)化、數(shù)據(jù)驅(qū)動(dòng)決策問(wèn)題、定價(jià)和收益管理

個(gè)人簡(jiǎn)介:

王子卓博士現(xiàn)為數(shù)據(jù)科學(xué)學(xué)院教授、副院長(zhǎng)(教學(xué))。王子卓教授于2007年本科畢業(yè)于清華大學(xué)數(shù)學(xué)與應(yīng)用數(shù)學(xué)系,2011年獲得斯坦福大學(xué)金融數(shù)學(xué)碩士學(xué)位,2012年獲斯坦福大學(xué)管理科學(xué)與工程博士學(xué)位。王子卓曾任職明尼蘇達(dá)大學(xué)工業(yè)與系統(tǒng)工程系助理教授、副教授。王子卓教授現(xiàn)擔(dān)任廣東省人工智能數(shù)理基礎(chǔ)實(shí)驗(yàn)室主任。

王子卓教授的主要研究方向?yàn)樵诰€(xiàn)機(jī)器學(xué)習(xí)及收益與運(yùn)營(yíng)管理。在機(jī)器學(xué)習(xí)方面,王子卓教授在在線(xiàn)學(xué)習(xí)方面做了開(kāi)創(chuàng)性的工作,對(duì)在線(xiàn)線(xiàn)性規(guī)劃、在線(xiàn)凸規(guī)劃問(wèn)題中獲得了開(kāi)創(chuàng)性的結(jié)果。在收益管理方面,王子卓教授對(duì)消費(fèi)者行為,商品定價(jià)和市場(chǎng)量化營(yíng)銷(xiāo)有著深入研究。他在運(yùn)籌學(xué)和管理科學(xué)國(guó)際頂尖雜志上發(fā)表過(guò)超過(guò)60篇文章,在國(guó)內(nèi)國(guó)際會(huì)議上多次應(yīng)邀進(jìn)行報(bào)告,并擔(dān)任Management Science、Operations Research、M&SOM、POMS等頂級(jí)管理科學(xué)雜志編委,并且獲得多項(xiàng)學(xué)術(shù)獎(jiǎng)項(xiàng)。王子卓教授曾經(jīng)或正在主持包括來(lái)自中國(guó)國(guó)家自然科學(xué)基金、美國(guó)國(guó)家自然基金等多項(xiàng)研究項(xiàng)目,總金額超千萬(wàn)元人民幣。

王子卓教授在工業(yè)界有著豐富的經(jīng)驗(yàn),曾參與IBM定價(jià)項(xiàng)目,也曾為希捷、美國(guó)運(yùn)通等做過(guò)項(xiàng)目咨詢(xún),也曾在華爾街量化基金擔(dān)任過(guò)研究員。2016年起,王子卓與他人共同創(chuàng)立杉數(shù)科技并擔(dān)任CTO,過(guò)去九年在國(guó)內(nèi)為超百家企業(yè)做智能決策方面的咨詢(xún)與服務(wù),客戶(hù)包括京東、順豐、滴滴、華為、南航等國(guó)內(nèi)領(lǐng)頭企業(yè)。

?

港中大(深圳)數(shù)據(jù)科學(xué)學(xué)院介紹

數(shù)據(jù)科學(xué)學(xué)院是香港中文大學(xué)(深圳)人工智能的科研與教學(xué)基地,致力于為學(xué)校提供包括計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、大數(shù)據(jù)科學(xué)等在內(nèi)的人工智能基礎(chǔ)教育。學(xué)院現(xiàn)有90余位來(lái)自世界各地的全職教授,匯聚了多位國(guó)際知名學(xué)者,超過(guò)35%的全職教授為院士、會(huì)士或全球頂尖科學(xué)家。這些學(xué)者在機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等前沿領(lǐng)域具有卓越的學(xué)術(shù)成就與科研貢獻(xiàn)。作為學(xué)校在人工智能領(lǐng)域的重要支柱,數(shù)據(jù)科學(xué)學(xué)院不斷推動(dòng)技術(shù)創(chuàng)新與跨學(xué)科合作,為培養(yǎng)具備全球視野的人工智能人才提供了堅(jiān)實(shí)的基礎(chǔ)。