大語言模型中國HS編碼自動化推薦應用系統原型 | 項目資料庫 | Logistics and Supply Chain MultiTech R&D Centre


項目簡介	本項目旨在研究如何利用預訓練的大型語言模型（LLMs）來建立一個自動化的中國HS碼推薦系統。準確地自動化 HS 代碼分配可以顯著減少關稅損失、合規錯誤和貿易延誤。該應用程式可以使涉及跨境貿易的海關當局、托運人和經紀人受益。項目可以提升作為香港與中國內地之間貿易中介的本地中小企業的競爭能力。該項目與政府倡議相關，旨在提升本地物流和中小企業在進出口業務中的競爭力，特別是根據行政長官2022年政策演說（第44 、47和49節），強調香港作為「國際貿易中心」、「國際航運中心」和智能物流區域玩家的角色。過去，HS編碼參考描述的非結構化性質使傳統自動化方法繁瑣而困難。在測試LLMs處理細微查詢、非結構化文本、上下文和其他信息以進行檢索增強時，我們發現某些流程使LLMs 能夠通過簡短的用戶輸入生成準確的HS碼。目前基於初步實驗測試, 最佳方法涉及逐步（每次2位數）的檢索工作流程，通過上下文文本塊增強，與標准機器學習分類方法相比，前四位數的準確性要高得多 (>92%)。透過查詢LLM，此類上下文文本塊的決策規則也與2 022年HS編碼解釋（中國海關，第1卷，第1-3章）的90％以上匹配。本項目提出測試各種提示技術、檢索增強方法，研究多個LLMs（包括中國LLMs），以找到最佳表現者，優化 HS碼推導的流程準確性。為了使HS 程式碼推薦工作流程自動化並作為服務運行，我們建議對原型進行以下工程開發：[1] 將前綴特里樹作為更有效的資料結構來編碼分層HS 程式碼，以減少多層檢索回應時間[ 2] 考慮到 LLM 的上下文視窗大小（~4000 個可用標記）有限，向量資料庫可以透過更有效地儲存和檢索資料來幫助減少回應時間。最後將建立聊天服務API，方便使用者互動。除了滿足準確性和回應時間以及可快速更新的目標外，我們將在總結研究報告中，報告優化的處理架構以及三個大語言模型的性能和 HS 代碼推薦限制的比較。

本項目旨在研究如何利用預訓練的大型語言模型（LLMs）來建立一個自動化的中國HS碼推薦系統。準確地自動化 HS 代碼分配可以顯著減少關稅損失、合規錯誤和貿易延誤。該應用程式可以使涉及跨境貿易的海關當局、托運人和經紀人受益。項目可以提升作為香港與中國內地之間貿易中介的本地中小企業的競爭能力。該項目與政府倡議相關，旨在提升本地物流和中小企業在進出口業務中的競爭力，特別是根據行政長官2022年政策演說（第44 、47和49節），強調香港作為「國際貿易中心」、「國際航運中心」和智能物流區域玩家的角色。過去，HS編碼參考描述的非結構化性質使傳統自動化方法繁瑣而困難。在測試LLMs處理細微查詢、非結構化文本、上下文和其他信息以進行檢索增強時，我們發現某些流程使LLMs 能夠通過簡短的用戶輸入生成準確的HS碼。目前基於初步實驗測試, 最佳方法涉及逐步（每次2位數）的檢索工作流程，通過上下文文本塊增強，與標准機器學習分類方法相比，前四位數的準確性要高得多 (>92%)。透過查詢LLM，此類上下文文本塊的決策規則也與2 022年HS編碼解釋（中國海關，第1卷，第1-3章）的90％以上匹配。本項目提出測試各種提示技術、檢索增強方法，研究多個LLMs（包括中國LLMs），以找到最佳表現者，優化 HS碼推導的流程準確性。為了使HS 程式碼推薦工作流程自動化並作為服務運行，我們建議對原型進行以下工程開發：[1] 將前綴特里樹作為更有效的資料結構來編碼分層HS 程式碼，以減少多層檢索回應時間[ 2] 考慮到 LLM 的上下文視窗大小（~4000 個可用標記）有限，向量資料庫可以透過更有效地儲存和檢索資料來幫助減少回應時間。最後將建立聊天服務API，方便使用者互動。除了滿足準確性和回應時間以及可快速更新的目標外，我們將在總結研究報告中，報告優化的處理架構以及三個大語言模型的性能和 HS 代碼推薦限制的比較。


項目編號	ITP/049/23LP
研發單位	LSCM研發中心
項目統籌員	唐志鴻博士
資助金額	港幣二百七十一萬
項目週期	2023年12月1日 - 2025年5月31日