大语言模型中国HS编码自动化推荐应用系统原型 | 项目资料库 | Logistics and Supply Chain MultiTech R&D Centre


项目简介	本项目旨在研究如何利用预训练的大型语言模型（LLMs）来建立一个自动化的中国HS码推荐系统。准确地自动化 HS 代码分配可以显著减少关税损失、合规错误和贸易延误。该应用程式可以使涉及跨境贸易的海关当局、托运人和经纪人受益。项目可以提升作为香港与中国内地之间贸易中介的本地中小企业的竞争能力。该项目与政府倡议相关，旨在提升本地物流和中小企业在进出口业务中的竞争力，特别是根据行政长官2022年政策演说（第44 、47和49节），强调香港作为「国际贸易中心」、「国际航运中心」和智能物流区域玩家的角色。过去，HS编码参考描述的非结构化性质使传统自动化方法繁琐而困难。在测试LLMs处理细微查询、非结构化文本、上下文和其他信息以进行检索增强时，我们发现某些流程使LLMs 能够通过简短的用户输入生成准确的HS码。目前基于初步实验测试, 最佳方法涉及逐步（每次2位数）的检索工作流程，通过上下文文本块增强，与标准机器学习分类方法相比，前四位数的准确性要高得多 (>92%)。透过查询LLM，此类上下文文本块的决策规则也与2 022年HS编码解释（中国海关，第1卷，第1-3章）的90％以上匹配。本项目提出测试各种提示技术、检索增强方法，研究多个LLMs（包括中国LLMs），以找到最佳表现者，优化 HS码推导的流程准确性。为了使HS 程式码推荐工作流程自动化并作为服务运行，我们建议对原型进行以下工程开发：[1] 将前缀特里树作为更有效的资料结构来编码分层HS 程式码，以减少多层检索回应时间[ 2] 考虑到 LLM 的上下文视窗大小（~4000 个可用标记）有限，向量资料库可以透过更有效地储存和检索资料来帮助减少回应时间。最后将建立聊天服务API，方便使用者互动。除了满足准确性和回应时间以及可快速更新的目标外，我们将在总结研究报告中，报告优化的处理架构以及三个大语言模型的性能和 HS 代码推荐限制的比较。

本项目旨在研究如何利用预训练的大型语言模型（LLMs）来建立一个自动化的中国HS码推荐系统。准确地自动化 HS 代码分配可以显著减少关税损失、合规错误和贸易延误。该应用程式可以使涉及跨境贸易的海关当局、托运人和经纪人受益。项目可以提升作为香港与中国内地之间贸易中介的本地中小企业的竞争能力。该项目与政府倡议相关，旨在提升本地物流和中小企业在进出口业务中的竞争力，特别是根据行政长官2022年政策演说（第44 、47和49节），强调香港作为「国际贸易中心」、「国际航运中心」和智能物流区域玩家的角色。过去，HS编码参考描述的非结构化性质使传统自动化方法繁琐而困难。在测试LLMs处理细微查询、非结构化文本、上下文和其他信息以进行检索增强时，我们发现某些流程使LLMs 能够通过简短的用户输入生成准确的HS码。目前基于初步实验测试, 最佳方法涉及逐步（每次2位数）的检索工作流程，通过上下文文本块增强，与标准机器学习分类方法相比，前四位数的准确性要高得多 (>92%)。透过查询LLM，此类上下文文本块的决策规则也与2 022年HS编码解释（中国海关，第1卷，第1-3章）的90％以上匹配。本项目提出测试各种提示技术、检索增强方法，研究多个LLMs（包括中国LLMs），以找到最佳表现者，优化 HS码推导的流程准确性。为了使HS 程式码推荐工作流程自动化并作为服务运行，我们建议对原型进行以下工程开发：[1] 将前缀特里树作为更有效的资料结构来编码分层HS 程式码，以减少多层检索回应时间[ 2] 考虑到 LLM 的上下文视窗大小（~4000 个可用标记）有限，向量资料库可以透过更有效地储存和检索资料来帮助减少回应时间。最后将建立聊天服务API，方便使用者互动。除了满足准确性和回应时间以及可快速更新的目标外，我们将在总结研究报告中，报告优化的处理架构以及三个大语言模型的性能和 HS 代码推荐限制的比较。


项目编号	ITP/049/23LP
研发单位	LSCM 研发中心
项目统筹员	唐志鸿博士
资助金额	港币二百七十一万
项目週期	2023年12月1日 - 2025年5月31日