一种基于序列依赖层级传播机制的大模型优化方法及系统

专利号	2025105411681	申请日	2025-04-28	专利名称	一种基于序列依赖层级传播机制的大模型优化方法及系统
授权日	2025-09-02	专利权人	山东大学	发明人	史玉良;李武;程林;管永明;吕梁;王新军;孔凡玉;陈志勇
主分类号	G06F9/50	关键词		应用领域
摘要	本申请提供了一种基于序列依赖层级传播机制的大模型优化方法及系统，涉及大语言模型技术领域，大模型包括表示学习模块和下游任务模块，表示学习模块的具体步骤为：对输入的文本进行自然语言处理，得到词向量序列；基于序列依赖层级传播机制，将词向量序列进行均匀分块，分别使用片段间与片段内的注意力机制，生成Key矩阵和Value矩阵；利用Key矩阵和Value矩阵，进行Transformer的注意力机制计算，得到最终的序列表示，作为下游任务模块的输入。本发明引入序列依赖层级传播机制，将序列划分为多个块，并在这些块内和块间有效学习序列依赖关系，从而显著降低了传统自注意力机制的计算复杂度，并有效减少了内存占用。
创新点
技术分类		标签		战兴产业	新一代信息技术互联网与云计算、大数据服务
运营方式				合作方式
联系人		联系电话		电子邮箱
详细说明