摘要:随着大语言模型在各类生成任务中的广泛应用, 其高计算负载对底层硬件平台提出了更高的性能要求. RISC-V 作为一种新兴的开源指令集架构, 凭借其良好的可定制性和扩展性, 展现出巨大的发展潜力. 然而在部署主流大模型方面, RISC-V平台仍面临生态不完善、算力受限等诸多挑战. 本文提出一种基于RISC-V平台的大语言模型推理加速方法, 通过构建寒武纪MLU370加速卡的异构运行环境, 成功完成了设备驱动移植、基础库编译与PyTorch框架适配. 在此基础上, 进一步设计了一种轻量级多线程优化策略, 提升注意力机制等核心算子在多核体系结构下的执行效率. 实验结果表明, 在SG2042+MLU370-S4平台上部署多个主流大模型时, 该方法在不依赖其他优化策略下, 实现最高达52.3倍的端到端推理加速, 验证了其在RISC-V异构平台上的可行性与通用性.