近年来,大语言模型(Large Language Models, LLMs)在自然语言处理领域取得了显著进展,展现出强大的语言理解和生成能力。然而,尽管模型规模不断扩大,其在复杂推理任务中的表现仍面临挑战。传统的推理方法,如 Chain-of-Thought(CoT)提示,虽然能够提升模型的推理能力,但往往伴随着冗长的中间步骤,导致生成大量冗余的 token 输出,直接加剧了推理过程中的计算开销,不仅延长了推理时间,也显著增加了推理阶段的资源消耗与经济成本。随着大模型在实际应用中的广泛部署,如何在保证推理性能的同时有效控制 token 使用,已成为提升 LLM 推理效率和实用性的关键问题。
针对当前大语言模型在推理过程中存在的 token 冗余问题,南京大学 iSE 实验室韩廷旭博士生提出了一种基于 Token 预算感知的大模型推理框架,旨在在不显著影响模型准确性的前提下,有效压缩推理过程中的 token 数量,从而提升推理效率、降低推理成本。TALE 的核心理念是在推理过程中引入 " token 预算 " 这一约束机制,引导模型在限定的 token 预算范围内完成有效推理。这种机制不仅可以提升模型对资源约束的适应性,也能促使其生成更加简洁、高效的推理路径。为实现这一目标,TALE 框架提出了两种具体实现方式:基于估计与提示的 TALE-EP(Estimation and Prompting) 以及基于后训练内化token预算感知的 TALE-PT(Post-Training)。
TALE-EP 是一种轻量级、即插即用的基于零样本提示的推理增强方法。TALE-EP 让模型对每个具体问题所需的合理 token 预算进行自我估计,并在推理过程中将该预算信息融入输入提示中,引导模型在不超过预算的前提下生成推理过程。这种方法无需修改模型参数,仅通过提示工程即可实现对 token 生成的动态控制,兼具灵活性与实用性。实验结果显示,TALE-EP 在多个数学推理数据集上显著降低了 token 使用量,平均节省超过 60% 的推理开销,且保持了与传统 CoT 方法相当甚至更优的准确率。
TALE-PT 则通过监督微调 SFT 和偏好优化(DPO)的方式将 token 预算感知内化为模型本身的推理能力。TALE- PT 首先通过搜索算法为每个问题寻找最优 token 预算,并使用该预算生成精炼的推理路径作为目标输出,引导其在未来推理中主动生成更符合预算约束的输出。
TALE 技术的提出为大语言模型推理效率问题提供了全新的解决思路。它通过引入 token 预算机制,在保证模型推理能力的前提下,显著压缩了生成长度,降低了计算与使用成本,适应了现实应用中,诸如边端智能等对资源约束与响应速度的双重需求场景。相关研究成果《 Token-Budget-Aware LLM Reasoning 》已被自然语言处理领域顶级国际会议 Annual Meeting of the Association for Computational Linguistics( ACL 2025,CCF-A类会议 )全文录用为 findings,南京大学为第一单位。
韩廷旭同学由房春荣副教授和陈振宇教授共同指导,主要研究方向为可控模型输出,多次在 ICSE、TOSEM、TIFS 等软件工程和信息安全顶级学术期刊和会议上以第一作者身份发表长篇论文,将在接下来的工作中致力于推动大模型在软件工程与产业应用中的落地,实现面向任务、可控可靠的智能软件系统建设。