报告人:吴超 副教授 南京理工大学
主持人:陈浩
报告时间:2025年10月15日(周三)下午14:00-16:00
报告地点:av电影 九龙湖校区计算机楼137报告厅
报告摘要:随着通用大模型在感知与生成任务上的持续突破,训练与推理成本迅速攀升,算力、能耗与延迟正成为落地部署的核心瓶颈。模型轻量化因此具有重要意义:一方面,它是端侧与边缘部署的前提,决定了是否能在受限的功耗与内存预算下稳定运行;另一方面,轻量化也是数据中心效能提升的关键,可直接带来吞吐与成本的数量级改善。围绕这一目标,汇报人的工作聚焦于三条互补主线:其一,在剪枝/稀疏化方面,构建了从结构化剪枝到低秩分解与稀疏训练的一体化框架,面向注意力与 MLP 等瓶颈部件设计任务感知的重要性评估与恢复策略,确保在大幅压缩下保持分布稳健性与可迁移性;其二,在量化方面,系统研究了 PTQ/QAT、对称/非对称与混合精度等方案,提出面向 Transformer 的通道级校准、误差补偿与蒸馏对齐方法,并结合算子级别的硬件友好实现,显著降低显存占用与算术强度,同时维持主流基准上的精度稳定;其三,面向MoE(混合专家)架构,探索稀疏门控下的高效路由与专家裁剪,提出与量化/剪枝协同的路由蒸馏与负载均衡正则,使 MoE 在保持表达能力的同时具备可部署性。上述方法在视觉与多模态任务中验证了良好的精度–效率权衡,并形成了从算法原型到工程落地的闭环。报告将系统梳理轻量化的基本范式与关键难点,结合汇报人的近期研究与实证结果,总结通用设计原则与实践经验,为面向不同硬件与应用场景的高效大模型提供可复用的技术路径。
报告人简介:吴超,南京理工大学av电影 副教授,获批国家海外引进高层次青年人才项目。香港城市大学工程av电影计算机系博士,美国东北大学博士后,合作导师为王言治教授。主要从事人工智能,体系结构,存储系统以及文件系统相关研究,熟悉人工智能软硬件加速,遥感目标检测,存储芯片架构,操作系统内核,深度强化学习模型设计优化。曾获得香港城市大学杰出学术表现奖励。已在计算机体系结构及EDA领域发表/录用学术论文三十余篇(以第一/通信作者发表CCF A类论文七篇,CSRanking论文两篇),包括多个顶级国际会议和学术期刊, 如DAC,ICCAD,TC,TCAD,USENIX FAST等。担任国际知名会议ASP-DAC、GLVLSI的Session Chair,以及ICCAD、TCE、Journal of Intelligent Systems和IEEE Embedded System Letters等国际知名期刊的评审。