科学中国人|科学中国人官方网站|科学中国人杂志社-杂志

以强化学习“利剑” 破复杂控制之门

来源：发布时间：2025-11-28

——记香港大学数据与系统工程系助理教授陈佳玉

黄雪霜徐艳慧

　　人工智能与高端工程交叉融合创新的年代，当可控核聚变装置需精准驾驭“像太阳一样炽热”的等离子体，人形机器人要在动态场景中实现灵活协作……基于强化学习的复杂控制研究亦如香港大学助理教授陈佳玉手中的一把“利剑”，助他突破这些技术发展瓶颈，在复杂控制的未知疆域中开辟出新的路径。

燕园筑基海外笃行

　　陈佳玉的学术启蒙始于北京大学（简称“北大”），彼时北大推行大类招生，他在信息科学与工程学部打下扎实的力学根基——这门工程学科的“通用语言”，为他日后跨界探索埋下伏笔。深知跨学科价值的他，同步辅修计算机双学位，在力学的严谨推演与计算机的灵活迭代间搭建起跨学科的认知桥梁。

　　北大为陈佳玉提供了跨学科学习的平台。在赵卉菁教授的引导下，他大二便参与自动驾驶相关项目研究，从感知层的语义地图构建，到行为决策层的强化学习应用……他一步步明确了对机器学习，尤其是强化学习的研究兴趣。

　　2020年，陈佳玉远赴美国普渡大学攻读博士学位。不同于本科时的“广探索”，他博士生涯的核心是“深钻研”——将研究重心转向强化学习的理论内核。彼时全球学界正处于阿尔法围棋（AlphaGo）热潮后的“理论补位期”，基于时序抽象的强化学习决策及其在多智能体系统的应用等理论空白亟待填补，陈佳玉跳出具体应用场景构建强化学习通用理论框架，解决了竞争与协作多智能体系统中挖掘和利用时序抽象以显著提升决策效率等关键问题。

　　博士毕业后，陈佳玉选择在卡内基梅隆大学机器人研究所开启博士后研究，这一次，他将目光投向颇具战略意义的应用场景——可控核聚变。可控核聚变被视为“终极能源”，却因物理过程与工程系统的复杂性，长期面临精确过程控制的重大挑战。在卡内基梅隆大学与普林斯顿大学的跨校合作项目中（美国能源部专项支持），陈佳玉和团队成员创新性地基于来自通用原子公司托卡马克装置的海量实验数据，跳过传统控制理论对“物理公式”的依赖，直接利用强化学习从离线数据中提取鲁棒性控制策略。2024年4月，他参与的实验取得突破——首次实现等离子体密度/旋度分布与预设分布的高度匹配，打破了传统控制技术“仅能控制均值”的局限。

香江筑梦研途躬行

　　2025年，陈佳玉选择加入香港大学。香港凭借其东西方文化枢纽的独特地位，不仅能够连接国际前沿动态，还能紧密对接内地的资源和重大需求，为他的学术发展营造了理想的环境。

　　在香港大学的鼎力支持下，陈佳玉的实验室建设有序推进。他的研究布局既延续了之前的方向——计划将基于强化学习的数据驱动核聚变控制技术对接国内的托卡马克装置，助力相关领域的战略需求；也开拓了新的赛道——将科研启动基金投入人形机器人与双臂家居机器人的研发。尽管这是一个新的研究方向，陈佳玉坚信，基于强化学习的复杂控制研究同样可以在该领域取得重大突破，推动机器人真正融入人们的日常生活。

　　团队建设上，陈佳玉延续自身受益的培养模式，他引导学生全程参与科研，锤炼全栈科研能力，更强调以“解决真问题”为导向开展科研等。这种模式既为团队蓄能，也让成员清晰感知科研的现实意义。

　　“强化学习在复杂控制领域的应用仍面临诸多挑战，尤其是在泛化性和鲁棒性方面，有待我们持续深入探索。”这是陈佳玉对团队的期待，也是他对自己研究方向的坚持。从在北大打下跨学科基础，到在强化学习领域多个研究殿堂深入探索且尝试应用，再到如今在香港大学带着团队往前走，他始终一步一个脚印。未来几年，他想和团队在细分领域多做些实在成果，盼着研究紧扣核聚变、具身智能等领域的发展脉搏，借技术之力为国家重大需求增光添彩。

分享到：

上一篇在城市血脉中穿行的“医者”
下一篇做“离实践江湖更近”的学者

杂志

本期封面

2026年1月

下一期

战略合作:

友情链接: