学术活动

德州大学奥斯汀分校博士研究生黄毅哲在经管学院做学术研讨会报告

  •   5月26日,经管午餐学术研讨会第16期邀请德州大学奥斯汀分校博士生黄毅哲带来题为“A Globally Optimal Actor-critic Framework for Solving Inventory Management Problems”的学术报告。经管学院王曙明教授主持研讨会。

      黄毅哲,现为德州大学奥斯汀分校商学院IROM三年级博士研究生。其主要研究方向为强化学习及其在库存管理中的应用,研究成果分别发表于Production and Operations Management、Neural Information Processing Systems、IEEE Control Systems Letters等期刊(会议)上。

    huangyizhe.png黄毅哲做学术分享 

      库存管理是现代企业运营中非常重要的一部分,其与企业的利益息息相关。黄毅哲首先以Walmart、Gap、Target等公司近一年来零售库存的变化为例,说明一个有效的库存控制策略可以降低企业的库存成本。接着,黄毅哲介绍了在提前期不确定的情形下,如何运用马尔可夫决策过程对多周期、多层级供应链网络上的库存管理问题进行建模。对于多周期库存管理问题,传统文献一般利用动态规划进行求解。但受困于“维度诅咒”,当时间周期较长或者状态空间较大时,该模型很难直接进行求解。为此,黄毅哲采用强化学习中常用的Actor-Critic算法计算策略的梯度并不断迭代,直至找到最优策略。具体而言,Actor负责通过生成策略,Critic负责评价策略,两者都是由参数化的两层神经网络构成,这种互补式的训练方式会比单独的策略网络或者值函数网络更有效,并且输出的梯度更为平稳。此外,当神经网络只有两层时,黄毅哲证明了奖励函数的任何一个驻点都是全局最优的,进而保证该算法能够收敛到最优策略。 

      报告结束后,与会师生就问题设定以及神经网络的收敛性分析等内容与黄毅哲进行了热烈讨论和交流。

    责编 :