强化学习

强化学习（英语：Reinforcement learning，简称RL）是机器学习中的一个领域，强调如何基于环境而行动，以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。与监督学习不同的是，强化学习不需要带标签的输入输出对，同时也无需对非最优解的精确地纠正。其关注点在于寻找探索（对未知领域的）和利用（对已有知识的）的平衡，强化学习中的“探索-利用”的交换，在多臂老虎机（英语：multi-armed bandit）问题和有限MDP中研究得最多。其灵感来源于心理学中的行为主义理论，即有机体如何在环境给予的奖励或惩罚的刺激下，逐步形成对刺激的预期，产生能获得最大利益的习惯性行为。这个方法具有普适性，因此在其他许多领域都有研究，例如博弈论、控制论、运筹学、信息论、仿真优化、多智能体系统、群体智能、统计学以及遗传算法。在运筹学和控制理论研究的语境下，强化学习被称作“近似动态规划”（approximate dynamic programming，ADP）。在最优控制理论中也有研究这个问题，虽然大部分的研究是关于最优解的存在和特性，并非是学习或者近似方面。在经济学和博弈论中，强化学习被用来解释在有限理性的条件下如何出现平衡。在机器学习问题中，环境通常被抽象为马尔可夫决策过程（Markov decision processes，MDP），因为很多强化学习算法在这种假设下才能使用动态规划的方法。传统的动态规划方法和强化学习算法的主要区别是，后者不需要关于MDP的知识，而且针对无法找到确切方法的大规模MDP。

2025第五届应用数学与信息技术国际会议（ICAMIT2025）涵盖主题包括但不仅限于强化学习等领域，会议组委会诚邀全球相关领域的学者、专家参加此次国际会议，就相关热点问题进行探讨、交流，共同促进科学研究的进步与发展。

会议征稿

2025第五届应用数学与信息技术国际会议（ICAMIT2025）诚邀学者、专家提交他们的研究摘要、论文并参会交流。

ICAMIT2025 的摘要与全文投稿通道已开放，欢迎您提交摘要和全文：

摘要投稿

全文投稿

摘要出版

会议接受英文摘要投稿，摘要录用后，将以会议摘要集的形式由 Science Publishing Group (SciencePG) 出版。

Abstract Book of the 2025 5th International Conference on Applied Mathematics and Information Technology (ICAMIT2025)

ISBN: 979-8-88599-105-6

全文出版

论文全文被录用后，将根据主题在线出版在 Science Publishing Group (SciencePG) 的相关期刊上。合作期刊可被部分国外的检索机构检索，如WorldCat, CrossRef, Electronic Journals Library, Zeitschriftendatenbank, EZB, ResearchBib, Polish Scholarly Bibliography, Wissenschaftszentrum Berlin等。