基于强化学习技术在自控原理课程中的部署

现代职业教育杂志社 > 论文中心 >: 基于强化学习技术在自控原理课程中的部署

2022-04-12 | 点击： | 栏目：论文中心

本文作者：刘振昌发表期数：现代职业教育 2022年9期本文字数：2498
　　[摘要] 随着国家战略和市场需求的变化，科技发展必然进入一个新的层级，为更好地适应形势变化需要，应不断提升学科水平，以适应时代的发展。现如今人工智能与各种信息化技术、各产业高度融合，从打造智能制造专业群的总体规划出发，在自动控制原理课程中增加人工智能元素，改进教学内容势在必行，使职业教育更好地服务于产业升级，培养更多优质专业技能人才。
　　[关键词] 强化学习;自控原理;人工智能;职业教育
　　[中图分类号] G712 [文献标志码] A [文章编号] 2096-0603（2022）09-0073-03
　　一、引言
　　针对目前专业课程长期固定未变，现有课程体系不足以满足学生人才培养目标和就业需求的问题，如何培养符合当前社会需求的，具备理论基础够用、实践能力突出、创新能力兼备的应用型人才，已经成为亟待解决的重要问题。
　　但是在全民追捧人工智能技术的同时，我们更应理性、科学地对待它，AI技术毕竟依托于诸多技术不断发展强大起来，如计算机技术、网络技术、电子技术等领域。没有这些领域的不断进步，也不会有人工智能技术的今天，所以人工智能技术并不是凭空创造出来的，而是在近些年逐渐应用到我们的实际生活中，让更多的平常百姓知道了它、了解它。而人工智能技术分类庞杂如图1所示，我们不能完全搞懂、吃透，所以本文在充分了解人工智能技术发展的趋势，学习相关知识的同时，选定了机器学习领域中强化学习技术，作为核心突破点，将其与自控原理课程相互结合，达到提升教学效果的目的。
　　二、自控原理课程分析
　　众所周知，高职教育十分突出的特点是强调实际动手能力的培养，但当学生学习如自控原理理论较强的课程时，往往提不起兴趣，整体效果不佳。如，目前自控原理课程教学中学生对系统数学模型章节，只能了解基本传递函数的概念，并不能很好地对惯性环节、积分环节、时滞环节实际的物理模型有感性的认知，往往这样不能为后续章节学习打下良好的基础，导致课程整体教学效果不佳。而电气自动化专业如果完全摒弃这些理论课程，单纯突出实践教学又是课程体系的缺失，所以类似这种理论课程改革融入新的元素，是十分必要的。
　　以自动控制原理课程作为研究对象，结合强化学习技术，对该门课程内容重新进行梳理，融入新鲜元素，真正促进教学改革，最终促进专业课程的整体改革与提升。
　　三、强化学习基本思想
　　通过研究了解强化学习是机器学习的三个大类之一，如图2所示。该领域已经取得了长足的进步，在多个方向发展和成熟。强化学习已逐渐成为机器学习、人工智能和神经网络研究中最活跃的研究领域之一。
　　强化学习是学习该做什么—如何将环境映射到行动—以便得到最大化奖励信号。控制器不会采用预定的程序，而是通过不断试错获得最优回报。在复杂和富有挑战性的情况下，行动不仅会影响即时奖励，还会影响下一个情境以及所有后续奖励。不断试错与获得奖励是强化学习的明显特征。如果用动态系统理论的思想将强化学习问题形式化，，具体地说，作为不完全已知的马尔可夫决策过程的最优控制。但基本思想是学习代理与环境进行交互以实现控制目标，与控制系统中反馈概念相类似。代理还必须有一个或多个与环境状态相关的目标。马尔可夫决策过程旨在以最简单的形式包含这三个方面——感觉、行動和目标，而不忽略其中任何一个。
　　强化学习不同于监督学习，监督学习是当前机器学习、统计模式识别和人工神经网络研究中最主要的学习类型。有监督学习是通过外部知识的提供，进行的一组有标记的学习。每个标记都是对一种情况的描述以及系统应该对该情况采取的正确操作的规范，该规范用于确定某种情况所属的类别。这种学习的目的是让系统推断或概括某种情况的反馈情况，以便它在训练集中没有出现的情况下正确地行动。这是一种重要的学习方式，但仅从互动中学习是不够的。在交互问题中，要想得到既正确又能代表Agent所有情况的预期行为的示例，往往是不能达到的。在未知的情况下，Agent需要从中不断学习改进。
　　强化学习也区别于无监督学习，无监督学习往往是挖掘数据间的某种隐形关系。单纯从有监督学习和无监督学习这两个方面对机器学习范式进行分类是不全面的。虽然有人可能会认为强化学习是一种无监督学习，因为它不依赖于系统模型，类似于一种无模型控制，但强化学习是求取代价函数最优值，而不是发现数据中隐形的关系。探索Agent经验中的结构有助于理解强化学习，但它本身并不能解决求取最优代价函数的强化学习问题。因此，强化学习是第三种机器学习分类，与监督学习和非监督学习并列。
　　强化学习采取从一个完整、互动、目标寻求的代理开始。它主要包含四个元素：Agent、环境状态、行动、奖励，强化学习的目标就是获得最多的累计奖励。下图3是强化学习基本框架。代理（Agent）中有一个函数可接收状态观测量（输入），并将其映射到动作集（输出）。通过上述分析无监督学习和监督式学习，并不适合与自动控制原理课程中相关知识结合，所以选定强化学习作为融合的新元素具有一定依据。
　　四、强化学习与传统控制对比分析
　　本文将强化学习中Agent、Reward、Action、Enviroment等概念和自动控制原理相关概念统进行比对，如文末图4所示。便于从传统的控制角度更加深入理解智能控制的特点与优势所在，通过分析与对比，才能更加深入地改进相关课程内容，如表1。
202204102145

相关文章：

1 课程思政融入大学语文教学的路径探究及思考

2 基于CiteSpace的国际中文教师文献综述可视化研究

3 新时期职业本科院校音乐教育生态系统的构建路径分析

4 医药院校药物化学课程思政的教学设计与实施

5 高校军事理论课程互动研讨式教学模式探析

6 装备维修保养技能训练课程教学设计探析

7 制药工程工艺设计实验模拟车间型教学探究

8 产教融合视域下卫星导航定位实践教学改革探索

9 应用型本科商科专业教材评估指标体系构建

10 食品微生物学检验课程案例库建设及案例式教学的探索应

上一篇：新工科背景下的“赛教融合”助力大学生专业和能力素养协同提升下一篇：课程教学质量内控研究与探索

刊物简介

CN ：14-1381/G4
ISSN：2096-0603
邮发代号：22-382
邮箱投稿：xdzyjy@163.com

国家新闻出版总署收录
中国知网、万方数据—数字化期刊群
龙源期刊网、维普数据库全文收录。

期刊目录

杂志动态

最近更新

基于强化学习技术在自控原理课程中的部署

2022-04-12 | 点击： | 栏目：论文中心