主页 > 股票开户 > 「配资查询网站」中国金融学会常务理事陈学彬 : 深度强化学习在

「配资查询网站」中国金融学会常务理事陈学彬 : 深度强化学习在

股票在线 股票开户 2021年08月31日

2021 年 7 月 28 日至 7 月 30 日,以 " 流光易彩合思财智 " 为主题的中国企业财智峰会暨合思用户大会在成都圆满举办。会上,四川大学经济学院文科讲席教授,复旦大学金融学教授陈学彬带来了主题为《深度强化学习方法在金融资产组合管理的应用前景分析》演讲。

本篇演讲由财智无界整理发布,旨在挖掘演讲中独具价值的干货内容和深度逻辑。

「配资查询网站」中国金融学会常务理事陈学彬 : 深度强化学习在

陈学彬老师简介:

四川大学经济学院文科讲席教授、博士生导师

复旦大学金融研究院原常务副院长

上海财经大学现代金融中心原主任

中国金融学会常务理事、中国国际金融学会常务理事

全国金融学专业研究生教育指导委员会第 1 届委员

国家自然科学基金第 12 届、13 届管理科学部专家委员会成员

上海市金融学会原副会长、上海市信息学会副会长

哈佛大学、加州大学伯克利分校、圣芭芭拉分校、伦敦政治经济院、明治大学、香港中文大学等校访问学者

2017 年开始,人工智能开始在越来越多领域 " 崭露头角 "。金融领域,自然也不例外。

传统金融服务业正在向着数字化、智能化的方向发展,而作为人工智能的应用方法之一的 " 深度强化学习 ",凭借其高性能、强泛化和高拟合能力在众多方法模型中脱颖而出,得到金融界和学术界的青睐,并成为众多专家学者研究金融市场变化的热点。

今天跟大家分享的主要是深度强化学习在资产管理和金融投资领域的运用。

" 深度强化学习 " 对大家来说,可能会有一点陌生。

但是我们想一想,在 2016 年 3 月份,AlphaGo 战胜世界围棋冠军李世石的时候,曾经引起了全球不小的轰动,AlphaGo 是第一个战胜围棋世界冠军的人工智能机器人。

于是,人们纷纷讨论,那在其他领域是不是机器也会取代人。我认为,机器不会完全取代人。但是,它会部分的取代人,你不能掌握机器的话,你可能就会被淘汰。

因此,掌握深度强化学习的基本原理就显得非常重要。

什么是深度强化学习?

深度强化学习(DeepReinforcementLearning)就是以一种比较通用的形式,将深度学习的感知能力与强化学习的决策能力结合在一起的一类机器学习算法,是人工智能的一种方法。它包括了两种最基本的机器学习算法:深度学习方法和强化学习方法。

我们来看看深度学习是什么呢?深度学习主要是利用深度神经网络,对研究的问题进行分析、建模学习的方法,最早由多伦多大学的 G.E.Hinton 于 2006 年提出。

2006 年,Hinton 提出了在非监督数据上建立多层神经网络的一种有效方法,具体分为两步:

首先逐层构建单层神经元,这样每次都是训练一个单层网络;当所有层训练完后,使用 wake-sleep 算法进行调优。

深度神经网络是跟浅层的神经网络相对应的。这里讲的神经网络是指人工神经网络,通过学习模仿人或生物体内的神经,比如神经源、神经层等的一个组织结构建立起来进行学习的一种方法。

举个简答的例子吧,传统的神经网络是一个有监督的学习,像老师出个题要有标准答案,有了标准答案,才能判定这个学生做的题是不是正确的。但是,出标准答案会给老师带来很大的工作量。同时,这种标准答案也不能保证完全正确。

而深度学习,则不需要标准答案,它是在工作中边干边学习,所以说,这与传统学习在算法上也有了区别。

而强化学习是指在与环境交互中不断学习的问题以及解决这类问题的方法。其本身就是一种自下而上无监督学习。在此情形中,老师并不先给学生一个标准答案,看做的题对不对,然后来改进,而更强调智能体从与环境的交互中不断学习以完成特定目标。

此外,强化学习它有很多的要素,包括状态 s、动作 a、策略 π ( a|s ) 、状态转移概率 p ( s ’ |s,a ) 、以及即时奖励 r ( s,a,s ′ ) 。

简单来说,比如说状态是一个市场的状态,动作就是你要采取的决策动作,策略就是你选什么样不同的策略来组合,状态的概率就是从当前的状态向下一个状态会发生什么样的演变,我这个决策行动以后会带来什么效果,有正的有负的,有及时的奖励,还有一个我们追求的是最终的目标,最终的收益不是看当前我们买了股票今天涨了就涨了好几百,我没卖明天就是可能几个跌,而是看连续长期的一个效果。

策略就是我们根据当时所处的状态,对状态未来的变化作一个预测,进而选择它的策略。那么,为了描述它,一般会有一个状态值函数、状态 - 动作值函数还有 Q 函数。

标签: