人工智能能成为投资高手吗?

人工智能是怎样自己「学习」的?

人工智能今天的强大,并不意味着他们开始「接近」人脑,刚好相反,他们的优势在于能够完成人脑根本无法处理的大量统计。以下围棋为例,每多一个决策,就增加了一个新的维度,需要计算的可能性也就呈指数级增加,所以在人工智能应用的早期,机器要通过如此大量的统计去「学习」也是困难的。

早期机器学习中,由于数据量过于庞大难以处理,人类采取了提示一些「捷径」的方法。其中最主要的方式叫做「监督学习」,也就是机器在人类提供经验的「监督」下去统计分析数据。俗话说「依样画葫芦」,这就比如一个新员工来到公司,老板就教了他一套自己工作的方法,让他有样学样去做,就是「监督学习」。此前版本的Alpha Go也是通过学习从古到今的大量棋谱数据来学习围棋,并先后打败了人类顶尖高手李世石和柯洁。

然而,经验毕竟是有限的,而且需要大量人力和时间去总结和标签。真实世界的大多数决策毕竟不像围棋,拥有数千年的经验积累和现成棋谱。那么,机器是否能够具备自己去挖掘经验的能力呢?

由此,机器学习进入了「无监督学习」领域,即让机器彻底去自己摸索,人类不给予任何总结的经验,不对任何数据进行标签。当前人工智能中的自然语言处理,让人工智能通过大量的语言输入去理解语言中词语关系的内在规律,就是「无监督学习」的一种应用。更常见的应用则是在网上购物的「推荐商品」中,机器通过分析大量的过往数据,「学习」去推荐买家最有可能感兴趣的商品。

第三种模式则叫做「强化学习」,可以算是「监督」和「无监督」各占一半的方式。

还是用企业新员工来打比方,这一次老板并不具体告员工要怎么做,但是到了年底会发出或多或少的奖金。当然,奖金的多少存在不同的可能性,是员工对客户服务态度好?还是工作特别勤奋?又或是拍老板马屁拍的好?在真实的人生中,这种分析显然是极为困难的。然而理论上,如果这个职员一直通过奖金多少来反省自己的工作,然后持续做同一份工作一百万年时间,那么他会无限逼近「奖金的真相」。

这种通过反馈来修改行动的模型,我们称之为策略-评估(Actor-Critic)模型,随着策略(Actor)所做的决策被评估(Critic)所修正,决策的质量一点一点逐步地改善,机器开始自己去学习,并找到独特的学习方法。人活不了一百万年,当然也就算不了一百万年。但是机器随着计算速度——即所谓「算力」的迅速提高,却有望解决这个看起来荒谬的难题。 2016年的计算机已经比2007年速度快一万倍,今天普通工业级电脑已经可以展开深度强化学习,而且算力的提高速度还在持续加快。

2017年10月,Alpha Go进化为Alpha Go Zero。两者最大区别就是,后者在没有任何棋谱数据和人类经验输入的前提下学习围棋,每一步都由机器自己随机尝试,通过最后胜败的统计分析来判断每一步是「好棋」还是「臭棋」 。算力强大的Alpha Go Zero仅仅用了三天,就从一张白纸成长为以100比0完胜旧版Alpha Go(即击败柯洁的版本)的顶级高手。最妙的是,至今人类也不知道Alpha Go Zero自己摸索开发出的算法是怎样。

发表评论

电子邮件地址不会被公开。 必填项已用*标注