陆培丽: 从统计世界走向AI

发布时间：2021-09-29 13:09:24 所属栏目：大数据来源：互联网

导读：技术的发展推动商业的前进道路。从数据驱动到人工智能算法再到自动匹配出用户需求，并进行反馈，这才是数据与人工智能算法的灵魂。 20 年前，我进入了上海交通大学数学系，在懵懂中选择了数学专业。大数据、神经网络与建模等名词是我在大学时就已经听到的。

技术的发展推动商业的前进道路。从数据驱动到人工智能算法再到自动匹配出用户需求，并进行反馈，这才是数据与人工智能算法的灵魂。

20 年前，我进入了上海交通大学数学系，在懵懂中选择了数学专业。大数据、神经网络与建模等名词是我在大学时就已经听到的。从那时候在讨论班上有几个研究生做数学理论的推导，到现在每个人都知道的人工智能，这个积累过程，我们走了20 年。

我的工作生涯一直在金融投资领域，并且绝大多数时间和数学、量化、程序化交易相关。我的第一份工作是在高盛，部门就叫作program trading，隶属高盛东京。这份工作一干就是十几年。我工作生涯最初是从和程序化交易打交道开始的；除此之外，我的工作也包括长期看盘投资和研究金融领域的二级市常在我的职业生涯中，除了金融，数学和统计占了很重要的一部分。

目前，我主要致力于金融量化的投资领域，并且发展了金融和科技交叉领域。从我的工作中，我越来越感受到科技在金融中发挥的力量，尤其是人工智能在金融研究和投资领域发挥出的神奇力量。复杂的深度算法超越了一般的统计计量方法，在大数据的领域发挥了无可替代的作用。

陆培丽

上海交通大学数学科学学院统计系讨论班业界导师

2019 年6 月于上海

统计与人工智能

统计和人工智能都是从数据中创建模型，但目的不同。统计学家非常注重使用数据缩减形式，使得原始数据被转换为更低维度的统计数据。这类统计数据的两个常见例子是均值和标准差。统计学家将这些统计数据用于不同的目的，将该领域划分为描述性统计和推理统计。

人工智能最主要的任务是预测建模：创建用于预测新示例标签的模型。训练集是从静态总体中独立且等概率选择的，是该总体的代表；测试集是从感兴趣的总体中随机抽取的样本。如果总体发生变化，即产生概念漂移，可以使用一些技术来对此进行测试和调整。

概率统计方法的突破增强了人工智能从原始数据中提取高级特征的能力，从而对状态空间进行有效的表示。

人工智能的算法核心是数学，如神经刺激模型sigmoid，它模仿的是到临界时刻的变化点，直观地说，它可以理解为：到达某个临界点，就爆发了。可以想象为人的情绪在到达某个临界点会爆发，这是每个人都能够体会到的。而在数学领域就是以下的这个函数：

▲ sigmoid 函数

大家可以通过书本或者最新的科研成果查询到统计领域的算法和人工智能的算法，比如AlphaGo 算法公开发表在《自然》上。人工智能的算法目前处于开源状态，像谷歌这样的公司和站在前沿领域的科学家在引领算法。我们认为算法将成为一种基础设施，大部分应用只需要自己设定参数即可。未来人工智能算法在应用领域将会快速发展，所以理解算法在什么场景中可以应用将会更加重要。

人工智能的开端

作为当代最主要的前沿技术之一，人工智能已经有数十年的发展历程。

1956 年夏季，以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会，共同研究和探讨用机器模拟智能的一系列有关问题，并首次提出了“人工智能”这一术语，它标志着“人工智能”这门新兴学科的正式诞生。

这次会议基本上是一次头脑风暴，而支撑这场讨论的基础是：假设我们可以精确地描述出学习和创造过程的每个方面，并可以对其进行数学模拟且该模拟数据能够被复制到机器里面。

“想办法让机器使用语言，形成抽象的概念来解决目前只有人类可以解决的问题，并让机器具有自我改进的能力”。这是本次会议的宗旨，也是一个全新的开端。

人工智能的解决方法

知识的获取和表示是机器智能的核心，机器学习是指通过对信息中模式的算法分析进而发现和改进知识的计算算法。机器学习的一个重要方面是机器在有(或没有) 人工辅助的情况下具有更新这种“智能”的能力。下图为人工智能解决方法示意图，具体解决方法介绍如下。

▲ 人工智能解决方法示意图

人工智能的解决方法大致分为聚类、分类、提取和解释。其中，聚类、分类等在传统的统计科学里已经涉及。

(1) 聚类和分类的主要区别在于：在分类中，我们提前了解了类别，而在聚类中，我们从数据中发现类别。

(2) 提取是指从文档中提取特定数据，尤其会在非结构化或者半结构化的文档中用到，比如财务报表的附注。

(3) 解释是指在各种文稿中，比如法律合同、研究报告中就特定目的来解释非结构化内容。例如，机器学习与自然语言文本就涉及了文本分类和文本解释的问题。

从统计建模到人工智能

统计参数模型是机器学习最早和最简单的形式，用参数统计方法处理数据之间的关系相对来说简单。多变量分析最早起源于多元线性回归模型，逻辑回归建立在这个基础上。现在最常用的逻辑回归模型被广泛地应用在银行判别信用风险领域。

虽然这些简单的方法在过去很长一段时间内也被应用在各个领域，但是对于真实世界的数据，尤其是非结构化数据，参数统计在流程领域建模中仍然受到限制。而深度学习的算法正好弥补了这一不足之处。深度学习架构的基础是假设观测数据是由不同因素在不同层次上的相互作用而产生的。人工智能平台的模块有多重分类，下图简单地介绍了模块的一种分类方式。

▲ 人工智能平台的模块分类

在人工智能产业蒸蒸日上的发展之时，我收到了《从统计世界走向人工智能实战案例与算法》的书稿。陆培丽是上海交通大学数学科学学院的优秀校友，曾经受邀在上海交通大学数学科学学院建院90 周年纪念大会上做主题演讲。她将自己在量化金融领域将近20 年的积累与理解，同人工智能的算法与应用相结合，汇聚成了本书的一个个生动的案例，助推了金融科技的发展。这些案例都是她和她的研究团队在商业领域的实战经历，是人工智能产业化、市场化、商业化的生动写照。该书从数学讲述到统计，再从统计到人工智能的发展，结合大量的实际的应用案例，其中包括能源价格预测、财务分析、生物科技案例、银行证券金融、医学等背景领域，介绍了诸多经典的机器学习算法如何解决这些领域的问题，从易到难，逐步深入。

该书出发点即为了将高校学生在课堂中学习的理论知识应用于具有商业模式背景的课题，适合作为统计学专业、应用统计专业、人工智能专业、大数据专业、金融专业、管理专业与经济专业大学生的教学用书，开拓他们不同维度的学习思路，并培养他们在理论学习中灵活应用人工智能模型的知识与编程的能力。人工智能、机器学习方向的学者，可以通过该书了解到商业模式，更明晰地了解如何将自己的理论研究成果应用于实践中。金融和实体业的应用者，通过该书可以学习到相关的人工智能技术实战程序操作方法，因此该书可以为金融机构和实体企业提供方法论和初步的解决方案。

（编辑：东莞站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

数据在网络中是怎样传	大数据分析工具必须具
大数据在零售业的主要	借助云计算服务削减最