• home > theory > CST > AI >

    AI史话:从图灵到ChatGPT到历史性学习笔记随笔

    Author:zhoulujun Date:

    1997年,IBM的超级计算机深蓝在国际象棋领域完胜整个人类代表卡斯帕罗夫;相隔20年,Google的AlphaGo在围棋领域完胜整个人类代表柯洁。划时代的事件使大部分AI研究人员确信人工智能的时代已经降临。

    1873年左右意大利科学家高尔吉发明高尔吉染色法是在,他的研究旨在研究神经系统的微观结构。随后发型神经元通常是由细胞核、树突、轴突、突触等组成。一个神经元有多个树突用来接收信息,一个轴突用来传送信息。

    西班牙神经科学家圣地亚哥·拉蒙-卡哈尔(Santiago Ramón y Cajal)和意大利科学家卡米洛·高尔吉(Camillo Golgi)是在19世纪对神经元结构作出重大贡献的两位科学家。这两位科学家因为他们关于神经系统的结构和功能的研究,共同获得了1906年的诺贝尔生理学或医学奖。

    高尔吉发展了一种称为“黑反应”(Golgi stain)的方法,这种染色技术使得神经细胞的结构首次能够在显微镜下清晰可见。而卡哈尔则利用这一技术证明了神经系统是由独立的细胞组成的,这些细胞之间通过所谓的“突触”(synapses)相互连接。卡哈尔的工作帮助确立了神经系统的神经元学说(neuron doctrine),认为神经元是神经系统的结构和功能单元。

    因此,神经元的组成结构—包括细胞核、树突、轴突和突触—的发现归功于多位科学家的工作,尤其是高尔吉和卡哈尔的贡献在19世纪末就已经非常关键。到了1904年,他们发现的内容已经在生物学和神经科学研究中得到了广泛的认可。

    神经性模型

    1943年,美国神经科学家麦卡洛克(Warren McCulloch)和数学家皮茨(Water Pitts)提出神经元的数学模型。后来有人说现代AI梦就诞生在那个时候。

    《神经活动中内在思想的逻辑演算》(A Logical Calculus of Ideas Immanent in Nervous Activity)。这篇论文被视为人工智能学科的奠基石,标志着人工智能学科三大派之一的仿生学派诞生。现在大热的“深度学习”,前身是人工神经网络,而其基础就是神经元的数学模型。

    神经元模型

    两者的结构非常相似,这个神经元模型的结构也非常简单,但是仅仅只有一个这样的结构,也许做的事情并不是特别有用,当亿万个这样的简单结构组合在一起,就可以完成更加复杂的事情。现在深度神经网络在各个领域大放异彩,其实它最基本的结构仍然是这样的简单结构。

    1949年加拿大神经心理学家赫布(Donald Hebb提出“赫布规则”,简单说就是两个细胞如果总是同时被激活,那么它们之间就有某种关联,关联度与同时激活概率成正比关系。这个规则今天用在机器自动学习算法中。

    《行为的组织》(“The Organization of Behavior”)中提出的一条神经心理学规则。赫布规则通常被概括为:“经常一起激活的神经元会增强彼此之间的连接”。这是一种闻名的神经科学学习规则,被简化为“细胞之间的互相激活导致了连接的加强”(“cells that fire together wire together”)。它为人工神经网络(ANNs)中的学习算法提供了启发,特别是在无监督学习的背景下。在人工神经网络中,网络通过调整相邻神经元间的连接权重来学习,这在概念上类似于人脑中通过赫布规则发生的学习过程。

    1950年英国数学家和逻辑学家艾伦·图灵(Alan Turing)提出人工智能的概念:机器会思考吗如果一台机器能够与人类对话而不被辨别出其机器的身份,那么这台机器具有智能的特征。同年,Alan Turing还预言了存有一定的可能性可以创造出具有真正智能的机器。

    Alan Turing(1912.6.23-1954.6.7)曾协助英国军队破解了德国的著名密码系统Enigma,帮助盟军取得了二战的胜利。他也被后人称为计算机之父和人工智能之父。图灵奖(Turing Award)由美国计算机协会(ACM)于1966年设立,专门奖励那些对计算机事业作出重要贡献的个人。图灵奖是计算机界最负盛名、最崇高的一个奖项,有“计算机界的诺贝尔奖”之称。


    1936年发表的 "On Computable Numbers, with anApplication to the Entscheidungsproblem"(《论可计算数及其在判定性问题上的应用》)中提出图灵机(Turing Machine)的数学模型。在文章中图灵描述了它是什么,并且证明了,只要图灵机可以被实现,就可以用来解决任何可计算问题

    图灵在他的论文《计算机器和智能》(“Computing Machinery and Intelligence”)中首次介绍了这个想法,他提出了一个思想实验,即“模仿游戏”(the imitation game),来回答“机器能思考吗?”这个问题。

    在图灵测试中,一个人(裁判)与一个人和一台机器进行会话,通常是通过打字交流,以便裁判无法从外观上区分他们。如果裁判不能一致地正确判断哪个是人哪个是机器,那么机器就可以说在测试中表现出了人类水平的智能。图灵提出这个测试是为了提供一个更实际的方式来评估机器智能,而不是进入哲学上的辩论

    图灵测试是人工智能哲学方面第一个严肃的提案

    尽管许多人对该测试的有效性和其作为智能衡量标准的合理性提出了质疑,但图灵测试对人工智能研究产生了深远的影响,至今仍被广泛地引用和讨论。

    1956年,在达特茅斯学院举行的一次会议上,不同领域「数学、心理学、工程学、经济学和政治学」的科学家正式确立了人工智能为研究学科

    所以一般来说1956年算AI元年

    2006年达特茅斯会议当事人重聚

    2006年达特茅斯会议当事人重聚,左起:Trenchard More、John McCarthy(麦卡锡)、Marvin Minsky(明斯基)、Oliver Selfridge、Ray Solomonoff(香农)

    美国政府向这一新兴领域投入了大笔资金,每年将数百万美元投入到麻省理工学院、卡耐基梅隆大学、爱丁堡大学和斯坦福大学四个研究机构,并允许研究学者去做任何感兴趣的方向

    • 人工神经网络在30-50年代被提出,1951年Marvin Minsky制造出第一台神经网络机。

    • 贝尔曼公式(增强学习雏形)被提出。

    • 感知器(深度学习雏形)被提出。

    • 搜索式推理被提出。

    • 自然语言被提出。

    • 首次提出人工智能拥有模仿智能的特征,懂得使用语言,懂得形成抽象概念并解决人类现存问。

    • Arthur Samuel在五十年代中期和六十年代初开发的国际象棋程序,棋力已经可以挑战具有相当水平的业余爱好者。

    • 机器人SHAKEY项目受到了大力宣传,它能够对自己的行为进行「推理」;人们将其视作世界上第一台通用机器人。

    • 微世界的提出。

    80年代初,一类名为「专家系统」的AI程序开始为全世界的公司所采纳,人工智能研究迎来了新一轮高潮。在这期间,卡耐基梅隆大学为DEC公司设计的XCON专家系统能够每年为DEC公司节省数千万美金。

    日本经济产业省拨款八亿五千万美元支持第五代计算机项目。其目标是造出能够与人对话、翻译语言、解释图像、能够像人一样推理的机器。其他国家也纷纷作出了响应,并对AI和信息技术的大规模项目提供了巨额资助。

    专家系统是一种程序,能够依据一组从专门知识中推演出的逻辑规则在某一特定领域回答或解决问题。由于专家系统仅限于一个很小的领域,从而避免了常识问题。「知识处理」随之也成为了主流 AI 研究的焦点。

    1997年,IBM的超级计算机深蓝在国际象棋领域完胜整个人类代表卡斯帕罗夫;

    西洋跳棋(Checkers)AI程序是由IBM公司的阿瑟·萨缪尔(Arthur Lee Samuel)研制的。

    在1962年,它击败了当时全美最强的西洋棋选手之一的罗伯特·尼雷,震惊了世界。

    它的核心技术是α-β剪枝搜索和自我对弈来学习评价函数。

    1997 年5 月11 日,加里·卡斯帕罗夫以2.5:3.5 (1胜2负3平)输给了IBM公司的计算机程序“深蓝”,这一场人机大战又一次震惊了世界。

    1997年的深蓝可搜寻及估计随后的12步棋,而一名人类象棋好手大约可估计随后的10步棋,因此深蓝获得了胜利。

    相隔20年,Google的AlphaGo在围棋领域完胜整个人类代表柯洁。划时代的事件使大部分AI研究人员确信人工智能的时代已经降临

    1962年的国际跳棋、1997年的国际象棋、2016年的围棋

    可能大家觉得国际象棋和围棋好像没什么区别,其实两者的难度不在同一个级别。国际象棋走法的可能性虽多,但棋盘的大小和每颗棋子的规则大大限制了赢的可能性。深蓝可以通过蛮力看到所有的可能性,而且只需要一台计算机基本上就可以搞定。围棋布局走法的可能性可能要比宇宙中的原子数量还多,几十台计算机的计算能力都搞不定(2^64),所以机器下围棋想赢非常困难,包括围棋专家和人工智能领域的专家们也纷纷断言:计算机要在围棋领域战胜人类棋手,还要再等100年。结果机器真的做到了,并据说AlphaGo拥有围棋十几段的实力(目前围棋棋手最高是9段)。

    在看下《聊天机器人简史:从 ELIZA 到 ChatGPT

    v2-ed455182e6d4d30e31a46debcf0b2a13_720w.webp

    ELIZA

    最先的机器人 ELIZA ,由 Joseph Weizenbaum 于 1966 年创建,它使用模式匹配和替换方法来模拟对话,最初的目的是帮助心理咨询医生来解决患者的精神问题。

    Weizenbaum 拒绝了机器可以取代人类智慧的观点。相反,他认为这些聊天机器人只是工具,是人类思维的延伸。他进一步强调,计算机对语言的理解完全取决于使用它们的环境。此外,Weizenbaum 认为计算机对人类语言的更一般理解是不可能的

    PARRY

    PARRY是由美国精神病学家Kenneth Colby于1972年构建的聊天机器人,该程序模仿了一位精神分裂症患者。它试图模拟这种疾病,是一种类似于个人思维的自然语言程序。

    Jabberwacky

    该聊天机器人由开发人员 Rollo Carpenter 于 1988 年创建。它旨在以有趣的方式模拟自然的人类对话。

    Jabberwacky导致了其他技术的发展。自其起源以来,一些人通过其网页将其用于学术研究目的。该聊天机器人被认为使用了一种称为“上下文模式匹配”的人工智能技术。

    ALICE

    ALICE是一种通用语言处理的聊天机器人,它使用启发式模式匹配来进行对话。1995 年Richard Wallace 率先构建了 ALICE。

    ……………………

    中间的聊天机器人,其实没有打的技术上的突破……,只有了语音识别的技术的加持:《语音识别技术简史

    …………………………

    ChatGPT

    ChatGPT是 OpenAI 训练的大型语言模型。它由 OpenAI 团队于 2021 年创立,旨在帮助用户根据给定的输入生成类人文本。

    该模型基于大量数据进行训练,使其能够生成通常难以与人类书写的文本区分开来的文本。



    机器学习

    机器学习是人工智能的一个分支,它是实现人工智能的一个核心技术,即以机器学习为手段解决人工智能中的问题。

    机器学习如果用形式化的语言进行描述,就是对于某类任务T和性能度量P,如果一个计算机程序在T上以P衡量的性能随着经验E而自我完善,那么就称这个计算机程序在从经验E学习

    人类在学习中是什么样的呢?我们可以举一个简单的例子:一个小宝宝,他的妈妈买回来一个苹果并告诉他这是苹果,那么他就会对苹果有所认知,第二天,他的妈妈买了一个不同样子的苹果,但是告诉他这个还是苹果,那么他就会对苹果有新的认知,经过认识不同种类的苹果,小宝宝对苹果形成了自己的认知,可以去判断什么样的东西是苹果。他能根据自己的经验总结出一个规律,然后对于新看到的物品可以去判断它是否是苹果,其他的水果也是同理。这样就完成了一个人类学习的过程。

    对于机器学习来说,它需要大量的历史数据,而且同时需要告诉它正确的分类结果,比如什么是香蕉,什么是苹果。经过这样的训练,它会形成一个模型,当有新的数据进来,它会根据模型算出这个物品到底属于什么样的类别。

    大模型图解

    在了解人工智能基础能力前,我们先聊聊更底层的东西——数据。计算机数据分为两种,结构化数据和非结构化数据。结构化数据是指具有预定义的数据模型的数据,它的本质是将所有数据标签化、结构化,后续只要确定标签,数据就能读取出来,这种方式容易被计算机理解。非结构化数据是指数据结构不规则或者不完整,没有预定义的数据模型的数据。非结构化数据格式多样化,包括了图片、音频、视频、文本、网页等等,它比结构化信息更难标准化和理解。

    结构化数据与非结构化数据机器如何理解人类语言的


    全世界有80%的数据都是非结构化数据,人工智能想要达到看懂、听懂的状态,必须要把非结构化数据这块硬骨头啃下来。

    学者在深度学习的帮助下在这领域取得了突破性成就,这成就为人工智能其他各种能力奠定了基础

    v2-4eac07d36d5ff6e95657c9896afc074c_720w.webp


    深度学习

    在人工智能的发展过程中,不同时代、学科背景的人对于智慧的理解及其实现方法有着不同的思想主张,并由此衍生了不同的学派,影响较大的学派及其代表方法如下:

    学派主要思想代表方法
    联结主义利用数学模型来研究人类认知的方法,用 神经元的连接机制实现人工智能神经网络、SVM 等
    符号主义认知就是通过对有意义的表示符号进行推 导计算,并将学习视为逆向演绎,主张用 显式的公理和逻辑体系搭建人工智能系统专家系统,知识 图谱,决策树等
    演化主义对生物进化进行模拟,使用遗传算法和遗 传编程遗传算法等
    贝叶斯主义使用概率规则及其依赖关系进行推理朴素贝叶斯等
    行为主义以控制论及感知-动作型控制系统原理模 拟行为以复现人类智能强化学习等

    v2-7e585fdf1e09ec905d7c8e42e9047556_r.png


    深度学习历史

    • 1980年,在美国的卡内基梅隆大学(CMU)召开了第一届机器学习国际研讨会,标志着机器学习研究已在全世界兴起。

    • 1980年,德鲁·麦狄蒙(Drew McDermott)和乔恩·多伊尔(Jon Doyle)提出非单调逻辑,以及后期的机器人系统。

    • 1980年,卡耐基梅隆大学为DEC公司开发了一个名为XCON的专家系统,每年为公司节省四千万美元,取得巨大成功。

    • 1981年,保罗(R.P.Paul)出版第一本机器人学课本,“Robot Manipulator:Mathematics,Programmings and Control”,标志着机器人学科走向成熟。

    • 1982年,马尔(David Marr)发表代表作《视觉计算理论》提出计算机视觉(Computer Vision)的概念,并构建系统的视觉理论,对认知科学(CognitiveScience)也产生了很深远的影响。

    • 1982年,约翰·霍普菲尔德(John Hopfield) 发明了霍普菲尔德网络,这是最早的RNN的雏形。霍普菲尔德神经网络模型是一种单层反馈神经网络(神经网络结构主要可分为前馈神经网络、反馈神经网络及图网络),从输出到输入有反馈连接。它的出现振奋了神经网络领域,在人工智能之机器学习、联想记忆、模式识别、优化计算、VLSI和光学设备的并行实现等方面有着广泛应用。约翰·霍普菲尔德(John Hopfield) 发明了霍普菲尔德网络

    • 1983年,Terrence Sejnowski, Hinton等人发明了玻尔兹曼机(Boltzmann Machines),也称为随机霍普菲尔德网络,它本质是一种无监督模型,用于对输入数据进行重构以提取数据特征做预测分析。

    • 1985年,朱迪亚·珀尔提出贝叶斯网络(Bayesian network),他以倡导人工智能的概率方法和发展贝叶斯网络而闻名,还因发展了一种基于结构模型的因果和反事实推理理论而受到赞誉。

    • 贝叶斯网络是一种模拟人类推理过程中因果关系的不确定性处理模型,如常见的朴素贝叶斯分类算法就是贝叶斯网络最基本的应用。

      v2-b879625acd95e9c125d81c967f24cbe1_720w.png

      贝叶斯网络拓朴结构是一个有向无环图(DAG),通过把某个研究系统中涉及的随机变量,根据是否条件独立绘制在一个有向图中,以描述随机变量之间的条件依赖,用圈表示随机变量(random variables),用箭头表示条件依赖(conditional dependencies)就形成了贝叶斯网络。 对于任意的随机变量,其联合概率可由各自的局部条件概率分布相乘而得出。如图中b依赖于a(即:a->b),c依赖于a和b,a独立无依赖,根据贝叶斯定理有 P(a,b,c) = P(a)*P(b|a)*P(c|a,b)

      v2-f2ca1ef23b299c216eb96765393ead63_720w.webp

    • 1986年,罗德尼·布鲁克斯(Brooks)发表论文《移动机器人鲁棒分层控制系统》,标志着基于行为的机器人学科的创立,机器人学界开始把注意力投向实际工程主题。

    • 1986年,辛顿(Geoffrey Hinton)等人先后提出了多层感知器(MLP)与反向传播(BP)训练相结合的理念(该方法在当时计算力上还是有很多挑战,基本上都是和链式求导的梯度算法相关的),这也解决了单层感知器不能做非线性分类的问题,开启了神经网络新一轮的高潮。v2-51edebbb2259d0f3b8ec667c76b68f65_720w.webp

    • 1986年,昆兰(Ross Quinlan)提出ID3决策树算法。

    • 决策树模型可视为多个规则(if, then)的组合,与神经网络黑盒模型截然不同是,它拥有良好的模型解释性。

      v2-b5edd21a2b88739ada3c9f4ac2994490_720w.png

      ID3算法核心的思想是通过自顶向下的贪心策略构建决策树:根据信息增益来选择特征进行划分(信息增益的含义是 引入属性A的信息后,数据D的不确定性减少程度。也就是信息增益越大,区分D的能力就越强),依次递归地构建决策树。

    • 1989年,George Cybenko证明了“万能近似定理”(universal approximation theorem)。简单来说,多层前馈网络可以近似任意函数,其表达力和图灵机等价。这就从根本上消除了Minsky对神经网络表达力的质疑。v2-538228b6f0ca45ae7b358cd8eab76ede_720w.png

    • “万能近似定理”可视为神经网络的基本理论:⼀个前馈神经⽹络如果具有线性层和⾄少⼀层具有 “挤压” 性质的激活函数(如 sigmoid 等),给定⽹络⾜够数量的隐藏单元,它可以以任意精度来近似任何从⼀个有限维空间到另⼀个有限维空间的 borel 可测函数。

    • 1989年,LeCun (CNN之父) 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络(Convolutional Neural Network,CNN),并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。

    • 卷积神经网络通常由输入层、卷积层、池化(Pooling)层和全连接层组成。卷积层负责提取图像中的局部特征,池化层用来大幅降低参数量级(降维),全连接层类似传统神经网络的部分,用来输出想要的结果。

      v2-04ca66f198c1e79aa2947618e1371f58_720w.png




    在算法、模型、数据、算力等方面与美国的差异,这是几十年积累的差距,并有逐渐拉大的趋势,


    A time series chart showing the creation of machine learning systems on the x-axis and the amount of AI computation they used on the y-axis measured in FLOPs.



    4.png


    v2-2c38c8c144e35953afcaa93c45c67e9b_720w.webp




    参考文章:

    人工智能与设计零基础手册!发展历史和定义+底层设计阐述 https://www.uisdc.com/artificial-intelligence-design

    人工智能70年:科幻和现实的交融 https://www.bbc.com/ukchina/simp/48596581

    AI算力70年增长6.8亿倍,3个历史阶段见证AI技术指数级爆发 https://36kr.com/p/2445468713654409

    大模型的启示:为什么ChatGPT出现在美国? https://zhuanlan.zhihu.com/p/606655367



    人工智能与设计零基础手册!发展历史和定义+底层设计阐述





    转载本站文章《AI史话:从图灵到ChatGPT到历史性学习笔记随笔》,
    请注明出处:https://www.zhoulujun.cn/html/theory/ComputerScienceTechnology/AI/8951.html