教育理论网
您当前位置:综合信息 > 详细页面

受冲击的不仅是教育技术,更是教育的底层逻辑


2024年05月16日14:34 www.caixin.com

受冲击的不仅是教育技术,更是教育的底层逻辑

OpenAI的人工智能工具ChatGPT引起投资者广泛关注。2023年1月31日,Virtu Financial董事长、纳斯达克前首席执行官Bob Greifeld表示,2022年科技上最大的亮点是ChatGPT,该人工智能工具未来将有所发展。

“看来你迫切想知道答案!但我是来帮助你学习如何自主解决问题的,让我们看看这个方程式,你觉得第一步该怎么解?”

2023314日,美国人工智能研究公司OpenAI发布GPT-4同日,教育非营利组织可汗学院推出由GPT-4驱动的AI学习平台Khanmigo,学习者只要点开网页右下角的机器人气泡,就会收获一个循循善诱的辅导教师:它从不机械地甩出大串标准解题步骤,而总是用着积极、耐心的语调,不停询问“你怎么想?”“你觉得该怎么做?”

这位辅导教师仿佛真能理解学生的所答所想:它不仅能发现学生的错误,还能引导学生解释、反思推理的过程。比如,从错算的方程中“看出”学生还未掌握算术分配律,或一边解释每段代码的意义,一边手把手带领学生Debug(除错)。“它能够推测出学生心中可能存在的误解,这已经称得上一名优秀的导师了。”可汗学院创始人萨尔曼·可汗说。

在教育领域,GPT(生成式预训练Transformer模型)的到来称得上一场“地震”:ChatGPT一经问世,内容上的强大生产力便惊艳众人,一场究竟该限制、还是鼓励师生使用AI的争议蔓延全球教育机构;而当教育者还在为“ChatGPT是否会破坏我们所认识的教育”各执一词时,紧随其后面世的GPT-4和大量相关应用,再度扩展了GPT的影响边界——人们意识到,它不仅是一个网站、一个聊天框,还可以出现在备课、自学、练习等几乎所有教育场景中。同时,越来越多应用GPT的机构试图证明,如果正确使用,人们将实现“利用AI带来教育领域最大正面变革”的可能。

冲击同样蔓延至中国和中国教育企业。“非常震撼,可以说从根本上改变了业务和产品的逻辑。”网易有道CEO(首席执行官)周枫直言,ChatGPT发布后的两个月,有道内部各类讨论会、战略会轮轴转动,从技术到产品,几乎都被要求研读GPTGPT-3的核心论文。紧迫感前所未有,“我们的压力就是要快,新技术上来,一旦慢了,就会被动”。

各大教育企业和科技巨头,成为首批试水中国版“教育GPT”的玩家。在可汗学院发布Khanmigo两周后的330日,网易有道释放了“子曰”研发消息,称将推出教育场景下的类ChatGPT模型;55日,好未来宣布,学而思正在研发数学大模型MathGPT,将于年内推出基于该自研大模型的产品级应用;紧随其后,科大讯飞公开展示“星火大模型”,明确将通用大模型的能力推向学习机。

个性化一对一、私人陪练、超级辅导员??种种有关“AI+教育”的想象和愿景再度萌发、更新。亦有声音预警,企业和机构忙着技术跟风之时,教育界还未正视GPT革命带来的真正挑战——当“知识性学习”作为教育核心目标的地位不再,当教育的底层逻辑发生变化,人们以往所有在教育技术上的路径和指向,都可能是错的。

新一场人工智能教育革命,才刚刚掀起面纱一角。

“个性化教育”愿景

40年前,美国教育学家本杰明·布鲁姆发表了一篇题为《两个标准差问题》的论文。他通过量化研究发现,受一对一辅导的学生的表现比通过传统课堂教学方法获得教育的学生高出两个标准偏差,换言之,可以让一个学生从不及格到良好,从及格到优秀。

尽管“两个标准差”的进步如此鼓舞人心,但布鲁姆仍然作出结论:此路不通。当时,“为每个学生配备一个教师”的成本极高,绝无可能在各地大规模复制。这使他转而探讨如何在传统班级授课模式下,提供让学生达到或接近一对一辅导效果的教学法——但随后几十年中,不论同伴辅导,还是分层小组等,都还没有一种方法被证明像一对一辅导一样有效。

如今,这个故事再度被频繁提起。TED演讲中,萨尔曼·可汗将布鲁姆的“一对一”收益曲线打在了大屏幕上。而在接受记者采访时,周枫同样复述了布鲁姆的研究,表达了相似愿景:未来,两个标准差的“问题”,终于有可能转化为两个标准差的“机会”,极大地加速教育个性化的可能。

这在一年前,还是难以想象的事。

GPT到底有什么魅力?“对话”是关键词。数位受访教育学者强调,ChatGPT所呈现的问答模式,让“苏格拉底式的对话和辩论”成为可能,这一包含反问、质疑、质询过程的古老教学法,被视为培养学生表达能力、提问能力和批判性思维的有益途径。“现实中,不是每个学生每时每刻身边都有一名教师,提供即时反馈,但以ChatGPT为代表的生成式人工智能或许就可以做到。”北京大学教育学院长聘副教授尚俊杰说。

AI和使用者能言之有物地持续“对话”,本身可谓重要技术飞跃。要让AI更“类人”,有常识、懂语境是基础。过去近20年内,行业投身知识图谱技术者众,却极少预料到语言大模型能成为解决AI常识推理问题的一把钥匙。GPT的进化能力更是让人咋舌,2022年年中,美国微软公司联合创始人比尔·盖茨曾要求OpenAI团队训练GPT来通过高级生物学考试,“我以为这个挑战会让他们忙上两三年,他们只用了几个月就完成了。”盖茨说,“(GPT的表现)相当于在大学水平的生物课程中得到AA+。”

“个性化教育”“一对一教学”概念本身并不稀奇。ChatGPT横空出世之前,中国已经历过以“自适应教育”为代表的第一轮AI教育跃进。2017年以来,AI教育融资一路走高,好未来、高思、松鼠AI、流利说、猿辅导等一众教育企业弄潮其中。从最早的拍照搜题、口语测评、精准推题,到更综合的学情监测、AI课堂等,各类应用场景已逐步渗透“教学测练评”等各个层面。如今,市面上流行的智慧教育产品,如智慧白板、智能台灯、智能学习机等,大都是“自适应”时代的产物。

“自适应”的主要理念,是将学习者数据反馈给已有的知识图谱评估和测量,定制相应的授课难度和学习节奏,来实现一对一、精准学。各项技术应用绕不开两个核心问题:基于“学习者应该掌握哪些知识”,构建细粒度的学科知识图谱;基于“判断学习者学得怎么样”,收集并分析学习者动态和静态信息。

“最小化到一道题上,就是我们去拆知识点,看学习者哪一步做错了,去推断对象没有掌握好的知识点,再推送相关题目或进行概念提示。”一位AI课堂技术从业者曾告诉记者。

曾被寄予厚望的“自适应”,在技术和应用日趋成熟时,局限也更加清晰:技术上,科目、年龄、层次、个体差异乃至受教育环境影响的程度等,须考量要素的跨度之广,让企业在建立有效、精准学习模型过程中进展艰难;更重要的是,对相似题型、相似知识点的思维直觉,大部分学生也可以通过日常作业或训练建立,未必如此依赖AI“授予”。“我们教育的目的,就是把所有的知识点都‘喂’给学生吗?这是否还是一种填鸭式的教育?”前述技术从业者如此表达困惑。

“但GPT不一样,过去所谓的自适应学习,大多是在已有的知识点里建模优化,而GPT是个再生产的过程。”多鲸资本合伙人葛文伟说。

业内通常将以GPT为代表的大模型技术称为“生成式人工智能”,来和自适应技术时代的“分析式人工智能”相区分。乐观者认为,GPT提供了一种新的可能:人们或许不再那么需要构建一个先验的好学生,再把这个“好学生”会学什么、如何学当作一把标准的尺子,去丈量每一位真实学生的表现好坏;相反,学生理应自己决定学什么、如何学,并在苏格拉底式的问答中学会学习。

事实上,即使性能大幅优化过的GPT-4,现阶段应用表现仍不尽如人意。IEEE(电气和电子工程师协会)人工智能标准委员会主席佟佳睿在一篇Khanmigo评测文章中提及,Khanmigo非常善于通过提出问题、激发批判思维、表达数学公式和解题思路来辅导学生,但还存在一个致命问题:答案不值得信赖。“即使小学数学,我也遇到过不正确的答案。对于需要更多计算的进阶数学或物理问题,Khanmigo就更糟糕了。”

但从业者仍对GPT和相关应用前景寄予厚望。周枫称,以GPT为代表的大模型最让人惊喜的,是其“涌现”的能力,即在小型模型中并不存在,但在大模型中“突然出现”的能力,包括常识推理、问答、翻译、数学、摘要等。或许GPT目前还表现得像个数、理不好的文科生,可偏科问题并非无解,“大模型还有机会进一步获得更多能力,比如一旦“推理”能力涌现,思维链提示策略就可以用来解决多步推理的难题”。

对国内一众教育科技企业而言,是否以及能否尽快搭上“大模型技术”这辆车,是可能影响其未来发展的重要分野。

行业追赶

早在今年春季大众热议ChatGPT之前,教育和科技圈内“技术追赶”已经开始。科大讯飞向记者表示,ChatGPT亮相后,讯飞内部“迅速进行了相关的技术和研发体系的验证,确定我们具备整建制的研究团队”;网易有道在今年1月集中召集“总监以上的团队连续开三天会”,抓紧讨论GPT产品方向;学而思同样赶在春节前,由首席技术官田密领头,启动了GPT项目团队建设、数据、算力准备和技术研发。

全球教育科技行业亦是风起云涌:过去三个月内,美国、欧洲、亚洲、中东等地,已有十余家教育企业宣布推出基于ChatGPTGPT-4AI应用,包括美国在线教育公司CheggQuizlet,开放在线课堂平台CourseraedX,语言学习平台多邻国,波兰作业问答平台Brainly,约旦教育科技公司Abwaab等。

上一轮AI教育热潮中,国内教育企业表现惹眼:从全球看,中国宣布投入自适应技术的教育机构数量最多,且计算机视觉、教育数据挖掘等核心技术达到一流水平。但在新一轮AI教育竞赛中,“追赶”成了关键词。业内共识是,OpenAIChatGPTGPT-4已甩开同类大模型产品一个档位的差距。训练大模型在硬件投入和维护成本上动辄数亿美元的门槛,也足以让大量后入局者望尘莫及。

壁垒之下,中国版的教育GPT出现两条路径:科技巨头研发通用大模型,向教育应用落地;教育龙头研发垂直大模型,力争深耕“一亩三分地”。

科大讯飞方面告诉记者,企业在20221215日,启动了认知智能大模型的专项攻关。“我们把它叫做‘1+N的专项攻关’。这个‘1’就是通用的认知智能的大模型,‘N’就是把这个大模型在各个领域落地,其中就包括在教育领域的落地。”

202356日,科大讯飞“星火认知大模型”正式发布,董事长刘庆峰现场重点介绍了通用AI大模型能力在学习机上的表现。“相比传统学习机只能针对字词标点纠错、识别句式修辞错误这些基础批改,星火大模型的加入使科大讯飞AI学习机实现了围绕写作要求、分析全篇结构和文采的深度高阶批改。它还可以利用AI润色技术生成片段优化参考和写作建议提升。”科大讯飞方面称。

率先发布通用大模型“文心一言”的百度,也在教育领域有了新动作。522日,百度小度青禾学习手机,称该手机搭载“小度灵机大模型”,可提供AI拍照讲题、中英文AI作文辅导、AI口语练习等学习指导。与之对照,网易有道、学而思瞄准了垂直领域的大模型。

据记者了解,有道“子曰”在口语教练、作文与阅读教练、各科习题答疑、编程学习答疑等六大场景已有实质性进展,将于第三季度落地。有道称,相较依靠海量语料、动辄数百亿参数的通用大模型,“子曰”在模型参数、语料规模上更小一些,但基于场景拉动的大模型在教育垂直领域问题上具有更强的专业性。目前,瑞芯微是有道最大的芯片合作商,周枫介绍,相关合作可以让Transformer在智能硬件里更高效地运行,未来会赋能全线的产品。

周枫告诉记者2017年后,有道底层的NMTOCRASRAI能力已经逐步统一在Transformer模型之下,为“子曰”研发打下技术基础。有道计划先推动“子曰”在实际场景中落地,再通过该场景提供的行业数据和用户反馈,优化领域效果。记者了解到,有道内测中的AI口语教师”,在实际设备上的内测单次推理成本远低于通用大模型。

好未来则更“出其不意”:在同行纷纷将口语、作文等大模型的“优势项”作为教育应用落点时,55日,学而思宣布启动数学大模型——MathGPT的研发,且“不基于现有大模型做微调和接口调用、不做通用大模型,而是自研基于专业领域的MathGPT”,预计年内推出产品级应用。同时,学而思将在美国硅谷建设团队,计划成立一支海外算法和工程团队,在全球范围内招募人工智能专家。

“培优”出身的学而思现有20年的数学教学经验,在MathGPT训练的数据积累上更具优势。但现有研究显示,若以思维链提示策略等主流方式强化大语言模型在数理方面的复杂推理能力,不仅要求大模型足够“大”,更要在调优中承担更高的手动注释成本。经历“双减”冲击后的好未来,能否持续投注百亿参数量的大模型训练与调优,且最终成品能否超越通用模型在数学任务上的表现?业内不乏争议。

一个客观挑战是,海外教育企业可以直接和GPT-4接口,形成统一大模型+多元应用,大幅缩短每个具体应用的开发周期和人力投入,也能基于GPT-4推理、常识和写作能力获得更好效果;而当前,因国内还没有相对成熟的统一大模型,首批响应GPT技术的教育企业大多走分散的模型开发路线。“应该是构建在更大模型基础上才有在教育上做应用的可能,如果实质还是构建在教育企业已经获得的数据,或者在原有知识性学习基础上去反推,这样的模型能叫大模型吗?”葛文伟表达疑虑。

“双减”后,多家教育公司主动或被动转向,投身教育硬件市场。而在新一轮AI教育热潮中,教育硬件或将迎接新一波爆发性的机会:如学习机、词典笔等智能化硬件大多可适用于各类交互场景,有望在大模型基础上训练成表现良好的“伴学”终端。目前,各厂商也普遍将硬件作为教育类GPT产品的首选着陆点——科大讯飞基于星火大模型推出的英语对话、作文批改功能,预计率先在其旗舰学习机T20系列上装载;学而思明确其旗舰学习机将上线一款“AI助手”,涵盖作文助手、口语助手、数学助手相关功能;而已经发布剧透视频的有道AI口语教师,未来同样可能出现在有道多个核心产品上。

据艾瑞咨询,中国消费级教育智能硬件市场的规模在2021年跃升至353亿元,增速达到41%。另据前瞻产业研究院数据,2020年天猫商城的学习机市场份额前五分别为步步高、优学派、读书郎、小霸王、科大讯飞,份额更高者多为在硬件设计生产和供应链体系上更完备的传统企业。但GPT的到来,或将“搅动一池春水”——对后入局的教培企业来说,课程、教研、以及大模型加持下的AI“软实力”,将成为其争夺市场份额的利器。

周枫预测,预计到今年下半年,行业内相对成熟的类ChatGPT教育应用将集中面世,产品效果和实际用户量将见分晓。

变革:迅急与迟缓

“我担忧的是,企业、机构去‘跟风’做教育GPT类产品,但底层的逻辑还是应对题目、考试的老路子。”北京师范大学未来教育高精尖创新中心执行主任余胜泉说。

在余胜泉看来,越是面向思维成长关键期的青少年,越应审慎思考如何“用好”生成式人工智能。“人们使用AI,本质是认知外包的过程,关键是在人机对话中,机器的认知要有没有反过来增强人的认知?让ChatGPT做启发式答疑,是诱导学生思考,但让ChatGPT直接给出答案,是短路学生思考。”

他以作文批改为例,“我直接给你换个词、换个句子,本质就还是知识库那一套;能不能通过对话式启发,让学生感受到换词、换句后句法或意境变化的过程?只有促进了这一层认知,这个应用才是成功的”。在这个意义上,“我还没有看到国内真正的ChatGPT式的教育应用”。

对教育界而言,GPT冲击的不仅是教育技术,更是教育的底层逻辑。上海市宝山区教育局局长张治曾在“ChatGPT与未来教育”沙龙上,以“知识不再有用、教育工具失效、能力模型迷茫”概括GPT带来的全方位震荡:“我们不知道未来需要培养怎样的人才,以及需要具备哪些核心能力。我们过去重视的听、说、读、写、推理、运算、想象等能力是否还将有用?这些能力模型的重要性会不会不如之前(的模式)?”

葛文伟观察到,当前各教育企业在大模型的研发和应用上,往往还带着思维惯性——仍是在既有的知识性数据积累上,着力优化学习的效果和效率。“如果大家不能认知到基于大模型下的GPT教育应用是解决学什么的问题,那么今天所有的逻辑都是错的。原有的经验也好,壁垒也好,数据库的能力也好,可能都是累赘。”他直言,“现在真正面临的难题是学什么,需要的是企业脑洞大开,如果一家创新型的企业能解决这个问题,它的后发优势和颠覆性优势就出来了。”

比之市场,公立学校的响应则更为缓慢。联合国教科文组织对450多所中小学和大学进行的一项新的全球调查发现,只有不到10%的学校制定了关于使用生成式人工智能应用的机构政策或正式指导——当这些能在书面和视觉上进行创作的强大人工智能应用突然兴起,教育机构很难做出及时的反应。

事实上,在过去数年中,中国基础教育,尤其是公立学校系统正飞速步入“大数据+AI”的数字化转型快车道:中央层面,国家智慧教育平台建成,着力普及优质教育资源,共享教育数据;地方层面,多地力推教育新基建,打造区域性数字平台;而到“最后一公里”,大量应用人工智能深入到学校教育的各个领域、各个环节,包括自动评分、AI语音助手、虚拟实验室、智能化教学和精准化教学等。尤其在京、粤、江、浙、沪等发达地区,不少学校借力中央和地方政府资源,又与钉钉、希沃、科大讯飞、海康威视等第三方厂商广泛合作,数字化程度已大幅提升。

学校能有多“智能”?记者访问浙江省内一所公立中学时看到,光是在“学生画像”这一切面上,校园系统已可以精确显示各班学生各科知识点掌握情况、测验错题情况、成绩趋势、学科均衡度等;同时,综合反映学生体质体测、班级和校园纪律表现等体育、德育情况。“比如学生违反了班规,班委到电子班牌那里编辑‘扣一分’,就会记录到学生的德育数据里,给过程评价提供参考。”该校技术负责人称。

“关键是,我们在用什么底层逻辑使用技术?”一名从事教学管理多年的中学教师告诉记者“最近两三年,我们走访了不同学校和公司,看到的产品要么是做学生表情、行为数据收集的,要么是做推题这种知识点巩固的。推题当然可以用,比如给跟不上的孩子用来补弱——但今天最重要的已经不是知识点了,我们想要达到思想的高度,想要教给孩子开放的、思辨的思想,迄今还没有能辅助这类需求的技术产品。”

“中国的学校在硬件设备上,已经超过了绝大部分国家的平均水平,但在应用层面上,大约70%80%,仍然停留在‘知识灌输’这个传统的思维阶段。”余胜泉说,“教育信息化产品的提供者,需要有教育领域的背景知识,需要具备良好的教育科学素养。”

一些教育者提出,ChatGPT的出现,进一步暴露了单一知识性学习和相关支持性技术的理念局限。“教师提供信息,然后进行浓缩和重复的旧教育模式不会为我们的学生在课堂上取得成功做好准备,也不会为明天的工作做好准备。”202319日,美国布鲁金斯学会发表了名为《ChatGPT:教育的朋友还是敌人?》的文章,“我们应该让这种模式平静地死去”。

无论校内还是校外,相关讨论、反思、行动与改革,尚未成规模地开展。

ChatGPT深刻地冲击了当前教育的常规。比如说考试怎么考,还考不考?上课怎么教,教的东西小孩都知道了怎么办?它对教育的挑战既是潜在的,也是非常真实的,而且最终损害的往往是那些学习能力较弱的人。”21世纪教育研究院名誉理事长杨东平此前在《中国儿童发展报告2023》发布会上预警,“教育领域还没有多少人感到现实的危机,还是把它作为一个社会新闻来看待,这是不对的。没有人去认真对待这个问题,我想这本身就是一个严重的问题。”



分享到: