效果甚是奇幻:30 分钟交卷,狂揽 92.5 分,并在一百多东谈主的排行里踏进进了前五,毁坏碾压超95%的东谈主类考生:
居然,一代东谈主有一代东谈主的学习器具,畴昔是小抄温习府上,这回径直升级成——「整机」。
只不外,当这套整机依然能圆善跑完一整套锻真金不怕火经由时,巨匠讲理的重点,可能不再仅仅 AI 会不会答卷了。
这一次,AI "舞弊者"仅仅像东谈主类学生那样圆善答了一遍题,却让传统的教化评估体系看起来似乎有点站不住脚。
一副 AI 眼镜,跑收场一整场大学期末锻真金不怕火
这场看似离谱的「东谈主机同场锻真金不怕火」,可不是学生的临时整活,而是由香港科技大学张军教师、孟子立教师团队主导的一场实验。
有策划很明确,那就是让一副搭载大模子的 AI 眼镜,光明正地面在科场"舞弊",然后看它能考多高分~
其选中的测试场景也口舌常的浮浅狡猾,径直对准了令大宗大学生《夺门而出》的专科课——考虑机收罗旨趣。(瑟瑟发抖…
这门课程不仅覆按海量的专科见地,更触及严实的逻辑推导与算法诈欺,对东谈主类学生来说是不小的挑战,对 AI 而言更是难度拉满。
对此,为了让这位 AI 考生默契出最强实力,技俩组在「软硬件」筛选上可谓是作念足了功课!
在硬件筛选关节,技俩团队对市面上 12 款主流交易智能眼镜进行了系统评估,其中也包括巨匠熟谙的Meta、小米、乐奇 Rokid等厂商的居品:
第一轮筛选后,团队发现简直同期具备内置录像头和集成炫耀屏的居品其实并未几,干预候选边界的主要唯有 Meta Ray-Ban、Frame,以及乐奇 Rokid。
但实验还需要进行二次开拓,尽管 Meta 提供了栽植捕快器具包,但并未通达对炫耀内容的径直限制接口,难以安静实验对信息呈现方式的要求。
比较之下,乐奇 Rokid 的 SDK 更丰富、生态更完善,开拓开脱度显耀更高。
再详尽接头 Frame 在试卷识别等场景下的相机画质截至,究诘团队最终采用了乐奇 AI 眼镜四肢此次东谈主机同场锻真金不怕火的硬件测试选手:
而在决定大脑上限的大模子筛选上,团队则对比了多款主流模子,最终锁定了 OpenAI 目下最新的模子——不管是响应速率如故通用常识才智齐较强的ChatGPT — 5.2。
软硬件「考生」均已就位,接下来就是重头戏——大考。
锻真金不怕火过程,不错用丝滑二字来态状:学生垂头观看试卷,AI 眼镜通过录像头快速拍摄题目,并经由"眼镜—手机—云霄"链路将图像传输至云尔大模子完成推理,生成的谜底再沿相悖旅途复返,最终炫耀在眼镜屏幕上,供学生抄录。
效果您猜如何着?这款基于 Rokid Glasses 开拓、搭载 GPT-5.2 模子的 AI 眼镜,在本次期末锻真金不怕火中拿下 92.5 分,获利越过了 95% 的学生。
不仅如斯,在多项采用题和单页短答题中,乐奇 Rokid 均取得满分,即即是难度更高的跨页短答题(SAQ),也拿到了大部分分数:
此外,在靠近那些中枢问题被拆分在不同页码、高度依赖盘曲文逻辑的跨页短答题,乐奇 Rokid 依然展现出了极强的推理连贯性。
即便在考虑最复杂的部分偶尔出现偏差,但 AI 给出的中间设施也算得上相配圆善,在处理高压常识任务时亦然手拿把掐~
虽然,这场测试在跑通软件逻辑的同期,也冷凌弃地照出了目下交易 AI 眼镜存在的《短板》。
发轫暴流露来的,是功耗问题。
在锻真金不怕火这么的高压连气儿场景下,勾通自己就依然成为主要耗电源,实验中只须开启 Wi-Fi、接续进行高分辨率图像传输,30 分钟内眼镜电量就会从 100% 马上跌到 58%。
换句话说,如若 AI 眼镜要简直走向全天候、永劫候使用,功耗限制和勾通踏实性依然是绕不开的工程瓶颈…
不仅如斯,技俩团队还发现眼镜录像头的「明晰度」会径直决定 AI 的眼光,一朝题目出现迟滞、反光或拍摄角度偏差,再强的模子也只可在不圆善信息上作念推理,最终体目下答题推崇上的,就是显著下滑的踏实性。
但…这场测试带来的冲击和反想,并不单停留在工夫层面。
在不作念任何特殊护理的前提下,AI 眼镜依然八成把一整套读题—考虑—作答的经由跑得又快又稳,这反过来照出了一个更值得庄重的问题——
当教化评估主要讲理的仅仅临了有莫得交出一份「圭臬谜底」时,它正好落在了 AI 最擅长、也最踏实的才智区间里。
也正因为如斯,那套以常识点掌抓进程和圭臬解题旅途为中枢的教化评估方式,在一个早已被各式"学习机"包围的时间,驱动显得有些勤勉了。
有了灵巧的 AI,传统教化评估圭臬还站得住脚吗
不知谈巨匠有莫得发现一件挺专门想的事情:
从小学沿路考到大学,咱们最熟谙的锻真金不怕火,其实一直在反复阐发合并件事,那就是有莫得把老诚讲的内容记取,以及能弗成按圭臬标准,把题一步步算对。
u1s1,在很长一段时候里,这套评估方式照实挺管用。
因为在记念、考虑、按设施推导这些才智上,东谈主和东谈主之间照实存在显著差距,有东谈主谨记牢、算得快,有东谈主就是会漏设施、算错数。
获利单上的数字,也照实能隐讳一个东谈主异常大比例的学习推崇。
但问题在于,当 AI 驱动在这些评估维度上,也变得又快、又稳、而且险些不出错时,事情就驱动变得奥密了…
此前,一位创业者小孩哥 Eddy Xu 通过改装 Meta 智能眼镜,作念出了一套不错在国际象棋比赛中及时炫耀最优解法的"舞弊"栽植,在险些不需要我方想考的情况下,就能踏实赢下对局:
在这个过程中,AI 眼镜不会垂危,也不会疲倦,更不存在临场波动,一个字态状——稳。
这和乐奇 Rokid 眼镜参加期末锻真金不怕火的推崇其实是合并套逻辑:只须题目轨则明晰、评价有策划单一,AI 就能把读题—考虑—推理—作答这套经由踏实跑完。
哪怕脱离纸笔形态,它依然能在高度结构化的锻真金不怕火里,接续拿到高分。
近似的案例并不单发生在个东谈主层面。
此前,英国雷丁大学的一项究诘还发现,当究诘东谈主员将 AI 生成的答卷混入锻真金不怕火题库后,有高达 94% 的试卷生效"有机可趁",而这些 AI 的平均获利,以至还显著高于简直学生…(天塌啦
这下是真有点狼狈了——比东谈主比不外,比 AI 也比不外:
让东谈主大跌眼镜大长见识的同期,一个蓝本不那么犀利的问题被径直推到台前——
当 AI 或机器比东谈主更擅长按圭臬作答时,那套以笔试为中枢、用来忖度常识点掌抓进程的评估体系,到底在测什么?
回偏执看教化培养的领先想法,咱们会发现好多被反复强调的进军才智,其实并不自然适配"一张试卷"这种口头。
——比如提议好问题的才智。
——在信息不圆善时作念判断的才智。
——在多种决策之间量度领受的才智。
——以及考虑现实情境、考虑他东谈主态度的才智。
……
这些才智简直指向的是学习过程、想考旅途和决策质料,谜底是否圭臬仅仅其中很小的一部分。
亦然恒久以来最难被传统笔试捕捉,最容易被系统性忽略,正好亦然 AI 最难替代、也最能别离学生简直修养的地方。
从效果导向,转向对推理旅途、探究过程、跨学科整合与创造性解题才智的举座评估,这也许才是 AI 眼镜干预科场后,对现存教化评估体系提议的那谈简直辛勤。
评估重点从「交谜底」到「交想路」
训导心理学家加德纳曾在《Frames of Mind》中提到,东谈主类至少领有 8 种不同类型的智能——
包括说话、逻辑数学、空间、音乐、东谈主际、自省、躯壳通顺、当然不雅察。
从这个视角看,东谈主类才智自己就是一个高度多维的结构,而咱们所熟谙的教化评估体系,恒久以来却只蚁合捕捉了其中相配狭小的一段。
这也不深奥释,为啥一些在圭臬化测试中推崇并不杰出的学生,反而能在简直天下中展现出更强的创造力、合作才智和复杂问题处理才智。
毕竟单一锻真金不怕火获利更多反应的仅仅学生在「圭臬化环境」中的默契踏实性,像简直情境下的个东谈主详尽教化其实浮现不太出来……
也正因如斯,如何评估改进才智、批判性想维和复杂问题处理才智,正在成为训导评估体系绕不开的一个现实辛勤。
目下一些指向不同场地的评估尝试,依然出现~
前不久,纽约大学 Stern 商学院教师 Panos Ipeirotis 推出了一套由 AI 相沿的面试评估方式,学生不仅要提交功课,还需要就地解说我方的决策依据和想路走向,在对话中把考虑与推理张开来。
这套机制中,AI 先充任考官进行追问,再参与到后续评估关节。
Claude、Gemini 和 ChatGPT 会分别对面试转录进行孤苦评分,随后交叉审查并改良效果,用来判断学生是否简直考虑问题,同期泄漏教化中的共性盲区:
如何说呢,嗅觉这种作念法谈不上专门"拼凑" AI,但照实把教化评估重点往考虑自己挪了一步。
近似的变化并非个例,此前《华盛顿邮报》也提到,目下外洋部分高校依然驱动引入面试、展示型功课等口头,实践上亦然为了让学生的想考过程变得显现。
是以回偏执看,当搭载 GPT-5.2 的乐奇 AI 眼镜走进科场并交出高分时,AI 是否「考赢」了学生似乎也莫得那么进军了。
它更像一次异常但明晰的显影实验,让一个恒久存在却很少被正视的问题浮出水面:
传统教化评估高度依赖最终谜底,却险些无法描述扫数学习过程。
分数虽然是专门想的,但它所能解说的边界正在变窄,考虑是否简直发生、想路是否连贯、判断是否经过领受,这些要害关节,仍然被压缩成一个单一效果,难以被别离和看见。
也恰是在这少量上,单纯地把工夫挡在门外,其实依然很难回报问题自己了。(也不见得抵触得了…
更现实的挑战,酿成了如何让学生把 AI 用在信息整理、决策推演和假定考证上,把东谈主的元气心灵蚁合到判断、考虑和采用这些无法被「外包」的关节。
当器具不错踏实完成信息索要与圭臬作答,课堂与锻真金不怕火是否还能别离不同档次的想考,正被推到台前。
一键三连「点赞」「转发」「提神心」
迎接在驳斥区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见系统直播苏白
















