一段200多年前的商人流水账,字迹潦草难辨,货币单位陌生,格式杂乱无章,却成为AI迈向历史理解的重要一步。
加拿大历史学教授Mark Humphries小心翼翼地将一份18世纪末的商人账本输入谷歌AI Studio。这份源自奥尔巴尼一位荷兰籍店员的记录,潦草地记载着朗姆酒、潘趣酒碗和糖锭的交易,拼写混乱,格式不一。
他未曾料到,谷歌神秘的新模型不仅准确识别了这些“天书”文字,还纠正了原记录中的格式错误,甚至推断出模糊数字背后的真实含义。
01 突破极限:从字符识别到历史推理
Humphries与Lianne Leddy博士共同构建的测试集,包含50份文档、约1万词,涵盖从潦草手写到正式书写的各种风格。
这些文献完全不在大模型的训练数据中,是检验AI真正能力的试金石。
在字符错误率和词错误率两项关键指标上,谷歌新模型表现出色:严格CER为1.7%,WER为6.5%。
若排除不影响理解的大小写和标点错误,错误率进一步降至CER 0.56%和WER 1.22%。
这一成绩表明,新模型已经达到专业人类转录员的水平,非专业人士的词错误率通常在4-10%之间。
02 糖锭谜题:AI展现隐性推理能力
新模型在处理一份糖锭采购记录时,展现出令人惊叹的能力。账本上模糊记载着“To 1 loff Sugar 145 @ 1/4 0 19 1”。
模型并未简单转写数字,而是推断“145”表示重量,并补充为“14 lb 5 oz”(14磅5盎司)。
为验证这一推断,AI完成了跨世纪数学运算:将1先令4便士单价统一为16便士,总价0/19/1转换为229便士,用229除以16得到14.3125,正好是14磅5盎司。
这一过程涉及历史货币与重量单位的多步换算,需要对18世纪计量体系的理解。
Humphries表示,没有其他模型在相同测试中表现出类似能力,这可能是统计模型内部自发形成的推理能力。
03 技术跨越:错误率断崖式下降
与前期模型相比,谷歌新模型实现巨大飞跃。在严格计分下,Gemini-2.5-Pro的CER为4%、WER为11%。
而新模型将这两项错误率大幅降低至原模型的1/7至1/9,提升幅度达50-70%。
这一突破意义非凡,因为大模型本质是“预测式”的,而历史文献中的拼写错误和风格不一致本就不可预测。
传统模型在转写不熟悉人名、冷门地名、日期或数字时表现不佳,而新模型在这些方面展现强大实力。
04 历史学家:AI将改变人文研究范式
作为测试者,Humphries对这一突破充满热情。他认为,AI开始跨越专家长期认为“当前架构无法逾越”的界限。
历史手写体识别不仅是视觉任务,更需要理解历史背景。缺乏相关知识,准确识别几乎不可能。
新模型表现优于受过专业训练的学生,这预示着历史学研究方法可能发生变革。
“最后一英里的准确性”一直是历史手写文本识别能被人类使用的前提,而新模型正接近这一目标。
05 业界反响:重新定义AI能力边界
虽然谷歌尚未正式确认,但业界普遍推测这一神秘模型就是即将发布的Gemini 3。
这一突破展示了AI在理解历史背景、进行隐性推理方面的潜力,远超传统OCR技术的能力范围。
从技术角度看,新模型展现的多模态理解能力,为AI在古籍保护、档案数字化等领域的应用开辟了新可能。
专家认为,这种进步可能标志着AI开始从单纯的模式识别向真正的“理解”迈进。
历史学界世代依赖专业学者肉眼破译的泛黄手稿,现在正被AI以惊人的准确度解读。
当AI不仅能识别200年前商人的潦草笔迹,还能理解其背后的商业逻辑,历史研究的本质也在悄然改变。