甄巧脱口而出:“说不定是写作团队?”不过话已出口,她隐约觉得这句话也在另一个时空里问过。
莫向晚摇摇头。
“直到有一天,我将九月破歌的《美人谋》导进了电脑,用语言处理模型跑了一下,发现了更严重的问题。”
“什么问题?”甄巧好奇。
“类符形符比是864。这是衡量文章用词丰富程度的指标,数字越高,代表用词变化越多,作者词汇量越丰富。”莫向晚的眼神倏然凌厉,“四字成语出现的频率占比065,平均句长1218,平均句段长571。”
莫向晚终究是莫向晚,时隔这么长时间,依旧能凭空背出准确的数据。
“我对语料库不了解,这数值怎么了?”甄巧在一无所知的状态下,已经起了一身鸡皮疙瘩。
“要知道,因为每个人都是不同个体,写出来的文章风格也不尽相同。有些人喜欢用四字成语,所以文章的四字成语占比高;有些人喜欢写长句子,那平均句长就长。这些指标综合起来,是可以反映一个人的创作风格的。”
莫向晚说这些话的语气,和他讲课时的语气很像,温柔中带着冰冷的严肃。
“明白了,”甄巧点点头,“那这数据反映出九月破歌是怎样的人呢?”
莫向晚没有说话,只是静静地看着她。
“怎么了?”甄巧不解。
“九月破歌、刘长青、穿靴子的狗、解说老王……所有这些所谓的‘作家’,但凡文长一些,数据都一模一样。864,065,1218,571,036,842。”
“一模一样?”甄巧先愣了一会儿,紧接着反应过来了什么,“你是说,他们是同一个人?”
“不,即便是同一个人,也不能保证每部作品,这些数值都一模一样,更别提装作不同的作家了。”
甄巧更迷惑了:“那是?”
“我一开始也没想明白,明明就连ai生成也没办法保证这一点,除非每次写完后都刻意保持,但没有必要。”莫向晚咽了口口水,喉结上下移动,“直到我开始跑别人的数据。”
“跑谁的?”
“比如你妈妈的文,比如鲁迅、余秋雨、沈从文、萧红。他们的数据特征就非常鲜明,都不一样,而且差别很大。”
甄巧仍不明白他到底想说什么;她隐隐觉得,真正的重点还在后面。
而果然在后面。
“我试着算这些已知真人作家的平均数据。然后发现,纳入计算的人越多,他们的平均值越趋向于864,065,1218,571,036,842。”
“难道……”甄巧开始明白了,心里开始发毛。
莫向晚点点头:“九月破歌那帮人写的文章,像是学习了世间所有的文本,然后刻意生成的标准文本。这可比ai像人多了。”
甄巧四肢僵硬。
经他这么一分析,她才知道,这件事有多么复杂多么恐怖。
“后来我再看,发现了更严重的问题。”莫向晚的额头泛起了小小的汗珠,“从他们的文字中,我看不出任何东西。”
“看不出什么?”甄巧的嘴唇都是麻的。