探索AI+汉字的技术

  • 为什么说汉字会为中国AI插上腾飞的翅膀?

    我读研究生的时候,有一门课就是《神经元网络》,只是那时候还是本世纪初,AI还没有火起来,这门课同学们也不重视,我也学得不咋好,但是讲课的教授有一句话我记得非常清楚,他说,中国人应该在AI上贡献更大,因为中文的语义交织,不是一位数据,而英语之类其他语言其实就是一维的语义

    这当然是教授提升我们自信的一种话术,但是我的自信也真的被提升了。

    但是,现在随着我对AI的研究越来越深,我发现——这真的只是提升自信的一种话术/狗头

    中文也好,汉字也好,也许从语言学上真的存在多维的信息,但是,对于目前AI主流的大语言模型(LLM),产出依然是一维的token序列

    记住这一点,这很重要!

    无论中文,还是英文,或者其他任何语言,对AI来说就是一个token接一个token线性地输出一维序列。

    举个例子——

    当前文字序列是Once upon,那么LLM可以产出下一个token是a,得到Once upon a。

    现在文字序列是Once upon a了,那么LLM又根据这个上下文产出下一个token是time,得到Once upon a time。

    现在文字序列是Once upon a time了,那么LLM又根据这个上下文产出下一个token是there,得到Once upon a time there。

    一次类推,最后能够也许编出一个故事:Once upon a time, there is a monk ……

    你换成中文,也一样——

    当前文字序列是『曾几』,那么LLM可以产出下一个token是『何』,得到『曾几何』。

    现在文字序列是『曾几何』了,那么LLM又根据这个上下文产出下一个token是『时』,得到『曾几何时』。

    现在文字序列是『曾几何时』了,那么LLM又根据这个上下文产出下一个token是『有』,得到『曾几何时有』。

    依次类推,最后也编出一个故事:曾几何时,有一个和尚……

    当你明白无论什么语言,LLM都只是根据当前token序列预测下一个token序列,就明白用什么语言没什么大差别。

    可能你会觉得中文信息量更浓缩,比英文单词信息量更大。

    如果只按字符来算,中文的确信息浓度更大,『我爱你』三个字符,英文需要『I love you』八个字母表示,这还单词之间两个空格字符。

    但是,LLM看到的不是字符,而是token。

    我们来看看token是怎样,可以利用 https://tiktokenizer.vercel.app/ 来解析字符串为token。

    I love China and its culture,被解析成6个token。

    我爱中国和她的文化,还需要10个token呢,就是你多大区别。

    总之,没有任何证据表示汉字就更适合AI,也许像我当年的教授说的,中文汉字存在多维度语义联系,可以让我们中国人考虑问题更全面,但是,汉字本身,对于就是产生token序列的LLM而言,和英文没有什么本质区别

    所以,不要说什么『汉字会为中国AI插上腾飞的翅膀』。

    但是,我们这些说中文的中国人有五千年文化的积淀,经过了百年耻辱的洗礼,走过了几十年的民族崛起,尤其是这几年报复出来的民族自信、制度自信、能力自信,都能让中国AI(或者任何一个其他领域)插上腾飞的翅膀。