Notation

写在前面

写大作业的时候顺便进行的一次吐槽

生成式人工智能(Generative Artificial Intelligencce)的浪潮席卷了全球。ChatGPT,Deepseek为代表的语言模型,Midjourney,gpt-4o(绘图能力)为代表的文生图模型,sora,可灵为代表的视频模型,加之正不断出现的3D模型(混元),语音模型,安全模型,空间智能(李飞飞团队)等新模型,当前世界正在被名为生成式AI的技术全方位覆盖。
在新型媒体和短视频平台的鼓吹下,巨大的流量和资本也向生成式AI涌去,此时的AI正站在从未到达的新高度。人们扬言着:通用人工智能,甚至强人工智能将在几年内出现!哪怕不幻想未来,当前生成式AI来势已经过于凶猛,以至于人们似乎还未能接受便已经沉浸其中了。以GPT-4o吉卜力风格图像为例,本文期望能够进行一个简单的回答:残缺的人们该如何保持完整。

事件简介

GPT-4o是生成式模型前沿企业OpenAI的代表产品,其结合文本对话,图片理解生成,语音对话等能力于一体,在全球范围内被广泛使用。在一次升级中,OpenAI为其融入了前沿的图片生成能力,并由OpenAI CEO Altman 带头掀起吉卜力工作室风格AI生成图像的热潮。借助GPT-4o,用户可以自由地将各式各样的图像转化为吉卜力工作室风格的图片,吉卜力风格与著名动画导演宫崎骏风格相挂钩,这样的功能迅速在互联网走红,引发全民狂欢。 从技术上来看,GPT-4o并未公布其模型的具体实现,学术界猜测GPT-4o是一种自回归生成的创新。它能够通过自回归的方式逐步来细化画面,又由于其出色的语义理解能力,能够实现对用户需求的深入理解。不仅如此,基于自回归的方式允许模型接受图像作为输入,能够进一步根据要求修改图片细节。在实际体验上十分惊艳,确为前沿技术落地的重大突破。 除了生成吉卜力风格之外,GPT-4o生图还被广泛用于其它领域,如生成梗图(meme),生成工作环境的简单图像说明,生成学术领域的配图,完成学习工作上图像修改等。这样广泛地使用很快引发了一系列的伦理和版权争议,GPT-4o迅速成为伦理讨论焦点。

可能的两点思考

GPT-4o引发的更多可能是版权问题。吉卜力工作室等风格的火爆并未给风格的版权方带去直接收益,反而是GPT-4o借助这些风格在全球范围内拓展用户数量和得到收益。这些讨论并不是本文的重点,本文试图从另一个角度来讨论这样的现象。

侵入性

GPT-4o的风靡是直接从日常生活开始的,这体现了一种很强的侵入性。相比于其它前沿技术先从工业或生产环境开始逐步发展,GPT-4o首先是作为互联网社交媒体的头像开始发展的。借着宫崎骏导演的影响力,GPT-4o以一种柔软的方式出现在文化领域,并逐渐的,在宣发下,顺着短视频等社交平台追热点的特性进行病毒式的传播。紧接着,无论是社交时发送的梗图,微信公众号等文章的封面和配图,以及后续不断出现的如:模糊真实图片,X光等各式风格图像打卡等。用户使用GPT-4o生成图像,实际上更多的是用于无法直接产生经济价值或日常的生活环境中。GPT-4o的图像和人们的情绪,社交和文化产生了直接关系。无论生成式模型是否志在于此,但它确实侵入了人们的日常生活。

这样的侵入性有什么问题?从模型发布的那一刻起,厂商们就希望AI与手机一般成为人们无法离开的东西,即这样的侵入性是一种有意的绑定。为了达成这样的目的,有的厂商会更专注模型的情绪价值。但不像科幻电影《Her》那么直接,他们选择了与互联网特性相结合的软绑定,即通过有意的宣发带动风潮:可能是换一个吉卜力风格头像,可能是制作一种诺贝尔奖颁奖风格的图片,可能是制作一段名人的恶搞视频,可能只是单纯让各种世界名画动起来。它们并不十分能给用户带来工作上的便利,但它们足够简单,足够有趣,足够魔性,足够有影响力能号召全网模仿和参与。

这样的侵入性也体现在手机上。手机成功侵入了人们的生活,成功与人们完成了绑定,它同样简单,便捷,“无所不能”。那生成式AI相比之下又有何不同?个人认为,手机是载体形式的,与用户直接交互的是由各个厂商提供的应用。手机只是包含了这些内容,每个应用都有自己的局限和学习曲线,都需要投入精力去学习,思考和操作。每个应用都是分步完成交互的,尽管底部逻辑不向所有人透明,但是所有用户都能得知应用的基本逻辑。但这在生成式AI上大为不同。人们不知道,无法知道,也不关心生成式AI的逻辑。它虽然存在学习曲线,但正随着技术发展而逐渐消失。它并不需要”分步“参与,它对于用户来说(从它的目标来看),只需要用户提供自然语言描述的需求和消耗一定的等待时间便能得到高质量的反馈。 这样的交互消磨了人的主动性,即高度侵入的生成式AI正在培养不需思考的人。

这样的论点在搜索时代同样出现过。谷歌搜索,互联网搜索彻底改变了获取知识的方式。在这之前,人们需要大量的阅读和查找才能得到需求的知识。当时的人们也指出,搜索正在培养懒惰的人。这二者等同吗?我无法站在未来的角度回答,但我认为这并不等同。搜索将大量的知识离散化并归纳起来,抛开是否高质不谈,通过匹配的方式是管理大规模数据的常用方式。现代的计算机技术,互联网技术,哪怕是银行等简单管理系统都离不开这样的方式,只不过搜索实现的是知识的数据化。但在生成式AI,数据化的知识成为了AI的黑盒。它的交互方式顺应着浮躁和快节奏诞生,输入,等待,输出,高质和精细化的反馈让知识变成了超加工食品。生成式AI下,社会正爆发着知识的肥胖症。

技术与知识的异步

个人认为,一种可能的解决方法是技术和知识的同步。 此处的技术指:生成式AI技术及其产品的使用,知识是指:使用AI技术需要的知识。 造成人们主动性和思考消失的可能原因是,知识和人的剥离。原本压缩并存放有损知识的主体是人,而在生成式AI时代变成了AI。这样的主体性消失,使得人变成了从替代人的生成式AI中提取知识的工具。人变成了知识的中间媒介,与书本目录和搜索条目一般,只在需要的时候用于知识的缓存。知识不需要切实地经过人,只需要从表面掠过并输出到另外的存储空间。 这样的人是残缺的。所以人需要主动地获取知识来重获主动性。 因为存在不可避免的对抗性,人需要获取的知识也应该远超之前的时代。可能体现在:普通人也应当了解生成式AI的架构和基本原理。即使用AI技术的人需要了解AI技术,这之前大为不同。 我们不需要了解手机构造而能使用手机,我们不需要了解互联网而使用互联网,而我们可能需要了解AI来使用AI,特别在AI技术广为传播但尚未成熟时。这样的知识能直接帮助我们了解由AI技术引发的版权问题,伦理问题,也能直接启发我们“AI拥有什么知识和我们拥有什么知识”。 但是在现在,技术和知识的传播是不同步的。技术在新闻媒体,短视频平台,即当今异常发达的互联网条件下传播十分迅速。任一个产品发布的风声走漏,便可以立刻在小红书,抖音,微信公众号等平台上看到相关的信息。同时,对于绝大多数产品,技术的使用是基本没有学习成本的,或者说需要学习成本的技术产品受众都不广泛。ChatGPT,豆包,千问,Deepseek,自然语言进行交互的同时所见即所得。产品对功能的高度封装使得用户只需要简单的点击鼠标和屏幕便能得到需要的输出。这对技术的传播来说极为有利,生成式AI产品迅速在全球普及。但知识难以跟上这样的传播速度。知识往往需要大量的时间成本去学习,也需要较多的耐心去主动探索,人的惰性使得知识的传播重重受阻。 那是否有实现知识快速传播的方法呢?一种可能的方法是在技术和知识之间进行平衡(trade-off)。即我们反过来通过传播技术来传播知识。具体而言,可以通过开发更多带有中间过程的AI产品来简化知识表达和学习成本。现在已经有较多类似的产品,虽然大多止步于AI概念,但更有新意和实用性的产品应该会很快出现。

结论

实际上,人类的知识存量已经远不如生成式AI。再高的天赋和再多的时间投入也无法达到当前的前沿模型。在知识储备的对抗上,人早已败下阵来。在这样的背景下,实现技术和知识的同步也好,通过AI快速学习知识也好,学习知识都不应该是最终目的。在这过程中更为重要的应该是主动性,是在与生成式AI进行“孰为知识的主体”的对抗中居于优势。可能只有从AI手中夺走这种主体性,人才能从残缺中得到一定的恢复。知识不应只有储备和使用这两个维度,在这两个维度人已经比不上或者正在变得比不上AI,人应该用自己的方式去找到新的维度,来体现人在AI时代的价值。