打印本文 打印本文  关闭窗口 关闭窗口
本届网友不会允许ChatGpt诞生于中国
作者:佚名  文章来源:本站原创  点击数  更新时间:2023/2/15 10:05:34  文章录入:admin  责任编辑:admin

 

  这个世界上,喜欢“代表月亮消灭你”的人,不在少数。考虑到这一点,大多数风投公司碰到此类项目,估计都会选择绕开走了。

  在过去不到三个月中,chatGPT这款由美国人工智能研究实验室OpenAI推出的应用,红到发紫:

  上线天,注册用户突破百万;今年1月份,每天接收超过1300万用户访问;2月1日,据悉已经实现用户数量破亿,成为史上用户增长最快的一款app……

  chatGPT爆火后,尤其是在微软宣布追加投资100亿美元后,整个科技圈、投资圈和资本市场都沸腾了。那些与chatGPT概念相关的上市公司,股价一夜暴涨。国内某知识网站因为与chatGPT沾边的一个传闻,对,仅仅是传闻,盘中股价暴涨超过50%。

  而为了对抗chatGPT,谷歌推出的同类产品Bard,只因回答错了一个问题,日内市值蒸发1000亿美元。

  对于chatGPT,比尔·盖茨评价:“这种人工智能技术出现的重大历史意义,不亚于互联网和个人电脑的诞生。”

  马斯克表示:“ChatGPT很惊人,我们离强大到危险的人工智能不远了。”

  不过,前者是openAI的投资者,后者则是它的创始人之一,他们说的,只能作为参考。

  还有人说,chatGPT让人类站在了“技术奇点”的前夜。言下之意,chatGPT可能让人工智能技术产生爆炸性的飞跃,直至在智力上超过人类。

  自然,面对如日中天的chatGPT,国内很多人不免要纠结一个问题:为什么不是中国率先开发出chatGPT?

  这个问题很复杂,却又容易回答。说白了,一项创新能不能成功,永远都离不开人才、技术、资金和制度环境这几大要素。

  实际上,chatGPT并不是什么颠覆性的技术创新,类似的研究开发,很多公司都在做。这就是为什么OpenAI推出GPT-3(也就是目前chatGPT的版本)后,不少互联网公司纷纷跟进,谷歌甚至能够在短时间内推出竞品的原因。

  chatGPT涉及的NLP(自然语言处理)、深度学习,都不是什么新技术。而GPT-3一出道就惊艳四方,就在于它足够“全面”,使用体验足够“新鲜”,无论是写代码,还是写论文、诗歌,chatGPT都能够胜任,毫无以前类似产品那种冰冷的“机械感”。

  这也是为什么,chatGPT对于它不擅长的领域,也能张口就来,一本正经地跟你说一通。

  换句话说,chatGPT令人惊叹的地方,在于它“训练有素”,拥有强大的语言理解能力和广泛的应用场景。做到这点,要对大量数据进行不断训练,这就需要大量的资金和算力。

  一个可能不为多少人知道的事实,GPT-3其实是不连接互联网的。它的回答都是基于预先加载和训练的数据。所以,chatGPT首页有一个提示:对2021年后的世界和事件的知识了解有限。

  即便如此,chatGPT所调用的语料库也是非常庞大的。据公开信息,作为目前全世界最强大的语言模型之一,GPT-3是在约三分之二的互联网、整个维基百科和两个大型图书数据集中进行训练,其预训练数据足足有 45TB。

  有人还专门计算过,GPT-3在训练过程中产生的碳排放量为552吨,相当于126个丹麦家庭每年消耗的能量。

  多说一句,chatGPT声称,它接受训练的数据包括了文字、图像、音频和视频等信息,但在中文语境中,其训练数据主要来源于文字信息。这或许是chatGPT在中文语境中的表现不如人意的一个原因。

  除了海量数据,上面频频提到的训练,也是一件极其耗费资金的事情。据悉,GPT-3的训练依赖于强大的算力,其在微软提供的超级计算机系统上进行训练,该系统拥有超过285000个CPU核心、10000个GPU和每秒400G的网络。数据显示,GPT-3训练一次的费用为460万美元,总成本更是高达1200万美元。

  根据《财富》杂志披露,OpenAI2022年的净亏损为5.445亿美元,其中计算和数据支出就高达4亿多美元。按照这样的烧钱法,2015年成立至今的OpenAI应该已经烧掉几十亿美元了吧。

  所谓“大力出奇迹”,也不过如此。这些年来,OpenAI一直就是在默默地烧钱,默默地研发,默默地训练模型。这种坐冷板凳的笨功夫,足以秒杀绝大多数的初创公司。

  不光在中国,如果你是一家初创公司,要做出类似chatGPT这样的产品,人才、技术这些都不去说,首先面临的是资金问题。OpenAI成立八年,前期融资仅微软一家就投了30亿美元(不包括这次公布的100亿美元)。

  哪怕初创公司幸运地拿到了投资,我们也不能以“后见之明”来说,它就一定能做成类chatGPT产品。

  在这漫长八年中,不仅投资者,包括创始人、研发人员,都不可能那么坚定地相信自己走的路是正确的,也不能预测什么时候能拿出一个颠覆式的创新产品。在这过程中,只要一缺钱,项目就可能半途而废。

  这些挫折OpenAI也不是没有经历过。曾经标榜非盈利的OpenAI,后来成立了以盈利为目的的商业公司(OpenAI LP)。

  前两年,由于理念分歧,OpenAI创始团队中有人自立门户,另外成立了一家公司,就是谷歌母公司投了3亿美元的Anthropic。这都反映出,在理想与现实、公益与商业等种种矛盾冲突中,OpenAI也曾摇摆不定,有所妥协。

  chatGPT也不是什么成熟产品。正因为训练成本高昂而且艰巨,OpenAI才决定公开目前的GPT-3版本,希望借助用户和外部合作伙伴来进一步完善产品。也就是说,当你在和chatGPT对话的时候,其实也是在帮助他提升自己。

  例如,在中文语境下,chatGPT竟然把《国富论》的作者说成托马斯·洛克(什么鬼),把《2001:太空漫游》的作者说成肯·克拉克(又是什么鬼),但经过几次纠正后,他就能够回答出正确答案了。

  即使人才、技术、资金到位,作为初创公司,还会碰到一个强大阻力,就是能不能沉下心来,搜集和准备海量的数据,然后不断地进行模型演练、深度学习,从而由量变引发质变,生成有质量的内容。

  大多数公司,在面对如此浩大的工程面前,不打退堂鼓,也会很鸡贼地钻入一个所谓“垂直赛道”,也就是只在某个领域、某个应用场景进行研发。基于资金和盈利的考虑,这是多数公司会选择的路径。比如我们经常接到的骚扰电话,现在很多都改成由“人工智能”来拨打和语播放了。

  数据的质量,以及产品输出的内容,才是决定初创公司成败的关键。如果你只是想研发一款人工智能客服,这可能相对简单,也能赚钱,但是要想研发出类似chatGPT的大型语言模型,就不可避免地会碰触数据安全、个人隐私、道德正确乃至政治正确等领域。

  要得到海量数据,就需要进行大规模的数据文本的收集,而这就会涉及数据安全。如果你没有足够的能力,或者在这方面没有足够的“授权”,产品还没研发出来,公司可能就开不下去了。近年来,一些平台型企业在这方面吃过大苦头。

  数据的质量也是一个问题。一般来讲,数据是“海水”,海水的颜色决定了产品的“成色”。而我们看到,中文互联网上充斥着大量无聊的、重复的、扭曲的信息,特别是那些经过人工修饰、刻意模糊、以谐音字替代的信息,如果不是长年浸淫厮混(这里提示有敏感词)其中的人,往往“不明觉厉”(这又是一个典型)。

  这对于语言模型的训练来讲是非常不利的,不仅会增加大量成本,也将影响到产品的最终质量。

  目前,GPT-3面临不少争议,包括被质疑涉及技术滥用和内容不道德风险等问题。如脸书的AI部门主管公开指责GPT-3不安全,他用GPT-3生成的一则推文蕴含种族歧视和暴力血腥信息。

  在很大程度上,这是chatGPT无法避免的问题,甚至可能成为他的“原罪”。

  这在不同的国家和地区,可能面临的后果又是不一样的。尤其是对于初创公司来讲,一款聊天机器人产品乱飚脏话、性别歧视、开“地图炮”,甚至涉及其他“道德不正确”或“政治不正确”问题,结果都可能是致命的。

  不说别的,连广大网友都不会允许这么一款产品的存在。这个世界上,喜欢“代表月亮消灭你”的人,不在少数。考虑到这一点,大多数风投公司碰到此类项目,估计都会选择绕开走了。

  当然,这不是说我们永远也做不出chatGPT这样的产品,相反,我们很快就会拥有声称能对标chatGPT的聊天应用。

  比如“说干就干”的百度已经宣布,3月份将上线类似chatGPT的产品,名字都起好了。

  初创公司要通过融资、研发、训练和上线类似chatGPT的产品,非常艰难。但是,在互联网行业发达的国内,有实力做出类似chatGPT产品的科技企业,不止一家。

  中国哪家企业能打造出中国版的chatGPT?对此chatGPT的回答是:百度、阿里、腾讯。不过,我觉得这个答案过于保守,如果从资金和技术能力看,这份名单后面还可以继续添加。

  只不过,基于前面所说的种种因素,哪怕是这些实力雄厚的科技企业,开发出来的中国版chatGPT,也不会是真正意义上的chatGPT。这些公司尽管有充裕的资金、雄厚的技术以及丰富的经验,但也更加追求“确定性”,他们不可能像OpenAI那样,在产品还“不完善”的前提下,就将其推向市场。

  但无论如何,我们很快将会有自己的chatGPT,不管它是不是叫chatGPT,也不论它在多大程度上拥有chatGPT的技术内涵,以及改变世界的力量。

打印本文 打印本文  关闭窗口 关闭窗口