对于AI,我们现阶段可以有的态度
发布时间:2024年06月06日
“你原来工作的节奏不用改变,只是希望你有时间了来AI这里熏陶、学习和了解”这是我在B站的另一个分享AI绘画的博主那看来的留言对话的大致意思。
我很支持他的这个观点,因为这反应出的是他对当下AI现状和发展的理解。
以下的几个观点,也仅是代表我个人的一些感想,供给大家参考,不喜勿喷。
现阶段,AI还不是我们的必需品
今年年初ChatGPT迎来了爆炸式的井喷,接着各路的AI人工智能都纷纷你追我赶地推出各种的AI产品,把我们这些普通人给“轰炸”得有种“拍马不及”和“眼花缭乱”的感觉。我也作为一个兴趣爱好者,也开始了追逐和探索AI这个神奇的,将来可以对人类的帮助或伤害哪个更多也未可知的人工智能。
总体感觉,AI的到来,的确可以为我们的工作和生活带来许多便利,但目前阶段的技术,对于我们大多数普通人来说,我个人觉得,他还不是我们工作和生活的必需品。有,可以让我们的一些内容生产者的生产力得以释放;没有,对于大多数人来说,也没影响到生活原有的节奏和轨迹。
但这不妨碍我们现在开始尝试着接触他,了解他,至少在有一定认知后,不至于出现最近的那条“AI换脸、声音克隆后,被诈骗400多万元”新闻那样的事情发生。
===========================
AI可以辅助,但需要投入学习成本,并非信手拈来
有了AI辅助,可以将工作做得更好些,但想要达到一定的高度,你还是需要付出很多学习成本的。不要被某些账号内容误导了,什么动动鼠标,给几句提示词就能让AI帮你又是写代码、又是建网站、又是出多么美妙的画面......。如果都如他们所说的那么简单,那你的饭碗也早没了。
需知道,即便是最简单的,普通人能触及和上手的大语言模型的使用,你知道如何与AI对话才能获得你想要的结果么?如果想让他帮你做些更专业的更具体的更精准的,能为你所用的内容生成,你还真需要下点功夫去学习下如何与AI交流的自然语言编程。否则,你想让他帮你完成一篇高质量的某主题的文章,如果你没有给出一个合适的指令,一些必要的交谈,或许他写出的内容看似夸夸而谈,但仔细看会让你大失所望。
包括AI绘画也一样,会用会玩,图个新鲜有趣,自然很容易就能上手使用;但如果要想做到可以落地商用的程度,就需要你投入相对应的时间成本来深入学习和熟练掌握了。很多人,其实都是出于好奇心、想看看的心态,才跟着被带节奏,从而把AI的高度吹抬的那么高的。
===========================
AI可以辅助,普及和商用都需要一个过程
我能想到的是做本地部署的开源大语言模型,虽然6B的小羊驼ChatGLM未必能如ChatGPT那么神奇,但如果可以接入各自专业领域的微调模型后,或许还是可以做到不错的实用效果的。我跟搭档虎哥聊了不少,他的感受是,训练微调模型,不是我们这种小团队可以做到的,需要的工作量很大,光整理训练用的20w~50W条语料都是一件很大工作量的工程了,何况还是各自专业的领域,作为门外汉的我们哪里找得到那么多的专业材料作为投喂的语料?这就有些“大公司看不上,小公司没能力上”的局面。
或许在不久的将来,随着AI技术的逐步迭代后,会有更便捷的应用方式和数据处理手段,能实现更便捷地本地部署后的专项领域的数据投喂和使用。
包括AI在其他模态的技术依然不算成熟和便利,需要一定的时间来迭代和发展。虽然目前有些领域是可以做到可落地商用,但依然有不少更高要求的领域,目前AI技术水平还达不到他们的使用标准,或者是使用成本还偏高。
===========================
现阶段的学习了解的必要和方式心态
通过3个月时间的追逐、学习、使用、体验后,虽然我自己投入了不少时间在Stable Diffusion,但依然还有搭档配合,让我们能在其他模态和领域得以探索和交流,除了AI绘画之外,我们在大语言模型和本地化部署ChatGLM,声音克隆、虚拟数字人直播间以及效果不输于D-ID的口播式视频Saltalk的使用都有或多或少的了解和跑通。
现在停下来思考,觉得对于我们大多数普通人来说,有限的时间,想了解和学习AI,除了个人兴趣的某个板块外,最需要的是在大语言模型的基础上的多些学习、了解和实操运用,特别是对提示工程的学习。因为这关系到你与AI交流的质量,交流的质量是很大程度影响到,你能从AI那获得帮助的效率和可靠性。
用什么样的交流方式,对话模型,获得怎样的输出效果和呈现;
用怎样的指令和那些操作,能让他明白你心中的想法和意图;
...
这些都需要我们有一个相对系统化的对提示工程或深或浅地学习和了解,才能将AI的功力发挥到一定的水平。否则,即便是放了个ChatGPT5.0在你面前,或许,你只能让他帮你做些很表面化的工作。那就有种倚天剑屠龙刀拿来切西瓜的感觉了。
而不论从AI绘画的文生图还是图生图,又或是AI视频的文生视频还是图生视频,也一样少不了有与AI进行交流和发出准确的指令让其帮你实现的操作逻辑。
===========================
现阶段的好用的体验过的工具选择
【Bing:】
EDGE浏览器带来的必应搜索,据说接入了ChatGPT4.0水平的搜索功能,可以说是目前最好用的也最常用的搜索方式。不仅可以在与他对聊的过程中,得到自己想要的结果外,在他的回答中还提供了这么回答你的依据和出处索引,这就意味着他的回答都是有根据的,可以回溯的(不像某些大语言模型,有时会对你的问题,跟你一本正经的胡说八道)。自从用了EDGE必应搜索后,什么百度、谷歌浏览器我都不认识了。
重要的是,Bing除了对聊功能外,还有一定的撰写能力,简单的一篇人文古迹介绍文章,那是信手拈来。
【ChatGPT3.5和4.0:】
这个大家相对体验的多了,不同的版本能力不同,当然费用也相差许多。你有几层功力与之交流,他就能给到你几层功力的答复,只多不少。
【Claude:】
作为ChatGPT3.5类似级别的大语言模型,基本能力差不多,据说最近有了个新能力,就是一口气能吃10w个token的数据量,这是目前其他大语言模型还做不到的。
【ChatGLM:】
是目前众多开源大语言模型中相对靠谱的可用的。虽然能力肯定因为只有6B受局限,但胜在可以本地化部署,算力要求不会太高,如果能有一套相对便捷的微调模型训练配合的话,在某些细分领域的运用上还是可以达到不错的使用效果的。
【Stable Diffusion:】
是我目前接触和使用最多的AI绘画工具,虽然部署起来相对Midjourney会复杂些,也对本地的显卡算力有一定要求,但与Midjourney的能力对比来说,可以做到分庭抗礼,各有千秋。Stable Different强在他是开源的,接入了各种强大的插件后,可以实现的功能就强大许多,有如:Controlnet、lora调用和训练、包括类似D-ID的Saltalk都作为其插件可以方便使用。也因为各种插件的存在,其玩法和呈现的画面风格花样也更多。
【Midjourney:】
现在国内朋友可以享受到腾讯接入Midjourney中文版后的使用。画风精美,比较容易上手,下限高。
【Gamma:】
这是一款很不错的AI辅助PPT生成的工具网,昨天用这个与另一款类似软件Tome做了比较后,还是选用了效果会好许多Gamma来做PPT,虽然远没有某些博主吹嘘的那么神奇,什么一键完成,但其AI自动生成的底稿质量还是不错的。目前虽然只提供了PDF格式的下载,但整体生成的框架,可以作为一种模版来使用。
【So-its-svc:】
一款成熟的声音克隆软件,相应的工作流也都有一套规范的流程,从语音分离、音频切割、训练、推理等环节都有相应对应的工具软件配合。
出自:https://zhuanlan.zhihu.com/p/631677938
Verbatik是一款由人工智能驱动的文本到语音生成器,提供了一个不断增长的库,包含142种语言和口音的600多种自然声音。