在大部分人眼里,人工智能——特别是生成式AI,仅仅用了一年左右的时间,就从对未来的幻想演变为现实中汹涌的洪流。但对于在AI、云、大数据行业深耕多年的彭锋博士来说却并非如此。

从神经网络到大数据

早在2000年赴美攻读博士学位之际,彭锋就开始了关于AI的研究。最早接触到的就是神经网络和自然语言相关的技术,并首次参与了自然语言处理中的问答系统的研发工作。

智领云CEO彭锋

智领云CEO彭锋

“没有大数据,没有分布式计算,只有一台工作站能跑几百个节点的神经网络。” 彭锋表示,彼时的神经网络受限于硬件资源和数据规模,其效能较为有限,但理论基础和思路都已经具备。2005年之后,随着深度学习尤其是卷积神经网络的崛起,大数据和分布式计算能力不断增强,GPU运算性能显著提升,AI行业不断创新,在2015年之后逐步迈入主流市场。

彭锋的第一份工作是在美国第四大搜索引擎Ask.com任职,该搜索引擎的特色与今天的生成式AI很像,主打自然语言问答功能。虽然市场份额仅为Google的十分之一,但每天也有千万级甚至上亿的访问量,这证明了用户对自然语言交互需求的普遍性。

彭锋的团队负责开发大规模分布式处理系统,应对Ask.com的海量数据挑战,并在行业内率先实践了各种创新的数据技术的应用,如采用了刚刚诞生的Hadoop技术,建立了当时在硅谷来说也可排入前列的Hadoop集群——这些技术后来也成为大数据产业的基础。

此后的彭锋在Twitter工作了一段时期,同样负责Twitter大数据平台的建设。这期间,彭锋深刻意识到云原生技术和分布式处理将成为企业IT架构转型的必然趋势,诞生了创建云原生大数据基础设施的理念。

“我们在2017年开始在国内推广云原生大数据平台,”带着这一理念,彭锋回国创业,并创建了智领云,独立自主开发云原生数据流水线技术,可以直接在Kubernetes中处理企业的大数据,并与国内道客云、博云、青云等头部Kubernetes厂商携手合作,为企业搭建基于Kubernetes的数据平台。

GPT-4的震撼

“虽然有这么多年的从业经验,但GPT-4还是让我相当震撼的。”正是因为了解,彭锋对GPT-4的威力有着更深刻的认知:“这是从我开始学习编程到现在,从业30年来见到的最具颠覆性的一次变革,甚至可能超过互联网带来的影响。”

大模型技术的巨大冲击,促使彭锋去思考大模型与生成式AI与大数据的关系是什么,重新梳理大数据对企业的意义,以及大模型是否可以应用到企业的大数据管理之中。

“智领云团队去年学习了一整年,”彭锋表示,为了更深入的厘清大模型对产业的作用和影响,智领云做了很多探索和尝试,深入思考如何将大模型融入到企业级服务中,而非简单的加入一些对话功能给客户。

“无论是BI报表,还是复杂的数据流程,本质上都是要解答管理问题。” 从第一性原理的角度出发,彭锋表示大数据平台的目的是为了让企业提升运营与管理效率,能够更好地服务客户,实现降本增效。

理论上,这些以前需要大量的人力和时间去整理、核对、分析的工作,都可以通过大模型来替代,比如文档自动化处理,解答管理层、员工、客户的问题等。但大模型的“幻觉”频发,也让大模型的应用遇到了现实的门槛。

“我们要认知到大模型技术的能力边界,才能针对性的更好的应用它。”智领云将大模型视作一个“大脑”,一个决策中心。数据库、Agent构架、K8s容器等,就是大模型的五官、四肢,在现有的云原生数据流水线之上,结合大模型需要的文档数据,可以解决大模型的数据时效性以及幻觉问题,提供各种企业级特性支持,最大化的发挥大模型这个“大脑”的决策能力,

以大模型释放生产力

云原生文档处理流水线解决方案,既是技术上的求解,也是对用户需求的洞察。经过对用户广泛的调查分析,彭锋认为,将企业非结构化文档集成到智能化平台中,是大模型企业服务落地的突破口之一。

“每个企业都有海量的文档,但大部分情况下是无法转化为生产力的。”作为云原生大数据领域的先行者,彭锋非常清楚企业大数据的应用现状,特别是非结构化数据在企业数据资产中既重要但其价值又无法得到合理释放的尴尬地位。

彭锋指出,企业内部数据的处理和应用不同于通用知识解答,需要针对各个行业的特性和具体业务流程进行定制化训练。但以往动辄数百页的手册、说明书、规范等,通篇阅读和记忆难以实现,基于关键字的搜索也无法准确、快速给出需要的解答。

智领云团队结合大模型特点与在大数据领域的经验,在文档预处理环节下足功夫,利用大模型能力对文档进行结构解析和语义分解,确保问题与文档内容精确匹配,解决了传统搜索引擎难以根据问题本质定位答案的痛点。彭锋提到,大模型在实际应用中需要解决诸多工程化难题,如文档版本控制、有效期限管理和权限设定等,这些都是确保大模型服务于企业内部流程时不可或缺的重要环节。

这样为大模型量身打造的文档流水线,可以支持各种上层大模型应用,例如基于内部文档的Retrieval Augmented Generation(RAG)问答体系,基于Agent智能体的工作流自动化,企业知识库及结构化知识图谱建设等。 而且,客户可以根据自身需求,通过API功能接入包括ChatGPT、文心一言等市面上所有的大模型产品。从本质上来说,智领云为用户提供的是更好的“应用大模型的能力”

从云原生大数据平台,到大数据流水线,到打造基于大模型的文档流水线体系,智领云始终借力新技术、新手段、新理念,帮助企业实现降本增效,提升运营效率。当然,彭锋深知技术落地并不简单,特别是在满足客户98%以上的准确率硬性要求时,依旧面临极大的挑战。彭锋及智领云团队正凭借其卓越的数据处理能力和对前沿技术的深刻理解,助力企业在数字化转型的道路上走得更加稳健有力。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2024-04-15 17:12:00
算力新闻 “AI大模型+人形机器人”的7大技术融合路径
技术的融合有望全面提升人形机器人在感知、认知、决策、规划、控制、交互、学习等方面的能力,最终实现更加智能化、人性化的人形机器人。 <详情>
2024-03-21 18:02:02
2024-03-18 18:28:55
市场情报 大咖畅谈AI发展前景:在可见未来 人类都可掌控人工智能
虽然目前中国算力与美国还略有差距,但AI的尽头是电力、网络基础设施等资源。 <详情>
2024-03-15 11:54:40
国内资讯 预告:探访科大讯飞,大模型赋能千行百业推进“人工智能+”落地
伴随政府工作报告的出炉,其中首提的“人工智能+”与新质生产力成为热词。 <详情>