当开源进入AI时代 百度打出一套组合拳

1997年,著名黑客Eric & middotStephen & middot雷蒙德在他的书《大教堂和市场》中预测了两种不同的自由软件开发模式:

一种是大教堂模式,原代码是开放的,但是每个版本的开发过程都是由专门的团队控制的;一种是市场模式,原代码也是开放的,但是放到网上供人查看开发。最直接的例子就是Linux。

最终& ldquo市场模式& rdquo证明开源比闭源效率高。全球99%的组织在IT系统中使用大量开源代码,越来越多的企业开始关注开源的价值。比如微软2018年以75亿美元收购代码托管平台GitHub,IBM 2019年以340亿美元收购著名开源解决方案提供商Red Hat。

即使在开源文化一度贫乏的中国市场,关于开源项目的讨论近年来也逐渐活跃起来。以BAT为代表的技术巨头们扛起了国内开源的大旗,纷纷加入到开源项目的建立和维护中,释放出一次次澎湃的激情。

至于中国的开源文化从何而来,会走向何方,像百度这样的开源力量可以说是一个不容错过的研究样本。

01聚焦AI的技校

早在20世纪90年代末,开源力量就席卷了太平洋。但当时的中国几乎与互联网绝缘,连电脑都还是少数人的玩物。

时间晚削弱了中国在开源世界的存在,缺乏硬件和底层技术的话语权,缺乏独立的操作系统和软件生态,缺乏通过开源商业化的成功案例,导致中国开发者长期扮演学习者的角色。

人工智能的兴起为中国开发者创造了与前辈竞争的机会。而且人工智能和开源几乎是天然相关的。

就像人工智能领域一个众所周知的比喻:如果AI是饕餮盛宴,数据是原材料,计算能力是天然气,算法是配方,开源就像是无数有经验有智慧的厨师合著的烹饪百科全书。其他厨师可以从书中学习做菜,也可以指出书中的问题,不断为百科全书贡献新的食谱。

百度进一步证明了这样一个道理:开源不是一个名列前茅的武侠江湖,而是一个属于技校的自由世界。

2013年,百度率先开放可视化库ECharts,提供可视化、生动、互动、定制的数据可视化图表,从而开启了百度开源之路。

2016年是百度开源破局的一年,深度学习框架百度飞桨正式开源,填补了国内深度学习框架空的市场。

2017年,百度开源继续奋力拼搏,发布了全球首个自动驾驶开源项目& mdash& mdash阿波罗的自动驾驶开放平台加速了智能驾驶的行业进程。

2018年,在百度使用了十年的多丽丝正式拥抱开源世界,在百度丰巢的交互式SQL数据仓库中孵化,至今仍是国内唯一的分析型数据库。

2019年,百度开源项目持续刷新,经受住了几次春晚红包流量高峰的七层流量转发平台BFE对外开放,2020年6月被CNCF接纳为沙盒项目。

到目前为止,百度已经领导了数千个开源项目,在GitHub上获得了超过30万的Star,社区贡献者也达到了数万人。但作为AI领域的技校,百度的存在不仅仅是基于开源项目的数量,也刷新了国内开源项目的高度。

注:2020/2019全球开源深度学习框架活动排名列表

根据衡量深度学习框架活跃趋势的权威指标pull request的数据,百度PaddlePaddle已经向Google TensorFlow施压,继Facebook PyTorch之后,成为中国第一个、世界第二个深度学习开源框架;Apache ECharts(孵化)在Github有41.4k多星,每周npm下载量超过22万;多丽丝广泛应用于美团、小米、JD.COM、华为、阿托快捷&hellip等龙头企业项目;& hellip

开源造就了技术的最大公分母,百度正在成为这个时代的弄潮儿。

02社区建筑师

在开源世界里,有一句话叫社区比代码更重要。

这句话的意思恰恰告诉了开源世界的铁律,开源社区的聚合放大效应比开源代码更有价值。

正如开源协会的联合创始人刘天东给出的观点:开源市场就像魔方。从表面上看,每个成员都是独立的一方,但经过排列整合,很多组合都是可能的。& rdquo这也是很多人歌颂开源,推动中国开源进程的直接原因。

开源的精神是自由的,在开源世界的话语权是可以认真研究的。起决定作用的不是精神,而是精神背后的市场规律,以至于开源社区往往受权力影响。甚至总是用& ldquo开源& rdquo自称github的GitHub多次报道伊朗和俄罗斯国籍的开发者被封杀,违背了开源社区的初衷。

注意:开源社区正在世界各地蓬勃发展

英美烟草面临的挑战是,要扮演的角色不仅仅是& ldquo对外交事务充耳不闻。技校,还真的维护了中国开发者的权益。

在开源社区的运营中,百度找到了两个重点:

一是深入参与国内外顶级开源基金会和组织,成为Apache基金会、Linux基金会、云原生计算基金会的黄金会员,以及开放原子基金会的理事单位。既然基金会拥有开源软件的管理权和所有权,那么积极参与基金会的运营有利于维护社区的中立性,比如避免在国内恶意隔离开源项目。

第二,中国开源技术社区,开源中国,是战略投资。后者运营的Gitee代码托管平台已经是全球仅次于GitHub的平台,每天新增开发者约5000人,企业客户约200人,代码仓库约17000个,已经为在国际市场上与GitHub全面竞争奠定了基础,也是中国开源力量不可或缺的名片。

注意:Gitee代码托管平台

比如百度对开源的理解并不局限于贡献了多少代码,它还在一砖一瓦的建设中国开源社区的生态。

至于原因,可以参考百度创始人李彦宏的观点:& ldquo开源不是说什么都是免费的,而是需要我们自己去控制。很多开源的东西还在别人手里,这一点我们应该充分理解。& rdquo

无独有偶,华为消费软件事业部总裁王也有同样的担忧。让我们考虑一下。我们现在的软件开发和开源是一个大家都不能忘记的模式,所以这些开源社区的代码是不可分割的资源。如果中国没有自己的开源社区来维护和管理这些代码,中国所有的软件行业都将非常危险。& rdquo

社区是开源协作精神和创新的摇篮。它除了以技术为荣,还勇于承担秩序守护者的责任。毕竟现实世界和理想主义不一样。

工业化的倡导者

脱离开源中立与否的语境,中国开源的现实问题在于产业化。

整个业务的重心已经从To C转移到To B,新基础设施和智能经济的浪潮再次打压了这种趋势& ldquo快进按钮& rdquo开源平台能否抓住产业智能的窗口,释放技术创业的生态红利,将是开启战略价值的关键一步。

国内开源生态存在明显的不足。比如开源软件集中在数据库、操作系统等应用层,缺乏深入的产业细节的生态协作。开源技术的应用还有很长的路要走。也就是说,中国开源生态还集中在产业链的上游,中下游环节还比较薄弱,需要一定的时间来补课。

但是,这并不是抹黑中国开源生态的借口。

一方面,中国拥有世界上最大的人口和市场,将是开源项目的最佳孵化器。

尤其是在新的基础设施浪潮的推动下,越来越多的企业将拥抱开源项目。百度、华为等行业龙头也开始从技术和业务上整合开源软件,提供各个层面的技术赋能。比如在飞桨和百度大脑的基础上,通过与百度智能云的融合,可以向外界输出智能交通、智能家居、智能金融等场景解决方案。

注意:百度智能云服务架构

另一方面,源代码不是开源最重要的元素,而是人与人之间通过代码的联系。

以百度为代表的科技巨头,在吹起产学结合之风,鼓励国内大学生参与开源社区建设,增强和鼓励开源精神,同时不断为行业输送高端人才。有很多例子可以找到。Gitee上的高校数量已经超过1000家,百度飞欧尔推出了高校生态激励计划& hellip& hellip开源的产业化正在以肉眼可见的速度推进。

在这个过程中,百度开源迎来了它的第三个角色,也就是产业化过程中的传播者。

肖凯(化名)是一名本科生,但他的名字叫& ldquoGT大榭& rdquo。除了热衷于为他人答疑解惑之外,肖凯还参加了自然保护协会的野生动物图片筛选与标注项目,在比赛中找到了自己的小伙伴,并利用飞桨的监督学习算法完成了海量数据标注的验证和优化。预计该项目将于年底交付给自然保护协会。

小鹏(化名)是飞桨团体的一员。他在社区里遇到了很多有趣的朋友,并试图借助飞桨建立自己的深度学习模型。小鹏的想法是通过摄像机捕捉和识别手语,然后将手语转换成语音,从而达到与聋人交流的目的。目前,小鹏的模型已经被准确识别,项目代码已经上传到社区进行开源,希望能帮助更多人。

肖凯和小鹏都是百度开源社区的成员。也许他们的力量还很弱,对社会的贡献很有限。但是当00后的年轻一代开始活跃在开源社区时,中国的开源生态点燃了日益增长的火花。

04写在最后

开源在中国的崛起和扩张似乎没有捷径。

需要更多以AI为重点的技校,继续贡献高质量的开源项目,让中国在开源世界的地位逐渐从边缘走向舞台中心;

需要更多的社区架构师不断增强中国在开源社区的话语权,一步一步建设中国的开源社区;

还需要更多基于产业化的福音传道者,将开源项目与产业需求深度融合,同时培养下一代年轻人的开源信仰。

至少在这条看得见的道路上,百度人是坚定的前行。

为您推荐

发表评论

邮箱地址不会被公开。