文丨許俊浩
(資料圖片僅供參考)
來源 |?div id="jfovm50" class="index-wrap">?素斀?jīng)
自2022年12月ChatGPT石破天驚般異軍突起,大模型便迅速成為國內(nèi)熱門項目
,賽道風起云涌
,同時變數(shù)日增。
因個人健康原因而不得不退隱靜養(yǎng)的美團聯(lián)合創(chuàng)始人王慧文
,時下已不僅辭去美團非執(zhí)行董事職務,而且由他創(chuàng)立并在國內(nèi)大模型創(chuàng)業(yè)方向點了一把大火的光年之外
,備受關注之下也已尋得看起來還算不錯的處置方案——美團以約20.65億元總代價買入了光年之外100%股權(quán)
,好兄弟王興由此替代王慧文成為光年之外操盤手。
回溯過去這半年
,在百度跟進ChatGPT腳步率先于國內(nèi)推出大模型文心一言之后,頭部科技大廠多有動作
,阿里通義千問
、騰訊混元、華為盤古等均在此列
。據(jù)科技部新一代人工智能發(fā)展研究中心發(fā)布的《中國人工智能大模型地圖研究報告》
,截至2023年5月28日
,國內(nèi)10億級參數(shù)規(guī)模以上大模型已發(fā)布了79個
。
在層出不窮的大模型中,老牌AI公司科大訊飛的入局故事也頗值得一說
。
科大訊飛2023年5月6日發(fā)布了星火認知大模型
,1個月后又發(fā)布了新的v1.5版本?div id="jfovm50" class="index-wrap">?拼笥嶏w創(chuàng)始人兼董事長劉慶峰表示,等到10月24日科大訊飛全球開發(fā)者大會時
,星火大模型要實現(xiàn)中文超越ChatGPT
、英文達到ChatGPT水平
。
這些舉措和表達有力推動了科大訊飛股價的上漲
。2023年6月
,科大訊飛股價達到了上市以來最高點每股82元
,對應總市值超過了1500億元。要知道
,2023年1月時
,科大訊飛市值尚不足800億元
。
奈何星火大模型發(fā)布后爭議四起。
其中一個爭議來自一個名為SuperCLUE的國內(nèi)機構(gòu)
。該機構(gòu)5月9日發(fā)布的中文通用大模型綜合性評測基準榜單
,將科大訊飛的星火大模型排在人類、ChatGPT 4、ChatGPT 3.5之后的第四位
。網(wǎng)友發(fā)現(xiàn),SuperCLUE仿照了國際NLP即自然語言處理權(quán)威數(shù)據(jù)集GLUE及SuperGLUE,實際上卻是國內(nèi)民間組織自評。GLUE與CLUE,狀若李逵與李鬼,不細看,還真分不清楚。據(jù)公開信息,SuperGLUE榜單題目一般超過2萬道
,國內(nèi)SuperCLUE題目卻僅有100道
。
榜單發(fā)布當日
,SuperCLUE官網(wǎng)顯示
,中文基準測評成員顧問排名第一位的是哈工大訊飛聯(lián)合實驗室資深級研究員崔一鳴。第二天即5月10日,網(wǎng)站就刪除了相關信息。而在2023年6月的中文大模型排行榜中,該機構(gòu)將人類排在0位,第一、二位仍是ChatGPT,三、四位則變成了360智腦(4.0)和文心一言(v2.0.4),訊飛星火(v1.5)排至第六。
?拼笥嶏w官方回應稱,股價下跌系某生成式AI產(chǎn)品寫作虛假小作文導致,而小作文中提到的科大訊飛被曝涉嫌大量采集用戶隱私數(shù)據(jù)并將其用于人工智能研究為不實信息,公司法務部如查實有惡意造謠情況,將采取法律措施。話題并未就此終結(jié)。
5月24日
,科大訊飛股價猛跌,盤中一度跌超9%?div id="4qifd00" class="flower right">明眼人一望便知,這是把矛頭指向了百度文心一言
。文心一言市場負責人張全文當天發(fā)表朋友圈稱
,友商把股價大跌歸咎于文心一言的命題小作文是碰瓷,對于無端惡意抹黑污蔑,百度方面也將采取法律措施
,“來而不往非禮也”。
據(jù)實講述也好,碰瓷營銷也罷
,國內(nèi)大模型剛剛上路,難言孰強孰弱,而星火大模型距離科大訊飛宣稱的趕超ChatGPT的距離則有目共睹。在全年營收增幅從2021年的40.61%下滑至2022年的2.77%的背景下,大模型能為科大訊飛的業(yè)務走向帶來什么仍未可知。01
從語音到AI
科大訊飛在國內(nèi)智能語音領域曾具先發(fā)優(yōu)勢
。這家成立逾23年的公司在2004年銷售額就已突破1億元,與聯(lián)想
、華為等公司的合作更使其成為語音交互領域的巨頭。2008年5月
,科大訊飛在深圳交易所上市
,是年公司營收2.57億元,同比增長25.14%
。這2.57億元是由三大塊主營業(yè)務構(gòu)成
,它們分別是收入5458萬元的語音支撐軟件
、收入7631萬元的語音行業(yè)應用/系統(tǒng)
、收入1.26億元的信息工程與運維服務。特別值得注意的是
,占總營收比例高達49.17%的信息工程與運維服務業(yè)務主要靠科大訊飛公司所在地安徽力撐
,后者貢獻了科大訊飛該項業(yè)務收入的99.49%
。
在智能手機興起的2010年前后
,科大訊飛迅速抓住機會推出了訊飛語音云,2011年即上線首款入門級語音合成芯片
,這也使訊飛輸入法走入移動互聯(lián)網(wǎng)用戶的視野
。如今訊飛輸入法已支持包括粵語、客家話、閩南語在內(nèi)的23種方言和藏語等5種少數(shù)民族語言的語音識別
。
到了2014年,科大訊飛推出了訊飛超腦計劃
,由NLP轉(zhuǎn)向AI。2015年全年,科大訊飛營收25億元,其中占比最高的仍是信息工程與運維服務,收入達7.2億元(28.83%);往后依次是教育應用產(chǎn)品,收入6.6億元(26.4%);電信語音增值產(chǎn)品
,收入3.13億元(12.52%)
;語音支撐軟件,收入3.03億元(12.12%)
;行業(yè)應用產(chǎn)品IFLYTEK-C3
,收入2.47億元(9.91%);其余占比較小的還有音視頻監(jiān)控
、通信數(shù)據(jù)分析應用、學院教育教學和其他業(yè)務收入
。也就是說
,支撐科大訊飛營收的主要是軟件和信息技術服務。
隨著互聯(lián)網(wǎng)的高速發(fā)展
,諸多大廠也切入到了語音交互領域
,這使科大訊飛的地位漸趨不甚穩(wěn)固
。中國語音產(chǎn)業(yè)聯(lián)盟數(shù)據(jù)顯示
,2012年科大訊飛在中國智能語音市場占比54.3%,到2015年時下降為44.2%
,百度以27.8%位居第二
,第三則是占比6.9%的蘋果公司。百度
、網(wǎng)易等大廠各有建樹
,對科大訊飛必然造成沖擊。
外界對科大訊飛的AI產(chǎn)品也頗有質(zhì)疑
,如同聲傳譯產(chǎn)品
。2018年有人在網(wǎng)絡上發(fā)表文章,認為科大訊飛產(chǎn)品在翻譯時實際上有人工翻譯成分
?div id="jpandex" class="focus-wrap mb20 cf">?拼笥嶏w回應,產(chǎn)品使用的是“人機耦合翻譯助手”模式,即由機器向同傳翻譯者提供語音識別和機器翻譯的結(jié)果,輔助同傳工作
。這也等于客觀承認“訊飛聽見”遠達不到同聲傳譯的水準
,無法以AI代替同傳人員。
盡管存在短板
,科大訊飛的業(yè)務仍表現(xiàn)良好,連續(xù)10年營收平均增長率超過25%
。但越是新興技術,領域內(nèi)部迭代越快
,包括語音交互和AI
。據(jù)華經(jīng)產(chǎn)業(yè)研究院發(fā)布的《2023-2028年中國智能語音行業(yè)市場發(fā)展現(xiàn)狀及投資方向研究報告》
,中國智能語音市場規(guī)模自2017年的100億元左右增長至2022年的341億美元,預計2023年能達382億美元
;而2022年占據(jù)國內(nèi)市場份額較高的是科大訊飛(44.2%)
、百度(37.8%)、蘋果(15.4%)、Nuance(6.9%)和小i機器人(3%)。
語音領域承壓,廣義AI更為不易
。調(diào)研機構(gòu)艾瑞咨詢《中國人工智能產(chǎn)業(yè)研究報告》顯示
,中國AI產(chǎn)業(yè)市場規(guī)模2020年已達1546億元,2022年為1958億元,預計2027年可達6122億元,2022-2027年的相關CAGR即復合年均增長率為25.6%。市場向好
,競爭激烈。在整個AI產(chǎn)業(yè)圖譜中,包括計算機視覺、大數(shù)據(jù)智能、對話式AI、內(nèi)容審核、智能駕駛等不同領域,科大訊飛所在的技術層和具體應用層均需直面國內(nèi)的百度、阿里、騰訊及國外的谷歌、微軟等大廠的攻城略地。財報顯示
,科大訊飛2022年營收188.2億元
,增幅僅2.77%
;2023年第一季度營收28.87億元,同比下滑17.64%?div id="d48novz" class="flower left">
?拼笥嶏w官方將第一季度的業(yè)績問題歸因于2022年12月與202年1月的特殊環(huán)境和其后的春節(jié)假期,認為這屬于短期沖擊,不影響長期經(jīng)營基本面。官方還表示,2019年被列入美國實體清單后又在2022年10月再次承壓;2022年第四季度和2023年第一季度處于調(diào)整中,加之大模型的推出,預計從第二季度起,收入和毛利會正向增長。02
模型成色幾何?
據(jù)財報
,2022年全年,科大訊飛的主營業(yè)務仍是軟件和信息技術服務,占總營收的98.41%
;其中占比最大的是教育產(chǎn)品和服務
,占總營收的32.74%
;其次是開放平臺及消費者業(yè)務(24.66%),再次是智慧城市(23.63%)以及運營商相關業(yè)務(11.14%)
;智慧汽車、智慧醫(yī)療和智慧金融相加占比為6.2%。
AI業(yè)務的迅猛發(fā)展需要科大訊飛跟進技術潮流,大模型的重要性不言而喻
。由研發(fā)投入可見科大訊飛對大模型的重視。財報顯示
,科大訊飛2021年研發(fā)投入29.36億元,2022年增長至33.55億元,同比增長14.28%;研發(fā)人員數(shù)量已從2021年的8367人增加到了2022年的9281人,同比增長10.92%,在整體員工中的占比提升到了61.68%。
但實際上,除去算法
,大模型訓練的難點和重點在于需要龐大數(shù)據(jù)和巨大算力,包括CPU(中央處理器)
、GPU(圖形處理器)
、ASIC(專用集成芯片)等硬件設備以及支持大規(guī)模并行計算的軟件平臺和框架,此外還涉及大量數(shù)據(jù)存儲
、傳輸以及相關人力維護和升級
。NVIDIA即英偉達研究數(shù)據(jù)顯示,ChatGPT 3最大規(guī)模的模型需要使用175 Billions的參數(shù)量