Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?
AI行業(yè)每天都有很大的變化,而Scale AI的產(chǎn)品線可以很好的體現(xiàn)該行業(yè)的新動態(tài),所以在本篇文章中作者針對數(shù)據(jù)標(biāo)注在大模型中扮演什么角色、數(shù)據(jù)標(biāo)注的商業(yè)模式、Scale AI 公司治理問題以及 Scale AI 未來發(fā)展情況等重要問題進(jìn)行了討論。一起來看下吧。
我們在 2021 年 7 月編譯過一篇關(guān)于 Scale AI 的文章,但在過去一段時間,AI 行業(yè)每天都在發(fā)生十級地震,行業(yè)價值鏈也發(fā)生變化,因此我們認(rèn)為有必要重新審視此前研究過的重要公司,所以把 Scale AI 拿出來重新研究。
Scale AI 2016 年成立,創(chuàng)始人為 Alexandr Wang 和 Lucy Guo,Lucy 現(xiàn)已離開公司。Scale AI 2019 年躋身獨角獸行列,當(dāng)前估值 73 億美金,ARR 接近 3 億美金。Scale AI 核心業(yè)務(wù)為數(shù)據(jù)標(biāo)注,從自動駕駛場景起家,后切入政府、電商、機器人、大模型等場景,分別對應(yīng)著過去 AI 行業(yè)幾次大機會的出現(xiàn)。受益于 Alex 超強的個人能力及超強的團隊執(zhí)行力,Scale AI 在每波大趨勢到來時都能快速捕捉機會,推出相應(yīng)的產(chǎn)品,在細(xì)分領(lǐng)域迅速做到極高的市場份額。
目前,Scale AI 正非常激進(jìn)地切入 MLOps 和 LLM 領(lǐng)域,提供各類工具、平臺和服務(wù)。包括電商場景的圖片生成工具 Scale Catalog,大語言模型開發(fā)者工具平臺 Scale Spellbook,以及合成數(shù)據(jù)產(chǎn)品 Scale Synthetic 等等。但從調(diào)研結(jié)果看,這些新興業(yè)務(wù)只是 Scale AI 尋找第二增長曲線的一些嘗試,產(chǎn)品銷售情況并不理想,最后能有穩(wěn)定需求、貢獻(xiàn)主要收入的還是數(shù)據(jù)標(biāo)注業(yè)務(wù)。
除了更新公司業(yè)務(wù)情況,我們還針對數(shù)據(jù)標(biāo)注在大模型中扮演什么角色、數(shù)據(jù)標(biāo)注的商業(yè)模式、Scale AI 公司治理問題以及 Scale AI 未來發(fā)展情況等重要問題進(jìn)行了討論。
另外,我們認(rèn)為 Scale AI 是觀察 AI 行業(yè)機會的絕佳生態(tài)位。一旦行業(yè)有新動向都會體現(xiàn)在 Scale AI 的產(chǎn)品線中,且公開可見。Scale AI 的產(chǎn)品更新動態(tài)非常值得關(guān)注。
以下為本文目錄,建議結(jié)合要點進(jìn)行針對性閱讀。
- 行業(yè)
- 產(chǎn)品
- 團隊
- 競爭
- 當(dāng)前結(jié)論與判斷
一、行業(yè)
1. 行業(yè)介紹
數(shù)據(jù)標(biāo)注(Data Labeling)為 Scale AI 的核心業(yè)務(wù)。數(shù)據(jù)標(biāo)注位于模型開發(fā)的上游階段,該過程需要先識別原始數(shù)據(jù),然后為該數(shù)據(jù)添加一個或多個標(biāo)簽。數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),后者包括圖像、視頻、3D(LiDAR、雷達(dá)等)、文本和音頻等。
來源:Scale AI 官網(wǎng)
數(shù)據(jù)標(biāo)注的核心是質(zhì)量和效率,對于數(shù)據(jù)標(biāo)注的客戶公司而言,數(shù)據(jù)標(biāo)注并非公司核心業(yè)務(wù),外包意愿強。客戶標(biāo)注數(shù)據(jù)主要通過內(nèi)部自建團隊、眾包平臺、與第三方數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司合作。該賽道玩家除了 Scale AI 之外,還有 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。
同一客戶公司內(nèi)部的不同部門,可能會根據(jù)不同的需求和場景選擇不同的數(shù)據(jù)標(biāo)注玩家。早期,數(shù)據(jù)全部由人工手動標(biāo)注,以構(gòu)建和積累機器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)集。盡管耗時且成本高昂,但手動標(biāo)注數(shù)據(jù)確實在準(zhǔn)確率等方面具有優(yōu)勢。數(shù)據(jù)標(biāo)注公司往往在菲律賓、肯尼亞、委內(nèi)瑞拉等勞動力價格較為低廉的國家或地區(qū)尋找合適的數(shù)據(jù)標(biāo)注人員。
隨著機器學(xué)習(xí)模型的發(fā)展,自動化數(shù)據(jù)標(biāo)注的準(zhǔn)確性提高,可以使用模型來輔助人工標(biāo)注,比如模型預(yù)處理數(shù)據(jù)再發(fā)送給標(biāo)注員;或人類作為審核員,審核并糾正模型給出的標(biāo)注結(jié)果等等。與純手動標(biāo)記相比,AI 輔助標(biāo)注加快數(shù)據(jù)標(biāo)注的速度。目前,Scale AI 等數(shù)據(jù)標(biāo)注公司都在努力減少數(shù)據(jù)標(biāo)注過程中的人工參與比例。
上述兩種方案是目前數(shù)據(jù)標(biāo)注的主要形式,至于未來數(shù)據(jù)標(biāo)注能否全部由模型代勞,我們目前的判斷是 No,成熟場景也許可以,但未來總是會不斷有新的場景出現(xiàn),新事物往往需要先通過人工標(biāo)注以積累數(shù)據(jù)、例子,然后才可能訓(xùn)練出可自動完成標(biāo)注的模型。
2. 大模型是否還需要數(shù)據(jù)標(biāo)注
在此前,機器學(xué)習(xí)需要有監(jiān)督學(xué)習(xí),需要標(biāo)注大量數(shù)據(jù)。隨著模型逐漸變大,對數(shù)據(jù)量的需求變大,標(biāo)注數(shù)據(jù)的時間及成本變得無法控制,高質(zhì)量的標(biāo)注數(shù)據(jù)的生產(chǎn)速度難以滿足大模型的需求。但無監(jiān)督學(xué)習(xí)出現(xiàn)后,機器學(xué)習(xí)不需要明確目的的訓(xùn)練方式,也無法提前預(yù)測結(jié)果,因此不需要標(biāo)注數(shù)據(jù)。
強化學(xué)習(xí)也不需要數(shù)據(jù)標(biāo)注,強化學(xué)習(xí)的反饋不是通過標(biāo)簽或數(shù)值,而是通過獎勵機制來學(xué)習(xí)一系列行為。預(yù)訓(xùn)練模型實現(xiàn)了有監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí)的跨越,OpenAI 的 GPT-1 到 GPT-3 也一直采用此路線,因此在過去一段時間內(nèi),不少人擔(dān)心數(shù)據(jù)標(biāo)注在大模型時代的價值。
但 ChatGPT 出現(xiàn)后,該顧慮有所緩解,ChatGPT 使用強化學(xué)習(xí)和人類反饋來使模型更好地與人類指令保持一致,即 RLHF (Reinforcement Learning from Human Feedback),這其中會涉及到非常多的數(shù)據(jù)標(biāo)注工作。
RLHF 的數(shù)據(jù)標(biāo)注與此前的用低成本勞動力完成的簡單數(shù)據(jù)標(biāo)注工作也有所不同,需要非常專業(yè)的人士來寫詞條,針對相應(yīng)的問題和指令,給出符合人類邏輯與表達(dá)的高質(zhì)量的答案。
據(jù)稱 OpenAI 內(nèi)部招了幾十名 PhDs來做 RLHF 的標(biāo)注,Scale 作為 OpenAI 的上游供應(yīng)商,同樣招聘了幾十名 PhDs 在為 OpenAI 提供此類服務(wù),具體的分工是 Scale 更多完成標(biāo)注的動作,而 OpenAI 更多是進(jìn)行質(zhì)量檢測。標(biāo)注數(shù)據(jù)是 ChatGPT 效果區(qū)別于其他競爭對手的原因之一。Google 一位技術(shù)專家也表示,在 ChatGPT 出來后,Google 也在針對數(shù)據(jù)標(biāo)注問題進(jìn)行反思。
二、產(chǎn)品
1. 產(chǎn)品 Update
Scale AI 核心業(yè)務(wù)是數(shù)據(jù)標(biāo)注,除此之外還有非常豐富的產(chǎn)品線。產(chǎn)品主要分成 4 大類:數(shù)據(jù)標(biāo)注(Annotate)、管理和評估(Manage & Evaluate)、自動化(Automate)和合成(Generate)。
Scale 從自動駕駛領(lǐng)域的標(biāo)注起家,在自動駕駛、地圖等行業(yè)表現(xiàn)很好,兩年前,公司 80-90% 的訂單都來自自動駕駛(2D、3D、激光雷達(dá)等),該比例近年有所下降。
事實上,Scale AI 的標(biāo)注產(chǎn)品研發(fā)及銷售情況與底層的行業(yè)趨勢及各行業(yè)發(fā)展情況有很大關(guān)系,在自動駕駛之后,Scale 的數(shù)據(jù)標(biāo)注訂單還來自政府、電商(零售商品目錄)、機器人、大模型(RLHF)等領(lǐng)域,分別對應(yīng)過去幾年 AI 行業(yè)幾波大的趨勢和機會。每波大趨勢將要到來時 Scale 都能很敏銳地捕捉到信號,快速招聘相應(yīng)的人才,推出相應(yīng)的產(chǎn)品,在細(xì)分領(lǐng)域迅速做到極高的市場份額。
除了數(shù)據(jù)標(biāo)注外,值得關(guān)注的產(chǎn)品還包括:Scale Catalog、Scale Spellbook、Scale Synthetic。
- Scale Catalog 主要針對電商和零售企業(yè),除了提供標(biāo)注服務(wù),還能自動生成產(chǎn)品圖,是 Scale 切入 Generative AI 應(yīng)用領(lǐng)域的一款核心產(chǎn)品。
- Scale Spellbook 是 Scale 近期投入較大的業(yè)務(wù),匯集了 Scale 的核心人才,做一個基于大語言模型的 to 開發(fā)者的工具平臺。
- Scale Synthetic 是合成數(shù)據(jù)工具,隨著模型參數(shù)不斷變大,模態(tài)不斷豐富,對數(shù)據(jù)量的要求越來越高,真實數(shù)據(jù)量已無法滿足需求,合成數(shù)據(jù)開始受到關(guān)注。
從 Scale 的產(chǎn)品拓展情況來看,Scale 正非常激進(jìn)地切入 MLOps 和 LLM 領(lǐng)域,提供各類工具、平臺和服務(wù)。不過這只是 Scale 尋找第二增長曲線的一些嘗試,產(chǎn)品銷售情況并不理想,最后能有穩(wěn)定需求、貢獻(xiàn)主要收入的還是數(shù)據(jù)標(biāo)注。
2. 客戶與商業(yè)模式
Scale 的標(biāo)注工人主要從委內(nèi)瑞拉、肯尼亞、菲律賓等工資水平相對較低的國家招聘,客戶主要為美國 enterprise 企業(yè),商業(yè)模式就像全球化套利,毛利較高。
來源:Scale AI 官網(wǎng)
主要客戶名單如下:
商業(yè)模式方面,Scale 官網(wǎng)針對每款產(chǎn)品給出了標(biāo)準(zhǔn)化定價,定價模式為 Consumption-base 的模式。如 Scale lmage 起價為每張圖片 2 美分,每條標(biāo)注 6 美分;Scale Video 起價為每幀視頻 13 美分,每條標(biāo)注 3 美分;Scale Text 起價為每項任務(wù) 5 美分,每條標(biāo)注 3 美分;Scale Document Al 起價為每項任務(wù) 2 美分,每條標(biāo)注 7 美分。
除此之外,還有針對 enterprise 的收費方式,即根據(jù)具體的企業(yè)級項目的數(shù)據(jù)量及服務(wù)進(jìn)行收費。由于 Scale 的大部分客戶都為 enterprise 客戶,因此實際上大部分收入均為項目制收入,客單價幾十萬美金至幾千萬美金不等。Scale 2022 年收入預(yù)計為 2.9 億美元,毛利約為 70%。公司 2021 年 4 月完成 $325M 的 E 輪融資,投資者包括 Dragoneer、Greenoaks、Tiger Global 等,估值達(dá)$7.3B。
三、團隊
Scale AI 于 2016 年誕生于 Y Combinator 創(chuàng)業(yè)項目,創(chuàng)始人為 Alexandr Wang 和 Lucy Guo(2018 年 Lucy 離開 Scale AI,保留 6% 股權(quán)),兩位創(chuàng)始人技術(shù)背景深厚。Alexandr Wang 出生于 1997 年,2014 年加入 Quora,并在 Quora 上結(jié)識 Lucy Guo,高中就收到很多硅谷科技公司的 offer,后在麻省理工學(xué)院攻讀機器學(xué)習(xí)專業(yè),選修的全是研究生級別的計算機課程,一年后毅然從麻省理工輟學(xué)。
2016 年,Alexandr Wang 和 Lucy Guo 在 YC 期間創(chuàng)辦 Scale。Alexandr Wang 在 2011 年美國數(shù)學(xué)人才搜索 (USAMTS) 中獲得銅牌,在 2012 年獲得金牌;2013 年在美國數(shù)學(xué)奧林匹克競賽中進(jìn)入全國前 30 名,同時在 Who Wants to Be a Mathematical 比賽中獲得第三名;2014 年參加了美國國家物理奧林匹克競賽 (USAPhO) 并進(jìn)入半決賽,在 2018 年登上了“30 under 30”的榜單。
Alexandr Wang 的履歷非常亮眼,但大家對他的評價褒貶不一。他非常聰明、自信,能力強,善于維護(hù)外部關(guān)系,花費大量時間與硅谷關(guān)鍵人物建立關(guān)系。
他也十分擅長 branding 和 marketing,塑造很好的個人形象和企業(yè)形象,有觀點認(rèn)為 Scale 與其他競對的差異性主要來自于 Alex 的宣傳炒作,為公司帶來了大量訂單。
但或許是因為年紀(jì)太小的緣故,Alex 管理公司的經(jīng)驗相對欠缺,公司內(nèi)部管理較為糟糕,很多人才流失或不愿加入 Scale,企業(yè)內(nèi)部也存在各類矛盾。我們在幾位離職高管訪談中聽到了非常負(fù)面的評價,但也在不少員工訪談中感受到部分員工對 Alex 發(fā)自內(nèi)心的欣賞。
團隊整體方面,Scale 整體執(zhí)行力非常強,工作節(jié)奏和企業(yè)文化非常激進(jìn),偏好招頂級院校的應(yīng)屆畢業(yè)生,聰明、勤奮、執(zhí)行力強、肯加班,Scale 的“卷”在硅谷非常有名。
四、競爭
Scale 的競爭對手包括:公司內(nèi)部自建的數(shù)據(jù)標(biāo)注團隊;谷歌、微軟和亞馬遜等科技大廠的數(shù)據(jù)標(biāo)注服務(wù);數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司。
1. 類型一:公司內(nèi)部自建的數(shù)據(jù)標(biāo)注團隊
由于某些數(shù)據(jù)比較敏感,有的公司會選擇內(nèi)部自建數(shù)據(jù)標(biāo)注團隊,作為 Scale 等外包方案的補充。例如 Airbnb 使用內(nèi)部數(shù)據(jù)標(biāo)注產(chǎn)品來標(biāo)記隱私數(shù)據(jù),并用于公司內(nèi)部的機器學(xué)習(xí)模型,但是對于不敏感的數(shù)據(jù),Airbnb 通常會外包給第三方供應(yīng)商進(jìn)行標(biāo)注。原因有三:
- 第三方供應(yīng)商做數(shù)據(jù)標(biāo)注可以比 Airbnb 內(nèi)部自建團隊更便宜;
- 第三方供應(yīng)商具有靈活性,可以根據(jù) Airbnb 的需求靈活調(diào)整;
- 數(shù)據(jù)標(biāo)注并不是 Airbnb 的重點業(yè)務(wù),第三方供應(yīng)商的工具可以更準(zhǔn)確高效地完成標(biāo)注。
2. 類型二:谷歌、微軟和亞馬遜等科技大廠
對于 Scale 而言,這些科技巨頭既是客戶,也是競爭對手。谷歌、亞馬遜、微軟等科技大廠比其他任何供應(yīng)商都具有優(yōu)勢,因為規(guī)模效應(yīng)的存在以及頭部公司擁有廣泛的產(chǎn)品集合。例如,Scale 在 AWS 上處理和標(biāo)注數(shù)據(jù),如果客戶想把 Scale 標(biāo)注的數(shù)據(jù)儲存在 S3 中,需要給 Scale 開通訪問權(quán)限,再由 Scale 將標(biāo)注好的數(shù)據(jù)放入客戶的 S3 存儲空間中,這一系列操作會造成額外的成本。
但如果客戶數(shù)據(jù)本來就存儲在谷歌、亞馬遜和微軟的云平臺上,并使用他們的數(shù)據(jù)標(biāo)注產(chǎn)品和服務(wù),則無需進(jìn)行訪問授權(quán)、移動數(shù)據(jù)等步驟。
此外,微軟、亞馬遜、谷歌等科技大廠都希望客戶能夠在一個平臺解決所有問題、采購他們的所有產(chǎn)品和服務(wù),因此會在一攬子產(chǎn)品中,針對某個單一產(chǎn)品給一些折扣,甚至直接提供免費的工具,這會對 Scale 造成競爭壓力。但微軟等科技大廠大多只提供軟件和工具,不提供人力服務(wù),導(dǎo)致客戶必須自己承擔(dān)人力工作。而 Scale 提供人工標(biāo)注數(shù)據(jù)以及其他的人力服務(wù),在與科技大廠競爭中也具備一定的獨特優(yōu)勢。
3. 類型三:數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司
如 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。
Snorkel
Snorkel 提供了大量模板來讓用戶創(chuàng)建標(biāo)注任務(wù),也提供了托管服務(wù)。Snorkel 與 TensorFlow、Kubernetes 和 DAS 都有很好的集成。
Snorkel 和 Scale 都是數(shù)據(jù)標(biāo)注領(lǐng)域較大的供應(yīng)商,有專家認(rèn)為 Snorkel 未來不會在與 Scale 完全相同的賽道中,但兩者都會有不錯的增長。相比 Scale,Snorkel 的優(yōu)勢在于更專注于文本和 NLP,以及成本較低,所以用戶如果只是處理文本數(shù)據(jù),一般會選擇 Snorkel 而不是 Scale。Snorkel 的劣勢在于視頻、圖像、地圖等處理能力非常有限。
SuperAnnotate
SuperAnnotate 是數(shù)據(jù)標(biāo)注行業(yè)重要的供應(yīng)商之一。功能豐富,允許用戶以 Python 等格式提取不同的標(biāo)簽,使用 SQL 對圖像進(jìn)行大量搜索,并將 SQL 與數(shù)據(jù)庫合并。
相比 Scale,SuperAnnotate 的優(yōu)勢在于醫(yī)療行業(yè)和工作流程。在醫(yī)療方面,SuperAnnotate 符合 HIPAA 標(biāo)準(zhǔn),而 Scale 并不符合。SuperAnnotate 在創(chuàng)建工作流方面能力更強,比如提供指令,在此方面,Scale 正在追趕,但并沒有達(dá)到 SuperAnnotate 的水平。但整體來看,SuperAnnotate 的劣勢在于標(biāo)注質(zhì)量不及 Scale。
Labelbox
Labelbox 的商業(yè)模式與 Scale 略有不同,Labelbox 是給用戶提供平臺,用戶可以選擇自己進(jìn)行數(shù)據(jù)標(biāo)注或使用其他服務(wù),但客戶需要采用 Labelbox 平臺作為內(nèi)部數(shù)據(jù)標(biāo)記工具。Labelbox 通過美國國防部安全審查,也與各種組織展開合作,例如,Labelbox 與 GCP 是合作伙伴關(guān)系,正在推動 GCP 云和谷歌云。
五、當(dāng)前結(jié)論與判斷
1.為什么看好
(1)數(shù)據(jù)標(biāo)注外包需求確定數(shù)據(jù)標(biāo)注外包需求明顯,給創(chuàng)業(yè)公司很大的發(fā)揮空間
一方面,從客戶角度考慮,數(shù)據(jù)標(biāo)注對于 AI 公司的員工而言屬于臟活累活,會占用他們大量的時間,分散他們在算法等核心環(huán)節(jié)上的注意力,從主觀角度看他們不愿意把時間花在標(biāo)注上。
另一方面,從 ROI 角度考慮,大部分的數(shù)據(jù)標(biāo)注工作對標(biāo)注員的要求并不高,即美國的工人可以完成的工作肯尼亞的工人也可以完成,且質(zhì)量差別不會很大。
因此,如果不是特別隱私的數(shù)據(jù)、或不需要類似 RLHF 場景的語義理解等其他能力,通過第三方交由低成本國家和地區(qū)的勞動力來完成標(biāo)注工作 ROI 是更高的。因此,數(shù)據(jù)標(biāo)注外包的需求十分明顯,創(chuàng)業(yè)公司長期有機會。
(2)數(shù)據(jù)標(biāo)注賽道的頭部玩家,頭部效應(yīng)、品牌效應(yīng)強
Scale 是數(shù)據(jù)標(biāo)注賽道的絕對的頭部玩家,如果我們認(rèn)為人工標(biāo)注和“自動化+人工”的標(biāo)注方式在未來 5-10 年內(nèi)會長期存在,那么目前來看 Scale 會一直保持領(lǐng)先。從最真實的客戶和訂單來看,美國的 enterprise 客戶大多只認(rèn)可 Scale 作為他們的第三方數(shù)據(jù)標(biāo)注服務(wù)商,Scale 的客戶可以說是美國 AI 各細(xì)分賽道的皇冠上的明珠,擁有最好的客戶 base。
Scale 的銷售團隊在 pitch enterprise 客戶時,所遇到的競爭對手幾乎只有“大廠內(nèi)部自建的團隊”這一個解決方案,幾乎沒有遇到其他創(chuàng)業(yè)公司。
只有在 SMB 市場或面向非頭部企業(yè)的銷售中會遇到其他創(chuàng)業(yè)公司。頭部效應(yīng)和品牌效應(yīng)非常明顯。關(guān)于品牌效應(yīng)還可以補充一個觀點,有客戶說到這樣一句話:“Scale 和其他數(shù)據(jù)標(biāo)注公司就像 iPhone 和安卓的關(guān)系?!盨cale 品牌效應(yīng)的形成也離不開 Alex 本人及團隊極強的 PR 和 marketing 能力。
(3)規(guī)模效應(yīng)已顯現(xiàn)
數(shù)據(jù)標(biāo)注賽道有規(guī)模效應(yīng)。客戶對數(shù)據(jù)標(biāo)注的關(guān)注點主要在“質(zhì)量”和“效率”兩個方面,由于數(shù)據(jù)標(biāo)注不是高技術(shù)含量的工作,因此經(jīng)驗對質(zhì)量和效率的提升就起到關(guān)鍵作用。這里的經(jīng)驗又包括工人標(biāo)注數(shù)據(jù)的經(jīng)驗,以及 Scale 對整套流程和體系的管理經(jīng)驗。
經(jīng)驗一定程度上也與規(guī)模和數(shù)量有很大聯(lián)系,規(guī)模越大,標(biāo)注的數(shù)據(jù)量越多,經(jīng)驗就越成熟、越豐富,標(biāo)注數(shù)據(jù)的質(zhì)量和效率就越高。
作為賽道的頭部玩家,以及與 enterprise 客戶合作,Scale 的訂單量及數(shù)據(jù)量與其他競對相比要大不少,再加上 Scale 在每波趨勢剛剛興起的時候,都能快速進(jìn)入新興領(lǐng)域,更早地獲得“經(jīng)驗”,后續(xù)企業(yè)競對便很難追上。
另一方面,Scale 將人工標(biāo)注的經(jīng)驗沉淀為自動化的解決方案,在行業(yè)發(fā)展早期采用人工標(biāo)注的方式,當(dāng)行業(yè)成熟時已經(jīng)能夠訓(xùn)練出適配特定領(lǐng)域數(shù)據(jù)的自動化標(biāo)注模型,變成“自動化+人工”的解決方案,大大提升效率。訂單量和數(shù)據(jù)量足夠大也能夠更快速和高效地優(yōu)化標(biāo)注模型。因此,Scale 的規(guī)模效應(yīng)非常明顯。
(4)創(chuàng)始人與團隊綜合實力和執(zhí)行力強
關(guān)于 Alex 在團隊部分也有所介紹,一位非常聰明、激進(jìn)、好勝心強的年輕人,且 Alex 不僅在技術(shù)方面有很強的天賦,在商業(yè)方面也有很強的能力,比如運營、品牌、營銷、銷售、社交能力等等,綜合實力強勁。Scale 團隊綜合能力也非常優(yōu)秀,尤其是運營能力,對數(shù)據(jù)標(biāo)注整套流程和體系的管理。
Scale 的流程與管理體系、經(jīng)驗管理效果和效率都明顯優(yōu)于其他競對企業(yè),包括如何管理數(shù)據(jù)工人、如何給他們分工、如何進(jìn)行激勵或懲罰、如何檢查質(zhì)量、如何將數(shù)據(jù)交到客戶手中、如何服務(wù)客戶、又如何根據(jù)客戶反饋重新標(biāo)注數(shù)據(jù)提升標(biāo)注質(zhì)量等等,整個鏈路非常復(fù)雜,Scale 的高材生們能夠把整套流程 handle 好,每一個環(huán)節(jié)都極其高效、流暢、準(zhǔn)確。
而 Alex 也在很多事情上親力親為,或親自監(jiān)督。團隊綜合素質(zhì)和執(zhí)行力非常強。
2. 為什么不看好
(1)企業(yè)管理風(fēng)險創(chuàng)始人與團隊既是亮點也是風(fēng)險
如團隊部分所說,我們對創(chuàng)始人和團隊進(jìn)行 reference 后發(fā)現(xiàn)大家對 Alex 的評價十分極端且割裂,欣賞 Alex 的人覺得他是全能天才少年,不欣賞 Alex 的人又覺得 Alex 在公司管理方面存在非常大的問題。
這可能是我們最近兩年的研究中遇到的第一個 reference 結(jié)果如此割裂的項目。企業(yè)管理和企業(yè)文化方面,Scale 給年輕人足夠大的發(fā)展機會和發(fā)展空間、足夠快速和清晰的上升的機會、足夠多的激勵,但同時在處理老員工的關(guān)系上存在很多問題,因此這其中存在較大的沖突與矛盾。
此外,Scale 高強度的工作、激進(jìn)的管理方式,也導(dǎo)致了嚴(yán)重的人才流失,或是讓很多人才在選擇公司的時候就望而卻步。我們認(rèn)為企業(yè)管理與企業(yè)文化是 Scale 最大的 risk。
需求和增長風(fēng)險數(shù)據(jù)標(biāo)注需求受具體行業(yè)周期影響大,當(dāng)每波 AI 趨勢爆發(fā)的時候,就會有一次極其陡峭的增長,但當(dāng)行業(yè)發(fā)展趨于穩(wěn)定或趨于成熟后,增長曲線將開始平緩,直到下一波大趨勢的爆發(fā),需求和增長波動較大。
并且 Scale 多為項目制,項目的數(shù)量、周期、穩(wěn)定程度和訂單金額都有很大的不確定性,較難預(yù)測。數(shù)據(jù)標(biāo)注業(yè)務(wù)本身重人力,靠堆人完成標(biāo)注工作,屬于施工隊生意,短期內(nèi)人效較難提升,也難有持續(xù)復(fù)利。
另一方面,Scale 團隊一直在努力尋找第二增長曲線,在 MLOps、LLM tool、Generative AI 等方面均有涉及,但目前從結(jié)果看差強人意,依然沒有找到第二條穩(wěn)定的增長曲線。如果長期依靠數(shù)據(jù)標(biāo)注業(yè)務(wù),天花板將受限。如果想象空間和穩(wěn)定的增長不存在,那么公司將來到二級市場將承擔(dān)低估值的風(fēng)險。
(2)供給端風(fēng)險
Scale 此前布局供給端的國家和地區(qū)近年人力成本上漲速度快,最典型的是菲律賓等東南亞地區(qū),菲律賓勞動力價格上漲后,Scale 也很少再到菲律賓招人。
供給端成本上漲,Scale 的毛利空間受擠壓,而毛利是否穩(wěn)定上升也是公司上市后投資者最看重的標(biāo)準(zhǔn)之一,如果毛利下降是非常不利的信號。除此之外,供給端招聘流程的規(guī)范性和穩(wěn)定性也是我們關(guān)心的問題。
最后補充一個觀點,我們認(rèn)為 Scale 是觀察 AI 行業(yè)機會的絕佳的生態(tài)位,一旦行業(yè)有新動向 Scale 都能很快捕捉到信號,并快速推出相應(yīng)的數(shù)據(jù)標(biāo)注產(chǎn)品,且公開可見。Scale 的產(chǎn)品創(chuàng)新值得持續(xù)關(guān)注。
作者:拾象;公眾號:海外獨角獸(ID:unicornobserver)
本文由 @海外獨角獸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自 Unsplash,基于CC0協(xié)議。
該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信存儲空間服務(wù)。
專業(yè)透徹分析,關(guān)注這個業(yè)態(tài),也未來技術(shù)業(yè)務(wù)板塊轉(zhuǎn)型的重點