Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

1 評論 5187 瀏覽 19 收藏 29 分鐘

AI行業(yè)每天都有很大的變化,而Scale AI的產(chǎn)品線可以很好的體現(xiàn)該行業(yè)的新動態(tài),所以在本篇文章中作者針對數(shù)據(jù)標(biāo)注在大模型中扮演什么角色、數(shù)據(jù)標(biāo)注的商業(yè)模式、Scale AI 公司治理問題以及 Scale AI 未來發(fā)展情況等重要問題進(jìn)行了討論。一起來看下吧。

我們在 2021 年 7 月編譯過一篇關(guān)于 Scale AI 的文章,但在過去一段時間,AI 行業(yè)每天都在發(fā)生十級地震,行業(yè)價值鏈也發(fā)生變化,因此我們認(rèn)為有必要重新審視此前研究過的重要公司,所以把 Scale AI 拿出來重新研究。

Scale AI 2016 年成立,創(chuàng)始人為 Alexandr Wang 和 Lucy Guo,Lucy 現(xiàn)已離開公司。Scale AI 2019 年躋身獨角獸行列,當(dāng)前估值 73 億美金,ARR 接近 3 億美金。Scale AI 核心業(yè)務(wù)為數(shù)據(jù)標(biāo)注,從自動駕駛場景起家,后切入政府、電商、機器人、大模型等場景,分別對應(yīng)著過去 AI 行業(yè)幾次大機會的出現(xiàn)。受益于 Alex 超強的個人能力及超強的團隊執(zhí)行力,Scale AI 在每波大趨勢到來時都能快速捕捉機會,推出相應(yīng)的產(chǎn)品,在細(xì)分領(lǐng)域迅速做到極高的市場份額。

目前,Scale AI 正非常激進(jìn)地切入 MLOps 和 LLM 領(lǐng)域,提供各類工具、平臺和服務(wù)。包括電商場景的圖片生成工具 Scale Catalog,大語言模型開發(fā)者工具平臺 Scale Spellbook,以及合成數(shù)據(jù)產(chǎn)品 Scale Synthetic 等等。但從調(diào)研結(jié)果看,這些新興業(yè)務(wù)只是 Scale AI 尋找第二增長曲線的一些嘗試,產(chǎn)品銷售情況并不理想,最后能有穩(wěn)定需求、貢獻(xiàn)主要收入的還是數(shù)據(jù)標(biāo)注業(yè)務(wù)。

除了更新公司業(yè)務(wù)情況,我們還針對數(shù)據(jù)標(biāo)注在大模型中扮演什么角色、數(shù)據(jù)標(biāo)注的商業(yè)模式、Scale AI 公司治理問題以及 Scale AI 未來發(fā)展情況等重要問題進(jìn)行了討論。

另外,我們認(rèn)為 Scale AI 是觀察 AI 行業(yè)機會的絕佳生態(tài)位。一旦行業(yè)有新動向都會體現(xiàn)在 Scale AI 的產(chǎn)品線中,且公開可見。Scale AI 的產(chǎn)品更新動態(tài)非常值得關(guān)注。

以下為本文目錄,建議結(jié)合要點進(jìn)行針對性閱讀。

  1. 行業(yè)
  2. 產(chǎn)品
  3. 團隊
  4. 競爭
  5. 當(dāng)前結(jié)論與判斷

一、行業(yè)

1. 行業(yè)介紹

數(shù)據(jù)標(biāo)注(Data Labeling)為 Scale AI 的核心業(yè)務(wù)。數(shù)據(jù)標(biāo)注位于模型開發(fā)的上游階段,該過程需要先識別原始數(shù)據(jù),然后為該數(shù)據(jù)添加一個或多個標(biāo)簽。數(shù)據(jù)類型包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),后者包括圖像、視頻、3D(LiDAR、雷達(dá)等)、文本和音頻等。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

來源:Scale AI 官網(wǎng)

數(shù)據(jù)標(biāo)注的核心是質(zhì)量和效率,對于數(shù)據(jù)標(biāo)注的客戶公司而言,數(shù)據(jù)標(biāo)注并非公司核心業(yè)務(wù),外包意愿強。客戶標(biāo)注數(shù)據(jù)主要通過內(nèi)部自建團隊、眾包平臺、與第三方數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司合作。該賽道玩家除了 Scale AI 之外,還有 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。

同一客戶公司內(nèi)部的不同部門,可能會根據(jù)不同的需求和場景選擇不同的數(shù)據(jù)標(biāo)注玩家。早期,數(shù)據(jù)全部由人工手動標(biāo)注,以構(gòu)建和積累機器學(xué)習(xí)模型的訓(xùn)練數(shù)據(jù)集。盡管耗時且成本高昂,但手動標(biāo)注數(shù)據(jù)確實在準(zhǔn)確率等方面具有優(yōu)勢。數(shù)據(jù)標(biāo)注公司往往在菲律賓、肯尼亞、委內(nèi)瑞拉等勞動力價格較為低廉的國家或地區(qū)尋找合適的數(shù)據(jù)標(biāo)注人員。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

隨著機器學(xué)習(xí)模型的發(fā)展,自動化數(shù)據(jù)標(biāo)注的準(zhǔn)確性提高,可以使用模型來輔助人工標(biāo)注,比如模型預(yù)處理數(shù)據(jù)再發(fā)送給標(biāo)注員;或人類作為審核員,審核并糾正模型給出的標(biāo)注結(jié)果等等。與純手動標(biāo)記相比,AI 輔助標(biāo)注加快數(shù)據(jù)標(biāo)注的速度。目前,Scale AI 等數(shù)據(jù)標(biāo)注公司都在努力減少數(shù)據(jù)標(biāo)注過程中的人工參與比例。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

上述兩種方案是目前數(shù)據(jù)標(biāo)注的主要形式,至于未來數(shù)據(jù)標(biāo)注能否全部由模型代勞,我們目前的判斷是 No,成熟場景也許可以,但未來總是會不斷有新的場景出現(xiàn),新事物往往需要先通過人工標(biāo)注以積累數(shù)據(jù)、例子,然后才可能訓(xùn)練出可自動完成標(biāo)注的模型。

2. 大模型是否還需要數(shù)據(jù)標(biāo)注

在此前,機器學(xué)習(xí)需要有監(jiān)督學(xué)習(xí),需要標(biāo)注大量數(shù)據(jù)。隨著模型逐漸變大,對數(shù)據(jù)量的需求變大,標(biāo)注數(shù)據(jù)的時間及成本變得無法控制,高質(zhì)量的標(biāo)注數(shù)據(jù)的生產(chǎn)速度難以滿足大模型的需求。但無監(jiān)督學(xué)習(xí)出現(xiàn)后,機器學(xué)習(xí)不需要明確目的的訓(xùn)練方式,也無法提前預(yù)測結(jié)果,因此不需要標(biāo)注數(shù)據(jù)。

強化學(xué)習(xí)也不需要數(shù)據(jù)標(biāo)注,強化學(xué)習(xí)的反饋不是通過標(biāo)簽或數(shù)值,而是通過獎勵機制來學(xué)習(xí)一系列行為。預(yù)訓(xùn)練模型實現(xiàn)了有監(jiān)督學(xué)習(xí)到無監(jiān)督學(xué)習(xí)的跨越,OpenAI 的 GPT-1 到 GPT-3 也一直采用此路線,因此在過去一段時間內(nèi),不少人擔(dān)心數(shù)據(jù)標(biāo)注在大模型時代的價值。

但 ChatGPT 出現(xiàn)后,該顧慮有所緩解,ChatGPT 使用強化學(xué)習(xí)和人類反饋來使模型更好地與人類指令保持一致,即 RLHF (Reinforcement Learning from Human Feedback),這其中會涉及到非常多的數(shù)據(jù)標(biāo)注工作。

RLHF 的數(shù)據(jù)標(biāo)注與此前的用低成本勞動力完成的簡單數(shù)據(jù)標(biāo)注工作也有所不同,需要非常專業(yè)的人士來寫詞條,針對相應(yīng)的問題和指令,給出符合人類邏輯與表達(dá)的高質(zhì)量的答案。

據(jù)稱 OpenAI 內(nèi)部招了幾十名 PhDs來做 RLHF 的標(biāo)注,Scale 作為 OpenAI 的上游供應(yīng)商,同樣招聘了幾十名 PhDs 在為 OpenAI 提供此類服務(wù),具體的分工是 Scale 更多完成標(biāo)注的動作,而 OpenAI 更多是進(jìn)行質(zhì)量檢測。標(biāo)注數(shù)據(jù)是 ChatGPT 效果區(qū)別于其他競爭對手的原因之一。Google 一位技術(shù)專家也表示,在 ChatGPT 出來后,Google 也在針對數(shù)據(jù)標(biāo)注問題進(jìn)行反思。

二、產(chǎn)品

1. 產(chǎn)品 Update

Scale AI 核心業(yè)務(wù)是數(shù)據(jù)標(biāo)注,除此之外還有非常豐富的產(chǎn)品線。產(chǎn)品主要分成 4 大類:數(shù)據(jù)標(biāo)注(Annotate)、管理和評估(Manage & Evaluate)、自動化(Automate)和合成(Generate)。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

Scale 從自動駕駛領(lǐng)域的標(biāo)注起家,在自動駕駛、地圖等行業(yè)表現(xiàn)很好,兩年前,公司 80-90% 的訂單都來自自動駕駛(2D、3D、激光雷達(dá)等),該比例近年有所下降。

事實上,Scale AI 的標(biāo)注產(chǎn)品研發(fā)及銷售情況與底層的行業(yè)趨勢及各行業(yè)發(fā)展情況有很大關(guān)系,在自動駕駛之后,Scale 的數(shù)據(jù)標(biāo)注訂單還來自政府、電商(零售商品目錄)、機器人、大模型(RLHF)等領(lǐng)域,分別對應(yīng)過去幾年 AI 行業(yè)幾波大的趨勢和機會。每波大趨勢將要到來時 Scale 都能很敏銳地捕捉到信號,快速招聘相應(yīng)的人才,推出相應(yīng)的產(chǎn)品,在細(xì)分領(lǐng)域迅速做到極高的市場份額。

除了數(shù)據(jù)標(biāo)注外,值得關(guān)注的產(chǎn)品還包括:Scale Catalog、Scale Spellbook、Scale Synthetic。

  • Scale Catalog 主要針對電商和零售企業(yè),除了提供標(biāo)注服務(wù),還能自動生成產(chǎn)品圖,是 Scale 切入 Generative AI 應(yīng)用領(lǐng)域的一款核心產(chǎn)品。
  • Scale Spellbook 是 Scale 近期投入較大的業(yè)務(wù),匯集了 Scale 的核心人才,做一個基于大語言模型的 to 開發(fā)者的工具平臺。
  • Scale Synthetic 是合成數(shù)據(jù)工具,隨著模型參數(shù)不斷變大,模態(tài)不斷豐富,對數(shù)據(jù)量的要求越來越高,真實數(shù)據(jù)量已無法滿足需求,合成數(shù)據(jù)開始受到關(guān)注。

從 Scale 的產(chǎn)品拓展情況來看,Scale 正非常激進(jìn)地切入 MLOps 和 LLM 領(lǐng)域,提供各類工具、平臺和服務(wù)。不過這只是 Scale 尋找第二增長曲線的一些嘗試,產(chǎn)品銷售情況并不理想,最后能有穩(wěn)定需求、貢獻(xiàn)主要收入的還是數(shù)據(jù)標(biāo)注。

2. 客戶與商業(yè)模式

Scale 的標(biāo)注工人主要從委內(nèi)瑞拉、肯尼亞、菲律賓等工資水平相對較低的國家招聘,客戶主要為美國 enterprise 企業(yè),商業(yè)模式就像全球化套利,毛利較高。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

來源:Scale AI 官網(wǎng)

主要客戶名單如下:

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

商業(yè)模式方面,Scale 官網(wǎng)針對每款產(chǎn)品給出了標(biāo)準(zhǔn)化定價,定價模式為 Consumption-base 的模式。如 Scale lmage 起價為每張圖片 2 美分,每條標(biāo)注 6 美分;Scale Video 起價為每幀視頻 13 美分,每條標(biāo)注 3 美分;Scale Text 起價為每項任務(wù) 5 美分,每條標(biāo)注 3 美分;Scale Document Al 起價為每項任務(wù) 2 美分,每條標(biāo)注 7 美分。

除此之外,還有針對 enterprise 的收費方式,即根據(jù)具體的企業(yè)級項目的數(shù)據(jù)量及服務(wù)進(jìn)行收費。由于 Scale 的大部分客戶都為 enterprise 客戶,因此實際上大部分收入均為項目制收入,客單價幾十萬美金至幾千萬美金不等。Scale 2022 年收入預(yù)計為 2.9 億美元,毛利約為 70%。公司 2021 年 4 月完成 $325M 的 E 輪融資,投資者包括 Dragoneer、Greenoaks、Tiger Global 等,估值達(dá)$7.3B。

三、團隊

Scale AI 于 2016 年誕生于 Y Combinator 創(chuàng)業(yè)項目,創(chuàng)始人為 Alexandr Wang 和 Lucy Guo(2018 年 Lucy 離開 Scale AI,保留 6% 股權(quán)),兩位創(chuàng)始人技術(shù)背景深厚。Alexandr Wang 出生于 1997 年,2014 年加入 Quora,并在 Quora 上結(jié)識 Lucy Guo,高中就收到很多硅谷科技公司的 offer,后在麻省理工學(xué)院攻讀機器學(xué)習(xí)專業(yè),選修的全是研究生級別的計算機課程,一年后毅然從麻省理工輟學(xué)。

2016 年,Alexandr Wang 和 Lucy Guo 在 YC 期間創(chuàng)辦 Scale。Alexandr Wang 在 2011 年美國數(shù)學(xué)人才搜索 (USAMTS) 中獲得銅牌,在 2012 年獲得金牌;2013 年在美國數(shù)學(xué)奧林匹克競賽中進(jìn)入全國前 30 名,同時在 Who Wants to Be a Mathematical 比賽中獲得第三名;2014 年參加了美國國家物理奧林匹克競賽 (USAPhO) 并進(jìn)入半決賽,在 2018 年登上了“30 under 30”的榜單。

Alexandr Wang 的履歷非常亮眼,但大家對他的評價褒貶不一。他非常聰明、自信,能力強,善于維護(hù)外部關(guān)系,花費大量時間與硅谷關(guān)鍵人物建立關(guān)系。

他也十分擅長 branding 和 marketing,塑造很好的個人形象和企業(yè)形象,有觀點認(rèn)為 Scale 與其他競對的差異性主要來自于 Alex 的宣傳炒作,為公司帶來了大量訂單。

但或許是因為年紀(jì)太小的緣故,Alex 管理公司的經(jīng)驗相對欠缺,公司內(nèi)部管理較為糟糕,很多人才流失或不愿加入 Scale,企業(yè)內(nèi)部也存在各類矛盾。我們在幾位離職高管訪談中聽到了非常負(fù)面的評價,但也在不少員工訪談中感受到部分員工對 Alex 發(fā)自內(nèi)心的欣賞。

團隊整體方面,Scale 整體執(zhí)行力非常強,工作節(jié)奏和企業(yè)文化非常激進(jìn),偏好招頂級院校的應(yīng)屆畢業(yè)生,聰明、勤奮、執(zhí)行力強、肯加班,Scale 的“卷”在硅谷非常有名。

四、競爭

Scale 的競爭對手包括:公司內(nèi)部自建的數(shù)據(jù)標(biāo)注團隊;谷歌、微軟和亞馬遜等科技大廠的數(shù)據(jù)標(biāo)注服務(wù);數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

1. 類型一:公司內(nèi)部自建的數(shù)據(jù)標(biāo)注團隊

由于某些數(shù)據(jù)比較敏感,有的公司會選擇內(nèi)部自建數(shù)據(jù)標(biāo)注團隊,作為 Scale 等外包方案的補充。例如 Airbnb 使用內(nèi)部數(shù)據(jù)標(biāo)注產(chǎn)品來標(biāo)記隱私數(shù)據(jù),并用于公司內(nèi)部的機器學(xué)習(xí)模型,但是對于不敏感的數(shù)據(jù),Airbnb 通常會外包給第三方供應(yīng)商進(jìn)行標(biāo)注。原因有三:

  • 第三方供應(yīng)商做數(shù)據(jù)標(biāo)注可以比 Airbnb 內(nèi)部自建團隊更便宜;
  • 第三方供應(yīng)商具有靈活性,可以根據(jù) Airbnb 的需求靈活調(diào)整;
  • 數(shù)據(jù)標(biāo)注并不是 Airbnb 的重點業(yè)務(wù),第三方供應(yīng)商的工具可以更準(zhǔn)確高效地完成標(biāo)注。

2. 類型二:谷歌、微軟和亞馬遜等科技大廠

對于 Scale 而言,這些科技巨頭既是客戶,也是競爭對手。谷歌、亞馬遜、微軟等科技大廠比其他任何供應(yīng)商都具有優(yōu)勢,因為規(guī)模效應(yīng)的存在以及頭部公司擁有廣泛的產(chǎn)品集合。例如,Scale 在 AWS 上處理和標(biāo)注數(shù)據(jù),如果客戶想把 Scale 標(biāo)注的數(shù)據(jù)儲存在 S3 中,需要給 Scale 開通訪問權(quán)限,再由 Scale 將標(biāo)注好的數(shù)據(jù)放入客戶的 S3 存儲空間中,這一系列操作會造成額外的成本。

但如果客戶數(shù)據(jù)本來就存儲在谷歌、亞馬遜和微軟的云平臺上,并使用他們的數(shù)據(jù)標(biāo)注產(chǎn)品和服務(wù),則無需進(jìn)行訪問授權(quán)、移動數(shù)據(jù)等步驟。

此外,微軟、亞馬遜、谷歌等科技大廠都希望客戶能夠在一個平臺解決所有問題、采購他們的所有產(chǎn)品和服務(wù),因此會在一攬子產(chǎn)品中,針對某個單一產(chǎn)品給一些折扣,甚至直接提供免費的工具,這會對 Scale 造成競爭壓力。但微軟等科技大廠大多只提供軟件和工具,不提供人力服務(wù),導(dǎo)致客戶必須自己承擔(dān)人力工作。而 Scale 提供人工標(biāo)注數(shù)據(jù)以及其他的人力服務(wù),在與科技大廠競爭中也具備一定的獨特優(yōu)勢。

3. 類型三:數(shù)據(jù)標(biāo)注創(chuàng)業(yè)公司

如 Dataloop、SuperAnnotate、Labelbox、Snorkel、V7、Appen 等。

Scale AI:大模型還需要數(shù)據(jù)標(biāo)注嗎?

Snorkel

Snorkel 提供了大量模板來讓用戶創(chuàng)建標(biāo)注任務(wù),也提供了托管服務(wù)。Snorkel 與 TensorFlow、Kubernetes 和 DAS 都有很好的集成。

Snorkel 和 Scale 都是數(shù)據(jù)標(biāo)注領(lǐng)域較大的供應(yīng)商,有專家認(rèn)為 Snorkel 未來不會在與 Scale 完全相同的賽道中,但兩者都會有不錯的增長。相比 Scale,Snorkel 的優(yōu)勢在于更專注于文本和 NLP,以及成本較低,所以用戶如果只是處理文本數(shù)據(jù),一般會選擇 Snorkel 而不是 Scale。Snorkel 的劣勢在于視頻、圖像、地圖等處理能力非常有限。

SuperAnnotate

SuperAnnotate 是數(shù)據(jù)標(biāo)注行業(yè)重要的供應(yīng)商之一。功能豐富,允許用戶以 Python 等格式提取不同的標(biāo)簽,使用 SQL 對圖像進(jìn)行大量搜索,并將 SQL 與數(shù)據(jù)庫合并。

相比 Scale,SuperAnnotate 的優(yōu)勢在于醫(yī)療行業(yè)和工作流程。在醫(yī)療方面,SuperAnnotate 符合 HIPAA 標(biāo)準(zhǔn),而 Scale 并不符合。SuperAnnotate 在創(chuàng)建工作流方面能力更強,比如提供指令,在此方面,Scale 正在追趕,但并沒有達(dá)到 SuperAnnotate 的水平。但整體來看,SuperAnnotate 的劣勢在于標(biāo)注質(zhì)量不及 Scale。

Labelbox

Labelbox 的商業(yè)模式與 Scale 略有不同,Labelbox 是給用戶提供平臺,用戶可以選擇自己進(jìn)行數(shù)據(jù)標(biāo)注或使用其他服務(wù),但客戶需要采用 Labelbox 平臺作為內(nèi)部數(shù)據(jù)標(biāo)記工具。Labelbox 通過美國國防部安全審查,也與各種組織展開合作,例如,Labelbox 與 GCP 是合作伙伴關(guān)系,正在推動 GCP 云和谷歌云。

五、當(dāng)前結(jié)論與判斷

1.為什么看好

(1)數(shù)據(jù)標(biāo)注外包需求確定數(shù)據(jù)標(biāo)注外包需求明顯,給創(chuàng)業(yè)公司很大的發(fā)揮空間

一方面,從客戶角度考慮,數(shù)據(jù)標(biāo)注對于 AI 公司的員工而言屬于臟活累活,會占用他們大量的時間,分散他們在算法等核心環(huán)節(jié)上的注意力,從主觀角度看他們不愿意把時間花在標(biāo)注上。

另一方面,從 ROI 角度考慮,大部分的數(shù)據(jù)標(biāo)注工作對標(biāo)注員的要求并不高,即美國的工人可以完成的工作肯尼亞的工人也可以完成,且質(zhì)量差別不會很大。

因此,如果不是特別隱私的數(shù)據(jù)、或不需要類似 RLHF 場景的語義理解等其他能力,通過第三方交由低成本國家和地區(qū)的勞動力來完成標(biāo)注工作 ROI 是更高的。因此,數(shù)據(jù)標(biāo)注外包的需求十分明顯,創(chuàng)業(yè)公司長期有機會。

(2)數(shù)據(jù)標(biāo)注賽道的頭部玩家,頭部效應(yīng)、品牌效應(yīng)強

Scale 是數(shù)據(jù)標(biāo)注賽道的絕對的頭部玩家,如果我們認(rèn)為人工標(biāo)注和“自動化+人工”的標(biāo)注方式在未來 5-10 年內(nèi)會長期存在,那么目前來看 Scale 會一直保持領(lǐng)先。從最真實的客戶和訂單來看,美國的 enterprise 客戶大多只認(rèn)可 Scale 作為他們的第三方數(shù)據(jù)標(biāo)注服務(wù)商,Scale 的客戶可以說是美國 AI 各細(xì)分賽道的皇冠上的明珠,擁有最好的客戶 base。

Scale 的銷售團隊在 pitch enterprise 客戶時,所遇到的競爭對手幾乎只有“大廠內(nèi)部自建的團隊”這一個解決方案,幾乎沒有遇到其他創(chuàng)業(yè)公司。

只有在 SMB 市場或面向非頭部企業(yè)的銷售中會遇到其他創(chuàng)業(yè)公司。頭部效應(yīng)和品牌效應(yīng)非常明顯。關(guān)于品牌效應(yīng)還可以補充一個觀點,有客戶說到這樣一句話:“Scale 和其他數(shù)據(jù)標(biāo)注公司就像 iPhone 和安卓的關(guān)系?!盨cale 品牌效應(yīng)的形成也離不開 Alex 本人及團隊極強的 PR 和 marketing 能力。

(3)規(guī)模效應(yīng)已顯現(xiàn)

數(shù)據(jù)標(biāo)注賽道有規(guī)模效應(yīng)。客戶對數(shù)據(jù)標(biāo)注的關(guān)注點主要在“質(zhì)量”和“效率”兩個方面,由于數(shù)據(jù)標(biāo)注不是高技術(shù)含量的工作,因此經(jīng)驗對質(zhì)量和效率的提升就起到關(guān)鍵作用。這里的經(jīng)驗又包括工人標(biāo)注數(shù)據(jù)的經(jīng)驗,以及 Scale 對整套流程和體系的管理經(jīng)驗。

經(jīng)驗一定程度上也與規(guī)模和數(shù)量有很大聯(lián)系,規(guī)模越大,標(biāo)注的數(shù)據(jù)量越多,經(jīng)驗就越成熟、越豐富,標(biāo)注數(shù)據(jù)的質(zhì)量和效率就越高。

作為賽道的頭部玩家,以及與 enterprise 客戶合作,Scale 的訂單量及數(shù)據(jù)量與其他競對相比要大不少,再加上 Scale 在每波趨勢剛剛興起的時候,都能快速進(jìn)入新興領(lǐng)域,更早地獲得“經(jīng)驗”,后續(xù)企業(yè)競對便很難追上。

另一方面,Scale 將人工標(biāo)注的經(jīng)驗沉淀為自動化的解決方案,在行業(yè)發(fā)展早期采用人工標(biāo)注的方式,當(dāng)行業(yè)成熟時已經(jīng)能夠訓(xùn)練出適配特定領(lǐng)域數(shù)據(jù)的自動化標(biāo)注模型,變成“自動化+人工”的解決方案,大大提升效率。訂單量和數(shù)據(jù)量足夠大也能夠更快速和高效地優(yōu)化標(biāo)注模型。因此,Scale 的規(guī)模效應(yīng)非常明顯。

(4)創(chuàng)始人與團隊綜合實力和執(zhí)行力強

關(guān)于 Alex 在團隊部分也有所介紹,一位非常聰明、激進(jìn)、好勝心強的年輕人,且 Alex 不僅在技術(shù)方面有很強的天賦,在商業(yè)方面也有很強的能力,比如運營、品牌、營銷、銷售、社交能力等等,綜合實力強勁。Scale 團隊綜合能力也非常優(yōu)秀,尤其是運營能力,對數(shù)據(jù)標(biāo)注整套流程和體系的管理。

Scale 的流程與管理體系、經(jīng)驗管理效果和效率都明顯優(yōu)于其他競對企業(yè),包括如何管理數(shù)據(jù)工人、如何給他們分工、如何進(jìn)行激勵或懲罰、如何檢查質(zhì)量、如何將數(shù)據(jù)交到客戶手中、如何服務(wù)客戶、又如何根據(jù)客戶反饋重新標(biāo)注數(shù)據(jù)提升標(biāo)注質(zhì)量等等,整個鏈路非常復(fù)雜,Scale 的高材生們能夠把整套流程 handle 好,每一個環(huán)節(jié)都極其高效、流暢、準(zhǔn)確。

而 Alex 也在很多事情上親力親為,或親自監(jiān)督。團隊綜合素質(zhì)和執(zhí)行力非常強。

2. 為什么不看好

(1)企業(yè)管理風(fēng)險創(chuàng)始人與團隊既是亮點也是風(fēng)險

如團隊部分所說,我們對創(chuàng)始人和團隊進(jìn)行 reference 后發(fā)現(xiàn)大家對 Alex 的評價十分極端且割裂,欣賞 Alex 的人覺得他是全能天才少年,不欣賞 Alex 的人又覺得 Alex 在公司管理方面存在非常大的問題。

這可能是我們最近兩年的研究中遇到的第一個 reference 結(jié)果如此割裂的項目。企業(yè)管理和企業(yè)文化方面,Scale 給年輕人足夠大的發(fā)展機會和發(fā)展空間、足夠快速和清晰的上升的機會、足夠多的激勵,但同時在處理老員工的關(guān)系上存在很多問題,因此這其中存在較大的沖突與矛盾。

此外,Scale 高強度的工作、激進(jìn)的管理方式,也導(dǎo)致了嚴(yán)重的人才流失,或是讓很多人才在選擇公司的時候就望而卻步。我們認(rèn)為企業(yè)管理與企業(yè)文化是 Scale 最大的 risk。

需求和增長風(fēng)險數(shù)據(jù)標(biāo)注需求受具體行業(yè)周期影響大,當(dāng)每波 AI 趨勢爆發(fā)的時候,就會有一次極其陡峭的增長,但當(dāng)行業(yè)發(fā)展趨于穩(wěn)定或趨于成熟后,增長曲線將開始平緩,直到下一波大趨勢的爆發(fā),需求和增長波動較大。

并且 Scale 多為項目制,項目的數(shù)量、周期、穩(wěn)定程度和訂單金額都有很大的不確定性,較難預(yù)測。數(shù)據(jù)標(biāo)注業(yè)務(wù)本身重人力,靠堆人完成標(biāo)注工作,屬于施工隊生意,短期內(nèi)人效較難提升,也難有持續(xù)復(fù)利。

另一方面,Scale 團隊一直在努力尋找第二增長曲線,在 MLOps、LLM tool、Generative AI 等方面均有涉及,但目前從結(jié)果看差強人意,依然沒有找到第二條穩(wěn)定的增長曲線。如果長期依靠數(shù)據(jù)標(biāo)注業(yè)務(wù),天花板將受限。如果想象空間和穩(wěn)定的增長不存在,那么公司將來到二級市場將承擔(dān)低估值的風(fēng)險。

(2)供給端風(fēng)險

Scale 此前布局供給端的國家和地區(qū)近年人力成本上漲速度快,最典型的是菲律賓等東南亞地區(qū),菲律賓勞動力價格上漲后,Scale 也很少再到菲律賓招人。

供給端成本上漲,Scale 的毛利空間受擠壓,而毛利是否穩(wěn)定上升也是公司上市后投資者最看重的標(biāo)準(zhǔn)之一,如果毛利下降是非常不利的信號。除此之外,供給端招聘流程的規(guī)范性和穩(wěn)定性也是我們關(guān)心的問題。

最后補充一個觀點,我們認(rèn)為 Scale 是觀察 AI 行業(yè)機會的絕佳的生態(tài)位,一旦行業(yè)有新動向 Scale 都能很快捕捉到信號,并快速推出相應(yīng)的數(shù)據(jù)標(biāo)注產(chǎn)品,且公開可見。Scale 的產(chǎn)品創(chuàng)新值得持續(xù)關(guān)注。

作者:拾象;公眾號:海外獨角獸(ID:unicornobserver)

本文由 @海外獨角獸 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理。未經(jīng)許可,禁止轉(zhuǎn)載。

題圖來自 Unsplash,基于CC0協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信存儲空間服務(wù)。

更多精彩內(nèi)容,請關(guān)注人人都是產(chǎn)品經(jīng)理微信公眾號或下載App
評論
評論請登錄
  1. 專業(yè)透徹分析,關(guān)注這個業(yè)態(tài),也未來技術(shù)業(yè)務(wù)板塊轉(zhuǎn)型的重點

    來自貴州 回復(fù)