我投了份簡(jiǎn)歷,接到了十八個(gè)騷擾電話
是誰泄露了隱私信息?可能是你的簡(jiǎn)歷。
都說金三銀四,最近打算換工作的蘇大強(qiáng)(蹭熱點(diǎn)式化名)在各大招聘平臺(tái)掛上了自己的簡(jiǎn)歷。誰知道剛過兩天就接到了十八個(gè)騷擾電話,其中只有兩個(gè)來自獵頭。
在接起第十八個(gè)貸款推廣騷擾電話后,蘇大強(qiáng)崩潰了,誰!又是誰TM泄露了我的信息,沒錢不貸款還不起還不行嗎!
你有沒有想過,數(shù)據(jù)泄露可能源于那份簡(jiǎn)歷。
貼條巧達(dá)
先說一起新聞。不久前網(wǎng)上有爆料稱簡(jiǎn)歷大數(shù)據(jù)公司北京巧達(dá)科技被查封,全員被抓,隨后有部分員工被放出。
3月24日,三言財(cái)經(jīng)也實(shí)地走訪了巧達(dá)位于中關(guān)村辦公室,發(fā)現(xiàn)大門現(xiàn)已被封條封住,辦公室內(nèi)空無一人。該封條由中鋼國際廣場(chǎng)保安部張貼,時(shí)間為2019年3月14日。
于是有人好奇,這家公司做了啥突然被封?
根據(jù)公開信息,巧達(dá)科技號(hào)稱擁有中國最大的簡(jiǎn)歷數(shù)據(jù)庫,其主要數(shù)據(jù)來源是“喬大招”。喬大招旗下則擁有“愛伙伴”、“簡(jiǎn)歷時(shí)光機(jī)”等在內(nèi)10多款招聘相關(guān)產(chǎn)品。
“喬大招”可以做到通過一款工具匯總多家招聘網(wǎng)站賬號(hào)信息,企業(yè)客戶可以統(tǒng)一發(fā)布職位、收取簡(jiǎn)歷;其次,該工具可以抓取簡(jiǎn)歷的修改歷史,可以查看到對(duì)應(yīng)簡(jiǎn)歷被查閱次數(shù)、修改記錄等信息;不僅如此,還可以將簡(jiǎn)歷上傳至平臺(tái),供其他企業(yè)、獵頭使用。
愛伙伴是一款提供“員工離職預(yù)測(cè)”的工具軟件,該軟件可以檢測(cè)到員工投遞簡(jiǎn)歷、員工簡(jiǎn)歷更新情況以及員工簡(jiǎn)歷被查看次數(shù)等信息。企業(yè)用戶購買愛伙伴后,即可查看其收集匯總的簡(jiǎn)歷數(shù)據(jù),依此判斷公司員工的離職傾向。
簡(jiǎn)單說,這個(gè)一款給老板打小報(bào)告的軟件,哪個(gè)員工有離職的想法都可能被提前知道。
截至2015年6月30日,在喬大招的數(shù)據(jù)庫中,以人為計(jì)算,收入自然人的簡(jiǎn)歷超過1.6億人。以版本來計(jì)算,簡(jiǎn)歷超過18億個(gè)版本,超過25億行為軌跡。說不準(zhǔn)你精心準(zhǔn)備的簡(jiǎn)歷就在其中!
這些數(shù)據(jù)都被這家公司用于牟利,甚至涉及違規(guī)收集個(gè)人信息。封條一帖,巧達(dá)涼涼。
不過,一家“巧達(dá)”倒下了,還有其他“巧達(dá)”站起來,打著智能招聘SaaS系統(tǒng)的簡(jiǎn)歷公司披著偽善外衣,暗地做著吸血勾當(dāng)。
智能招聘SaaS系統(tǒng)
想要竊取招聘網(wǎng)站的簡(jiǎn)歷數(shù)據(jù)有什么招數(shù)?
1. 利用公開數(shù)據(jù),通過爬蟲工具爬取;
2. 合法賬號(hào)內(nèi)部獲取數(shù)據(jù);
3. 利用網(wǎng)站平臺(tái)的漏洞進(jìn)入系統(tǒng)獲取數(shù)據(jù)。
其中,爬蟲技術(shù)運(yùn)用最為廣泛,因?yàn)椴恍枰W(wǎng)站有任何漏洞,只需要模擬正常用戶訪問操作,就可以抓取。
瑞數(shù)信息CSO馬蔚彥告訴雷鋒網(wǎng),一般黑產(chǎn)會(huì)通過腳本、自動(dòng)化框架、手機(jī)等工具去訪問招聘網(wǎng)站平臺(tái),通過分析招聘網(wǎng)站的接口,這些工具可以自動(dòng)的進(jìn)行搜索關(guān)鍵字輸入、翻頁,對(duì)招聘網(wǎng)站內(nèi)容進(jìn)行抓取,然后通過腳本程序,將抓取到的原始數(shù)據(jù)進(jìn)行格式化處理,轉(zhuǎn)換成可閱讀的簡(jiǎn)歷。后期爬蟲還可以同過定時(shí)機(jī)制,來進(jìn)行簡(jiǎn)歷數(shù)據(jù)的定時(shí)獲取更新。
這種爬蟲技術(shù)與爬各大網(wǎng)站低價(jià)機(jī)票本質(zhì)是一個(gè)套路,不同點(diǎn)在于:機(jī)票是全公開的,誰都可以看。但部分簡(jiǎn)歷數(shù)據(jù)需要登錄或者付費(fèi)后查看的,這時(shí)候就需要爬蟲組織囤積大量賬號(hào)進(jìn)行簡(jiǎn)歷抓取。
這些賬號(hào)從何而來?于是打著智能招聘SaaS系統(tǒng)的簡(jiǎn)歷公司出現(xiàn)了,聲稱該SaaS產(chǎn)品可以“幫助一個(gè)HR管理多個(gè)平臺(tái)上發(fā)布的職位和收到的簡(jiǎn)歷”,只需要登錄一個(gè)平臺(tái)就能管理所有渠道的簡(jiǎn)歷信息。
購買該產(chǎn)品后,HR手中各大招聘平臺(tái)的付費(fèi)賬號(hào)都被簡(jiǎn)歷公司所掌握。
(注:目前很多招聘網(wǎng)站的商業(yè)模式都包括付費(fèi)下載簡(jiǎn)歷進(jìn)行收費(fèi),花幾萬元可以下載幾千份簡(jiǎn)歷,可以查看該招聘網(wǎng)站的無限量個(gè)人簡(jiǎn)歷。)
筆者詢問了某做爬蟲技術(shù)的好友,對(duì)方稱,通過爬蟲技術(shù)抓簡(jiǎn)歷一般要解決四個(gè)問題:
1. 登陸的問題,需要購買一些賬號(hào);
2. 破解登陸的驗(yàn)證碼;
3. 購買ip代理、切換ip;
4. 控制好爬蟲的速度,因?yàn)榈卿浐螅话憔W(wǎng)站后臺(tái)都會(huì)存有日志記錄,抓的太快的話,會(huì)被封。
而一套賣給HR的智能招聘SaaS系統(tǒng)就能解決前三個(gè)問題,把非法的變成合法的,破解賬戶變成買賣服務(wù)。這操作,這腦洞,編輯嘆為觀止。
有了賬號(hào),之后的操作就更簡(jiǎn)單了。利用HR的賬號(hào)托管,SaaS方可以去爬取各大招聘平臺(tái)的簡(jiǎn)歷信息,并做到實(shí)時(shí)翻新。
馬蔚彥表示這種實(shí)時(shí)可以分為實(shí)時(shí)和準(zhǔn)實(shí)時(shí)。
實(shí)時(shí)的:有HR來招聘網(wǎng)站上進(jìn)行簡(jiǎn)歷檢索的時(shí)候,除了會(huì)顯示自己本地的數(shù)據(jù),還會(huì)將搜索請(qǐng)求轉(zhuǎn)發(fā)給其他招聘網(wǎng)站的搜索接口進(jìn)行數(shù)據(jù)獲取,并且可以將爬來的數(shù)據(jù)進(jìn)行智能比對(duì),更新簡(jiǎn)歷。
準(zhǔn)實(shí)時(shí):每個(gè)簡(jiǎn)歷在招聘簡(jiǎn)歷上都一個(gè)唯一的ID,爬蟲可以定時(shí)的,以ID為參數(shù)進(jìn)行簡(jiǎn)歷數(shù)據(jù)獲取。也就是只要你更改簡(jiǎn)歷,對(duì)方就會(huì)收到數(shù)據(jù),同步更改。
這時(shí)候,你的簡(jiǎn)歷還只是你的嗎?
掛鉤黑產(chǎn)
潘多拉魔盒未打開時(shí)一片平靜,放在黑盒中的簡(jiǎn)歷數(shù)據(jù)也是一樣。
你的簡(jiǎn)歷上都有什么信息?生日、電話、地址、身份證信息、工作經(jīng)歷……這些詳細(xì)得不能再詳細(xì)得數(shù)據(jù)被分銷出去,可能賣給大數(shù)據(jù)分析公司,賣給獵頭,賣給貸款公司、賣給詐騙組織,這些都是黑產(chǎn)中的某一環(huán)節(jié)。
而信息裸奔的你可能接到N個(gè)騷擾電話卻還不知道問題出自簡(jiǎn)歷。
即使沒有這些打著智能招聘SaaS名義的公司,你的簡(jiǎn)歷就安全嗎?
不一定,邦盛科技產(chǎn)品總監(jiān)焦林俊向雷鋒網(wǎng)透露,某國內(nèi)top級(jí)別的招聘平臺(tái)曾表示,有些大商戶(付費(fèi)大企業(yè))利用在招聘平臺(tái)的賬號(hào)密碼,登錄后臺(tái)通過爬蟲刷新數(shù)據(jù),爬取簡(jiǎn)歷。
之后將爬取下來的簡(jiǎn)歷放進(jìn)自己的數(shù)據(jù)庫,在合適時(shí)機(jī)將這些簡(jiǎn)歷數(shù)據(jù)出售給需要的機(jī)構(gòu),相當(dāng)于二道販子。
至于是哪些公司,各位可以自由猜測(cè)。
反爬頗難
招聘公司面對(duì)各種爬蟲技術(shù)是否有反爬技術(shù)呢?
“目前也有多種反爬蟲的技術(shù),如驗(yàn)證碼,IP黑名單,頻率限制,IP限制,單一賬號(hào)可閱讀量、需要購買,通過User-Agent控制等手段都能進(jìn)行一定限制。但越來越多的高級(jí)爬蟲,利用大量代理IP,并且與真實(shí)瀏覽器訪問的環(huán)境相似度很高,傳統(tǒng)的反爬技術(shù)在面對(duì)高級(jí)爬蟲時(shí)已經(jīng)基本無能為力?!瘪R蔚彥說道。
焦林俊也表示,招聘網(wǎng)站確有采取一些反爬蟲技術(shù),比如前端進(jìn)行加密,后端加入了大數(shù)據(jù)分析,機(jī)器學(xué)習(xí)等技術(shù)。但對(duì)大商戶爬取數(shù)據(jù)的行為招聘網(wǎng)站也有些頭疼,迫于營收壓力,他們不會(huì)采取直接攔截的措施。而且先通過后臺(tái)數(shù)據(jù)分析誰爬取了數(shù)據(jù),再針對(duì)不同對(duì)象采取相應(yīng)的反爬措施。
目前來說,爬蟲技術(shù)仍處于灰色地帶,對(duì)于利用爬蟲技術(shù)獲取公開數(shù)據(jù)這一行為的正誤,在認(rèn)知上也各有不同。目前更多的還是在道德層面,而非法律,比如:遵循robots,盡量放慢爬取速度,從而減少對(duì)提供數(shù)據(jù)查詢網(wǎng)站的壓力,不要造成拒絕服務(wù),不要公開爬蟲程序源碼,不要分享爬蟲數(shù)據(jù)等等。
(注:robots是網(wǎng)站跟爬蟲間的協(xié)議,用簡(jiǎn)單直接的txt格式文本方式告訴對(duì)應(yīng)的爬蟲被允許的權(quán)限,也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí),它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt,如果存在,搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在,所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面。)
但這些在馬蔚彥看來,缺乏法律保障的約束力非常弱。
隨著涉及個(gè)人、企業(yè)的數(shù)據(jù)資源越來越多,提供這些數(shù)據(jù)的平臺(tái)、系統(tǒng)也越來越多,非常需要通過建立正確的爬蟲觀念、提升反爬技術(shù)手段、建立合理的爬蟲相關(guān)法律規(guī)定等都多方面的綜合努力,才能更好地提供對(duì)于惡意爬蟲的防御,保護(hù)企業(yè)和客戶數(shù)據(jù)資源。
對(duì)于終端用戶來說,除了接到手軟的騷擾電話,似乎是完全無感知的。
焦林俊表示,用戶應(yīng)該避免在不安全的招聘網(wǎng)站發(fā)布簡(jiǎn)歷,遇到打電話稱自己是獵頭需要提供本人完整信息的說法也不要輕信。而對(duì)于招聘網(wǎng)站,應(yīng)該從業(yè)務(wù)方面進(jìn)行規(guī)范,搭建自己反爬蟲平臺(tái),利用前沿的反爬蟲技術(shù),如大數(shù)據(jù)分析,根據(jù)訪問行為提取特征,通過設(shè)備指紋,人機(jī)識(shí)別,環(huán)境檢測(cè)等技術(shù)識(shí)別出人還是機(jī)器。這樣即可以去掉驗(yàn)證碼等降低用戶體驗(yàn)的操作,也避免了用戶有價(jià)值的信息被爬取。
做反爬不能誤傷正常用戶,這是反爬蟲技術(shù)的關(guān)鍵點(diǎn)。爬蟲與反爬蟲永遠(yuǎn)在對(duì)抗,沒有勝負(fù)。
作者:又田
參考來源:三言財(cái)經(jīng)
原文鏈接:https://mp.weixin.qq.com/s/9AOghHU–QLX8Z9LUnGXbQ
本文來源于人人都是產(chǎn)品經(jīng)理合作媒體 @雷鋒網(wǎng),作者@又田
題圖來自Unsplash,基于CC0協(xié)議。
- 目前還沒評(píng)論,等你發(fā)揮!