日韩精品中文字幕久久臀_天堂av在线一区_午夜精品视频网站_99r精品视频_国产日韩亚洲欧美_亚洲欧美国产一本综合首页_日本一区二区三区久久久久久久久不 _国产精品高潮视频_久热99视频在线观看_91伊人久久大香线蕉

世界頭條:“盜”數(shù)據(jù),AI大模型的黑暗面

2023-06-19 09:20:53 來源:深A(yù)I公眾號

一個叫作“一筆兩劃”的創(chuàng)業(yè)公司,公開聲討曾經(jīng)的教培龍頭“學(xué)而思”,說它用“扒庫”的方式,“偷”走了自己辛辛苦苦攢下的數(shù)據(jù)。

故事的起因,是在今年4月中旬,“筆神作文”(一筆兩劃公司旗下產(chǎn)品)發(fā)現(xiàn),服務(wù)器接口出現(xiàn)大量有規(guī)律的異常訪問,導(dǎo)致服務(wù)器承載壓力快速升高。


(資料圖片僅供參考)

訪問量遠(yuǎn)超日常平均值。筆神作文對深A(yù)I透露,平時的日訪問量大約是幾百或幾千,那幾天暴增至每天超過50萬。一周之內(nèi),他們的數(shù)據(jù)被爬取了258萬次。

筆神作文公布的數(shù)據(jù)庫調(diào)用情況

通過查閱服務(wù)器日志,筆神作文發(fā)現(xiàn),單一IP通過“爬蟲”技術(shù),高密度地爬取了他們的數(shù)據(jù)庫。這個IP每次訪問的搜索詞,都是作文相關(guān),系統(tǒng)會每頁返回30篇作文,每次訪問都是用搜索詞從第一頁逐頁向后翻,基本上把庫里同個題目的所有作文,全部抓取完了。

業(yè)內(nèi)人士介紹,通常情況下,普通用戶不會這么干。這種對數(shù)據(jù)庫的搜刮式訪問,也被稱為“扒庫”。

筆神作文認(rèn)為,“扒庫”的幕后黑手,是它的合作伙伴學(xué)而思。

“扒庫”事件發(fā)生后沒多久,筆神作文發(fā)現(xiàn),學(xué)而思在進(jìn)行數(shù)學(xué)大模型MathGPT的研發(fā),并表示將于近期上線一款“AI助手”,其中一項功能,就是作文。

筆神作文被“扒庫”,和學(xué)而思開發(fā)“作文AI助手”,這兩起事件之間是否有關(guān)聯(lián),目前尚沒有明確結(jié)論。

但筆神作文認(rèn)為,自己的權(quán)益被侵犯了。它向?qū)Ψ桨l(fā)去律師函,并將這件事公之于眾,試圖討要一個說法。學(xué)而思方面則給出公開回應(yīng),稱對筆神素材內(nèi)容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,沒有使用筆神作文的任何數(shù)據(jù)。

此次事件中,值得探討的不僅是作文素材。數(shù)據(jù),對于大模型而言,意味著什么?

合作伙伴變成門口野蠻人?

雙方各執(zhí)一詞

我們先簡單介紹一下筆神作文。

這家公司成立于2017年,產(chǎn)品“筆神”是一款人工智能輔助寫作軟件,算是AI+教育的產(chǎn)物。一開始“筆神”面向內(nèi)容創(chuàng)作平臺和相關(guān)工具廠商,后來深入到垂直領(lǐng)域,用AI教學(xué)生寫作文,于是就有了“筆神作文”。

你可以簡單理解:它處在教育行業(yè),面向的是學(xué)生群體,利用了人工智能技編程術(shù),解決的是寫作文的場景。

AI寫作文,跟今天大火的ChatGPT,在技術(shù)上有很多共通之處。它們都涉及到自然語言處理、語義分析預(yù)測、機器學(xué)習(xí)等技術(shù)。筆神作文創(chuàng)始人宋嘉偉,曾擔(dān)任過索尼高級系統(tǒng)架構(gòu)師、奇點機智CTO。

早在五年前,宋嘉偉就說過,在考慮如何將bert或GPT-2這些預(yù)訓(xùn)練語言模型技術(shù)運用到應(yīng)用中去。當(dāng)時GPT尚未出圈,不像今天這樣廣為人知。

開始做AI作文之后,筆神作文正式進(jìn)入教育賽道,跟教培龍頭學(xué)而思踏進(jìn)了同一條河流。

據(jù)筆神方面介紹,2020年12月,筆神作文跟學(xué)而思達(dá)成合作。筆神作文為學(xué)而思提供“筆神作文范文素材服務(wù)接口”,用于學(xué)而思相關(guān)服務(wù)中,按調(diào)用次數(shù)結(jié)算費用。為此,筆神作文為學(xué)而思開放了服務(wù)接口。

也就是說,學(xué)而思可以調(diào)用筆神作文數(shù)據(jù)庫中的作文素材,并為之付費。

作文素材,是這項交易中的一個核心資產(chǎn),也是筆神作文商業(yè)模式的基石。事實上,筆神作文最早就是從素材這個點切入的。它當(dāng)年主打的“一鍵找素編程客棧材”功能,用戶通過搜索關(guān)鍵詞,系統(tǒng)可以自動匹配素材,資源從古詩詞經(jīng)典、公文,到現(xiàn)代網(wǎng)文均有涵蓋。在寫作過程中,系統(tǒng)還可以實時推送素材。

這些素材不是來源于網(wǎng)絡(luò),而是筆神自有的數(shù)據(jù)庫。通過AI技術(shù)的智能識別、翻譯、匹配,筆神能向用戶的搜索行為反饋回合適的素材。

當(dāng)這些作文素材的量足夠大、質(zhì)量足夠優(yōu)質(zhì)、匹配夠精準(zhǔn),就具備了一定的商業(yè)價值,甚至可以對外售賣。這才有了跟學(xué)而思的合作。

問題是,這些素材有被“偷”走的風(fēng)險,尤其是在開放部分接口的情況下。

按照筆神作文對深A(yù)I的介紹,他們對與學(xué)而思的合作范圍進(jìn)行了限定,“我們開放接口讓他們調(diào)用我們的數(shù)據(jù),顯示在他們自己的APP里,但合同中并未包括存儲數(shù)據(jù)或用于AI算法的權(quán)限。數(shù)據(jù)應(yīng)僅供他們的用戶調(diào)用,不能被存儲javascript在他們的機器上。”

相當(dāng)于,當(dāng)用戶在學(xué)而思的產(chǎn)品端發(fā)起搜索,調(diào)用的作文范本來自筆神作文,學(xué)而思不能自己儲存。

4月中旬的那次異常調(diào)用,讓筆神作文認(rèn)為,超出了正常的商業(yè)合作范圍。“他們的行為觸發(fā)了我們的防御機制,這才使我們發(fā)現(xiàn)了這一情況。”

筆神作文稱,他們查看了后臺的訪問日志,發(fā)現(xiàn)是由單一IP通過“爬蟲”技術(shù)發(fā)起的非法訪問。“我們已經(jīng)掌握了這個IP地址。”

筆神作文公布的IP地址情況(一部分)

國內(nèi)某人工智能創(chuàng)業(yè)公司的CEO劉然對深A(yù)I分析,這種窮舉關(guān)鍵詞的方式,肯定是想要獲取庫里的數(shù)據(jù),這是非常明顯的行為。

筆神作文對深A(yù)I透露,事發(fā)后他們與學(xué)而思的運營人員求證,對方直接承認(rèn),是學(xué)而思的算法組在爬取數(shù)據(jù)并作為己用。不過,針對此說法,深A(yù)I尚未得到學(xué)而思方面的證實。

曾經(jīng)的合作伙伴,突然變成了門口的野蠻人,讓筆神作文非常憤怒,多次發(fā)出律師函。

學(xué)而思方面則在6月13日的公開回應(yīng)中稱,其對筆神作文接口的調(diào)用,并未超出雙方合同范圍,對筆神素材內(nèi)容的使用均符合合同要求,未用于合同以外的任何用途。學(xué)而思專門強調(diào),其自研的MathGPT大模型和“作文AI助手”,沒有使用筆神作文的任何數(shù)據(jù)。

雙方各執(zhí)一詞,目前未有定論。筆神作文稱,該案件可能將會成為“AI大模型數(shù)據(jù)被盜第一案”。

一個值得探討的問題是,數(shù)據(jù),對于大模型而言,意味著什么?

數(shù)據(jù)從哪里來,是個大問題

算力、算法、數(shù)據(jù),是人工智能進(jìn)行機器學(xué)習(xí)的三大核心要素。

為了提升算力,很多科技公司都在花重金搶奪英偉達(dá)的GPU。在算法端,國內(nèi)外的一些大廠將算法開源,大大降低了模型開發(fā)的門檻。

而在數(shù)據(jù)端,壁壘一直存在。去哪里找到高質(zhì)量數(shù)據(jù),是個關(guān)鍵問題。

生成式AI大模型需要使用大量且多樣化的數(shù)據(jù)來進(jìn)行訓(xùn)練,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的數(shù)據(jù)來源。ChatGPT這類通用大模型,用了很多公開數(shù)據(jù),如各類新聞網(wǎng)站、書籍、科學(xué)論文、網(wǎng)頁等等。一些垂直領(lǐng)域的大模型,則需要找到有針對性的語料庫和數(shù)據(jù)集。

國內(nèi)某頭部科技公司的大模型負(fù)責(zé)人對深A(yù)I表示,ChatGPT其實也用了很多非公開的數(shù)據(jù),網(wǎng)上的公開數(shù)據(jù)很多都質(zhì)量非常差,高質(zhì)量的數(shù)據(jù)是有門檻的。數(shù)據(jù)的獲得、清洗,都面臨很大挑戰(zhàn)。

好未來CTO田密在5月4日公開表示,“很多領(lǐng)域是有數(shù)據(jù)壁壘和行業(yè)know-how的,大模型還是得和領(lǐng)域知識深度結(jié)合,加上足夠多的領(lǐng)域數(shù)據(jù)來訓(xùn)練領(lǐng)域大模型。”

就像田密說的,領(lǐng)域大模型要和領(lǐng)域知識深度結(jié)合。在AI作文領(lǐng)域,作文素材就是訓(xùn)練機器的重要數(shù)據(jù)。

早在2019年,筆神公司就開始有目的性地收集數(shù)據(jù),訓(xùn)練自己的作文語料庫,覆蓋名人名言、詩詞、公文、網(wǎng)絡(luò)語言等。他們利用訓(xùn)練機器模擬人工標(biāo)簽的方式,對每條語料打標(biāo)簽。

在垂直語料庫中,只有對數(shù)據(jù)打過標(biāo)簽,才能基于向量匹配、用戶當(dāng)前創(chuàng)作內(nèi)容的語義分析和預(yù)測,進(jìn)行精準(zhǔn)的內(nèi)容推送。

劉然對深A(yù)I說,建立模型需要大量經(jīng)過驗證的數(shù)據(jù),如果這些數(shù)據(jù)已經(jīng)整理好了,那么就可以節(jié)省大量的人力工作。筆神作文整理的作文,可能被當(dāng)作標(biāo)注數(shù)據(jù)使用。

這個js過程是持續(xù)且漫長的。筆神作文稱,創(chuàng)業(yè)六年,他們總共積累了超過500萬篇作文素材,月批改量超3萬篇。這些作文素材,是經(jīng)過一篇篇人工審核、篩選投稿、打標(biāo)簽、分級、數(shù)據(jù)糾正,最后累積起來的。

這些數(shù)據(jù)不僅能在APP的頁面以素材形式呈現(xiàn),還能拿去在后臺訓(xùn)練算法。所以在跟其他公司合作開放接口時,筆神作文在協(xié)議中專門加了一條——不得“緩存,存儲,作為語料進(jìn)行計算,訓(xùn)練”。

筆神作文認(rèn)為學(xué)而思“盜”走了數(shù)據(jù),揣測學(xué)而思將數(shù)據(jù)用于數(shù)學(xué)大模型MathGPT以及學(xué)而思學(xué)習(xí)機“作文AI助手”的訓(xùn)練和研發(fā)。但這似乎很難證明。

劉然認(rèn)為,正常來講,作文數(shù)據(jù)應(yīng)該會提前設(shè)置一些限制,比如不接受高并發(fā),在數(shù)據(jù)里加密,而且應(yīng)該能追蹤到數(shù)據(jù)的去向和用途。不過他同時認(rèn)為,作文數(shù)據(jù)不像用戶關(guān)鍵行為數(shù)據(jù)那么關(guān)鍵。

“你可以讓AI學(xué)習(xí)什么是好的作文,然后讓它按照這些標(biāo)準(zhǔn)生成。但我認(rèn)為,其實不需要那么大量的數(shù)據(jù)。幾萬篇高質(zhì)量的作文應(yīng)該就夠了。”他說。

“AI大模型數(shù)據(jù)被盜第一案”,

立得住嗎?

筆神作文態(tài)度強硬,連發(fā)兩篇公告,要求學(xué)而思道歉,同時索賠1元。它甚至想給這次事件扣上“AI大模型數(shù)據(jù)被盜第一案”的帽子。

上海曼昆律師事務(wù)所主任劉紅林律師對深A(yù)I表示,筆神作文自建的語料庫或素材庫,本身是有知識產(chǎn)權(quán)權(quán)益的。但是否屬于著作權(quán)法上的作品,需要看獨創(chuàng)性是否符合相關(guān)的判定標(biāo)準(zhǔn)。

“如果筆神作文有足夠的證據(jù)能證明學(xué)而思惡意抓取了他們的數(shù)據(jù),那么可以發(fā)起知識產(chǎn)權(quán)侵權(quán)或不正當(dāng)競爭訴訟。”他說。

另外,筆神作文與學(xué)而思有合作協(xié)議,如果對知識產(chǎn)權(quán)的尊重和授權(quán)進(jìn)行了約定,他們也可以通過合同違約來保護(hù)自己的權(quán)益。

值得注意的是,筆神作文素材庫中的很多作文,是用戶投稿而來。筆神作文自稱,每個月都會收到30萬篇作文投稿。因此,在認(rèn)定是否侵權(quán)之前,先要厘清這些素材的知識產(chǎn)權(quán)歸屬。

劉紅林分析,這要看作文的創(chuàng)作者(投稿人)與筆神作文之間,如何對知識產(chǎn)權(quán)進(jìn)行約定。如果用戶在投稿時對筆神作文進(jìn)行了知識產(chǎn)權(quán)授權(quán),那么筆神作文就享有對應(yīng)的權(quán)益。

深A(yù)I查詢筆神作文的用戶服務(wù)協(xié)議,發(fā)現(xiàn)其中有這么一條:用戶在筆神作文發(fā)表的內(nèi)容(包括但不限于留言、評論、筆記),授予筆神作文免費且不可撤銷的非獨家使用許可。

也就是說,筆神作文對素材庫擁有知識產(chǎn)權(quán)。

劉然想不明白的是,筆神作文為什么會與學(xué)而思合作。“如果是我,絕對不會跟學(xué)而思合作,因為我們是強競爭關(guān)系。”他認(rèn)為,“在大模型時代,僅僅提供作文數(shù)據(jù)庫的做法是沒有機會的。”

有業(yè)內(nèi)人士分析,學(xué)而思有流量,有場景,有知名度,尤其是在面向用戶的前端產(chǎn)品方面,學(xué)而思的優(yōu)勢要比筆神作文大。而在后端收集數(shù)據(jù)、建設(shè)素材庫的工作,費時費力,短期難見成效。對于學(xué)而思而言,直接拿現(xiàn)成的素材庫接入是最方便的。筆神作文則靠出售素材庫的調(diào)用權(quán)限,實現(xiàn)了商業(yè)變現(xiàn)。

但對筆神作文這種創(chuàng)業(yè)公司而言,這樣的合作就像是帶刺的玫瑰。因為巨頭隨時可能打進(jìn)你的領(lǐng)地,甚至在業(yè)務(wù)層面形成直接競爭。

AI批改作文是筆神作文很重要的一項功能。而早在三年前,好未來(學(xué)而思母公司)也曾推出過“中英文作文批改解決方案”,通過AI實現(xiàn)智能化中英文作文批改。

現(xiàn)在,AI改作文只是好未來龐大AI產(chǎn)品矩陣的冰山一角。在其最新的產(chǎn)品介紹中,中文作文批改,屬于中英文聽寫批改中的一個模塊。好未來有更大的野心,它的觸角已經(jīng)伸向AI+教育的方方面面。

ChatGPT帶火生成式AI之后,人工智能行業(yè)的創(chuàng)業(yè)者既興奮又焦慮。他們興奮的是,行業(yè)終于又熱起來了;焦慮的是,ChatGPT實在是太強大了,很多垂直領(lǐng)域的創(chuàng)業(yè)項目一夜之間失去了壁壘。

像筆神作文這樣的公司,競爭壁壘在哪里,如何與巨頭對抗,是很現(xiàn)實的問題。而人工智能行業(yè)的加速內(nèi)卷,同質(zhì)化競爭的加劇,會讓創(chuàng)業(yè)公司與巨頭的對抗升級。

搶數(shù)據(jù),或許只是新一輪爭奪戰(zhàn)的冰山一角。

*題圖來源于視覺中國。應(yīng)受訪者要求,劉然為化名。

關(guān)鍵詞:

相關(guān)新聞

日韩精品中文字幕久久臀_天堂av在线一区_午夜精品视频网站_99r精品视频_国产日韩亚洲欧美_亚洲欧美国产一本综合首页_日本一区二区三区久久久久久久久不 _国产精品高潮视频_久热99视频在线观看_91伊人久久大香线蕉
久久久久久99久久久精品网站| 亚洲三级在线播放| 九九**精品视频免费播放| 亚洲成av人片www| 视频精品一区二区| 麻豆精品视频在线观看| 激情成人综合网| 成人亚洲一区二区一| 91视频在线观看| 在线电影院国产精品| 久久影音资源网| 一区二区视频在线看| 午夜精品在线看| 国产在线精品一区二区不卡了| 国产精品一级片在线观看| 99久久免费精品高清特色大片| 欧美无砖砖区免费| 精品sm捆绑视频| 亚洲色图清纯唯美| 麻豆久久一区二区| 99久久国产综合精品麻豆| 欧美日韩日本视频| 国产精品色眯眯| 玖玖九九国产精品| 91理论电影在线观看| 精品国产乱码久久久久久牛牛 | 中文字幕在线不卡国产视频| 欧美精品一区二区三区一线天视频 | 午夜久久久久久久久| 亚洲综合小说图片| 国产成人综合亚洲网站| 国产情人综合久久777777| 看片网站欧美日韩| 成人午夜视频在线观看| 日韩 欧美一区二区三区| 亚洲精品免费在线观看| 99这里只有久久精品视频| 欧美精品成人一区二区三区四区| 亚洲成年人影院| 6080亚洲精品一区二区| 国产欧美在线观看一区| 久久精品国产999大香线蕉| 欧美丝袜第三区| 亚洲视频 欧洲视频| 国产麻豆精品在线观看| 欧美疯狂性受xxxxx喷水图片| 国产精品成人免费| 国产高清在线精品| 精品久久久三级丝袜| 全国精品久久少妇| 欧美精品xxxxbbbb| 日本视频一区二区| 欧美妇女性影城| 一区二区中文字幕在线| 国内精品伊人久久久久av一坑| 丁香婷婷深情五月亚洲| 欧美精品一区二区三区四区 | 国产一区二区三区观看| 欧美日韩日本视频| 日韩av高清在线观看| 欧美福利一区二区| 精品综合免费视频观看| 久久久国产精品不卡| 国产91精品在线观看| 国产女人aaa级久久久级 | 日韩免费高清视频| 美女网站视频久久| 国产精品456露脸| 欧美国产综合色视频| 一本色道久久综合亚洲91| 91精品国产欧美一区二区成人| 国产欧美一区二区精品秋霞影院| 成人一级视频在线观看| 国产精品高清亚洲| 欧美三片在线视频观看 | 国产激情一区二区三区| 国产精品网友自拍| 91成人在线精品| 青娱乐精品在线视频| 久久久精品综合| 91视频观看免费| 日韩国产欧美三级| 国产精品久久久久精k8| 777午夜精品免费视频| 国产精品正在播放| 亚洲va欧美va国产va天堂影院| 精品少妇一区二区三区免费观看 | 激情六月婷婷久久| 亚洲精品欧美综合四区| 精品福利av导航| 色婷婷久久久亚洲一区二区三区 | 欧美无砖砖区免费| 成人福利视频在线| 免费高清在线一区| 一区二区三区免费观看| 久久精品无码一区二区三区| 欧美午夜精品一区二区蜜桃| 国产高清不卡二三区| 亚洲线精品一区二区三区八戒| 精品国产乱码91久久久久久网站| 一本色道久久综合精品竹菊| 国产精品系列在线播放| 婷婷一区二区三区| 久久免费精品国产久精品久久久久| 久久国产福利国产秒拍| 久久精品亚洲一区二区三区浴池| 亚洲六月丁香色婷婷综合久久 | 成人av免费在线观看| 久久国产福利国产秒拍| 美女在线一区二区| 久久国产福利国产秒拍| 紧缚奴在线一区二区三区| 欧美三片在线视频观看| 精品少妇一区二区三区免费观看| 欧美性大战久久久久久久| 欧美在线免费视屏| 精品国产污污免费网站入口| 亚洲天堂免费在线观看视频| 欧美视频一区二区三区四区 | 欧美激情一二三区| 欧美老年两性高潮| 国产91在线看| 欧美色国产精品| 中文字幕日韩av资源站| 国产亚洲自拍一区| 久久色视频免费观看| 久久综合九色综合97婷婷女人 | 中文字幕综合网| 一区二区三区在线免费播放| 亚洲免费av高清| 亚洲日本va午夜在线影院| 中文一区一区三区高中清不卡| 国产蜜臀av在线一区二区三区| 国产日产欧美一区| 国产精品的网站| 一区二区三区美女视频| 五月激情六月综合| 蜜桃一区二区三区在线| 国产精品一级黄| 91在线观看高清| 欧美亚洲动漫精品| 日韩三级电影网址| 国产精品视频免费看| 蜜臀av在线播放一区二区三区 | 亚洲最新在线观看| 国产欧美日韩另类视频免费观看| 欧美精品久久久久久久久老牛影院| www.亚洲在线| caoporm超碰国产精品| 在线看一区二区| 欧美一区二区精品| 精彩视频一区二区| 国产成人在线影院| 日韩亚洲欧美一区二区三区| 精品久久久久久最新网址| 欧美成人精品1314www| 日韩一级视频免费观看在线| 国产欧美一区二区精品性色| 7777精品伊人久久久大香线蕉的 | 美女一区二区三区| 日韩av一级电影| 国产在线看一区| 中文字幕va一区二区三区| 欧美精品一级二级三级| 欧美理论电影在线| 日本久久一区二区| 欧美不卡一区二区| 亚洲图片欧美激情| 欧美三级视频在线观看| 精品国产凹凸成av人导航| 国产精品家庭影院| 国产乱子轮精品视频| 欧美mv日韩mv亚洲| 99国产精品国产精品久久| 欧美xxxxxxxx| 亚洲一区二区三区国产| 国产精品123区| 精品国产亚洲一区二区三区在线观看 | 一色桃子久久精品亚洲| 国产一区二区三区在线看麻豆| 欧美精品丝袜久久久中文字幕| 综合久久国产九一剧情麻豆| 国产一区二区精品久久99| 欧美一三区三区四区免费在线看| 亚洲欧美激情小说另类| av中文字幕一区| 91精品国产综合久久精品app| 亚洲一区二区三区免费视频| 在线中文字幕一区二区| 亚洲女人小视频在线观看| 99久久免费国产| 亚洲欧洲日产国码二区| 一本一道久久a久久精品综合蜜臀| 亚洲少妇中出一区| 91福利在线播放| 亚洲1区2区3区视频| 宅男噜噜噜66一区二区66| 一区二区三区91| 91麻豆精品国产91久久久更新时间| 视频一区欧美日韩|