超人氣 ChatGPT 背后的初創(chuàng)公司 OpenAI 面臨的法律糾紛越來越多。據(jù)美國國家公共廣播電臺(NPR)報道,《紐約時報》(New York Times)正在考慮起訴OpenAI。此前雙方試圖達成協(xié)議,OpenAI將獲得新聞內容授權來訓練其算法,但未能取得進展。
如果這一訴訟成為現(xiàn)實,這就將是迄今為止最引人注目的迫使ChatGPT(這款工具風靡全球)就范的嘗試。如果訴訟取得成功,OpenAI就將不得不花費巨資重新訓練ChatGPT,因為這將刪除大部分用于訓練大型語言模型的語料。
值得注意的是,據(jù)網(wǎng)站Semafor報道,《紐約時報》曾經是聯(lián)合游說政府建立人工智能監(jiān)管的團體的一員,直到它突然退出?!都~約時報》也不是唯一一家因為OpenAI非法爬取訓練數(shù)據(jù)而提起訴訟的機構。喜劇演員薩拉·西爾弗曼、作家保羅·特倫布萊、莫娜·阿瓦德和克里斯托弗·戈爾登在今年7月起訴了OpenAI,指控該公司在訓練ChatGPT時剽竊了他們的作品,而且剽竊規(guī)模達到“工業(yè)級水平”。
今年1月,三位商業(yè)藝術家起訴了流行的圖像創(chuàng)建引擎Midjourney的創(chuàng)建者,指控其竊取他們的作品進行山寨,使藝術家們無法靠自己的作品謀生。藝術家們的律師稱這項技術是“寄生蟲,如果任其泛濫,就將對藝術家造成無法彌補的傷害”。圖片授權服務公司Getty已經起訴了Stability AI公司,指控其非法復制Getty擁有的1,200萬張圖片,從而與Getty形成競爭。與此同時,8月17日的早些時候,美聯(lián)社(AP)為員工制定了一套人工智能標準,鼓勵他們使用人工智能進行實驗,但禁止他們使用人工智能生成任何在網(wǎng)站上發(fā)布的內容或圖像。
就連2018年離開OpenAI董事會的埃隆·馬斯克也在今年7月聲稱,人工智能公司在推特(Twitter)上進行的“數(shù)據(jù)爬取達到極端水平”。“幾乎所有從事人工智能的公司,從初創(chuàng)公司到世界上最大的公司,都在爬取大量數(shù)據(jù)。為了幫助部分人工智能初創(chuàng)公司實現(xiàn)離譜估值,不得不緊急上線大量服務器,這是相當令人惱火的。”
據(jù)美國國家公共廣播電臺報道,《紐約時報》擔心,OpenAI會“根據(jù)該報員工的原始報道和寫作風格,創(chuàng)建回答問題的文本”,從而成為其報道的直接競爭對手。
《紐約時報》和OpenAI都沒有立即回復置評請求。然而,《紐約時報》有充分的理由擔心來自ChatGPT的競爭。依賴網(wǎng)絡流量的小企業(yè)已經發(fā)現(xiàn)網(wǎng)絡流量被一項更基本的技術摧毀了——谷歌(Google)的搜索框,它把輸入問題的答案以段落的形式顯示在搜索結果的頂部。
行業(yè)細分網(wǎng)站CelebrityNetWorth(作為對名人財務交易感興趣的人們的信息來源)曾經做得風生水起,但自從谷歌開始在搜索框中顯示名人的凈資產后,CelebrityNetWorth的流量驟減了三分之二,該網(wǎng)站不得不裁掉一半的員工。其創(chuàng)始人告訴網(wǎng)站The Outline。
美國西北大學(Northwestern University)梅迪爾學院(Medill School)的數(shù)字媒體戰(zhàn)略奈特高級教授杰里米·吉爾伯特對《財富》雜志表示:“如果訴訟成為現(xiàn)實,這場訴訟就將涉及收集信息的價值,以及誰能夠使用這些信息(為客戶)?!?/p>
搜索引擎必應[Bing,其所有者微軟(Microsoft)向OpenAI投資了數(shù)十億美元]目前正在使用ChatGPT來增強其搜索功能。如果有人向必應提問,該搜索引擎就會根據(jù)《紐約時報》的報道,立即給出冗長而詳盡的答案,這樣用戶就無需訪問《紐約時報》的網(wǎng)站了(同時也減少了《紐約時報》的收入)。
吉爾伯特說:“出版商最看重新聞帶來的直接流量?!钡馛hatGPT這樣的大型語言模型“根本不可能引導你到相關新聞網(wǎng)站”。
他表示:“如果[受眾]無需點擊《紐約時報》就可以獲得所需要的一切,《紐約時報》如何為其報道提供資金?即使這樣做更能夠滿足用戶的需求,但這從根本上來說是難以維持的?!?/p>
在IAC為首的一些媒體機構組成了一個聯(lián)盟,向OpenAI施壓,要求其支付“數(shù)十億美元” 的費用,以使用它們的作品作為訓練語料。
OpenAI正在復制所有內容——但這合法嗎?
眾所周知,OpenAI是根據(jù)從公共網(wǎng)絡上爬取的大量數(shù)據(jù)(小說、網(wǎng)絡論壇、對話、新聞報道、照片和插圖)進行訓練的。
目前尚不清楚的是,這種數(shù)據(jù)爬取是否合法。越來越多的作家和藝術家表示這不合法,因此,針對OpenAI和其他生成式人工智能創(chuàng)建者的訴訟(指控它們侵犯版權)不斷增加。
就連OpenAI的用戶一想到自己和機器人的對話成為訓練語料,也感到毛骨悚然:為了回應用戶的強烈反對,OpenAI在今年春天修改了條款,明確指出輸入的提示不會被用于訓練機器人。
一群律師和媒體學者最近撰文指出,生成式人工智能“是版權法的雷區(qū)”。在這些案件中,法官如何看待該技術的運行原理將是決定性因素。
如果法官認為人工智能生成的內容是創(chuàng)作出來的新內容,或者是對原有作品進行了重大修改,那么他們可能就會認為人工智能對受版權保護作品的使用是合理的。
另一方面,如果法官認為人工智能只是復制和機械重復他人的作品,那么他們可能就會認定人工智能非法使用受版權保護的作品,并迫使OpenAI銷毀其數(shù)據(jù)集中所有這些作品的副本。
無論法院如何裁決,《紐約時報》似乎都將在人工智能這塊蛋糕上分一杯羹。
今年春天,《紐約時報》的首席執(zhí)行官梅雷迪思·科皮特·萊維恩在戛納獅子國際創(chuàng)意節(jié)(Cannes Lions)的活動上說:“對于已經被用于訓練模型的內容,以及將繼續(xù)被用于訓練模型的內容,必須進行公平的價值交換?!保ㄘ敻恢形木W(wǎng))
譯者:中慧言-王芳
超人氣 ChatGPT 背后的初創(chuàng)公司 OpenAI 面臨的法律糾紛越來越多。據(jù)美國國家公共廣播電臺(NPR)報道,《紐約時報》(New York Times)正在考慮起訴OpenAI。此前雙方試圖達成協(xié)議,OpenAI將獲得新聞內容授權來訓練其算法,但未能取得進展。
如果這一訴訟成為現(xiàn)實,這就將是迄今為止最引人注目的迫使ChatGPT(這款工具風靡全球)就范的嘗試。如果訴訟取得成功,OpenAI就將不得不花費巨資重新訓練ChatGPT,因為這將刪除大部分用于訓練大型語言模型的語料。
值得注意的是,據(jù)網(wǎng)站Semafor報道,《紐約時報》曾經是聯(lián)合游說政府建立人工智能監(jiān)管的團體的一員,直到它突然退出?!都~約時報》也不是唯一一家因為OpenAI非法爬取訓練數(shù)據(jù)而提起訴訟的機構。喜劇演員薩拉·西爾弗曼、作家保羅·特倫布萊、莫娜·阿瓦德和克里斯托弗·戈爾登在今年7月起訴了OpenAI,指控該公司在訓練ChatGPT時剽竊了他們的作品,而且剽竊規(guī)模達到“工業(yè)級水平”。
今年1月,三位商業(yè)藝術家起訴了流行的圖像創(chuàng)建引擎Midjourney的創(chuàng)建者,指控其竊取他們的作品進行山寨,使藝術家們無法靠自己的作品謀生。藝術家們的律師稱這項技術是“寄生蟲,如果任其泛濫,就將對藝術家造成無法彌補的傷害”。圖片授權服務公司Getty已經起訴了Stability AI公司,指控其非法復制Getty擁有的1,200萬張圖片,從而與Getty形成競爭。與此同時,8月17日的早些時候,美聯(lián)社(AP)為員工制定了一套人工智能標準,鼓勵他們使用人工智能進行實驗,但禁止他們使用人工智能生成任何在網(wǎng)站上發(fā)布的內容或圖像。
就連2018年離開OpenAI董事會的埃隆·馬斯克也在今年7月聲稱,人工智能公司在推特(Twitter)上進行的“數(shù)據(jù)爬取達到極端水平”。“幾乎所有從事人工智能的公司,從初創(chuàng)公司到世界上最大的公司,都在爬取大量數(shù)據(jù)。為了幫助部分人工智能初創(chuàng)公司實現(xiàn)離譜估值,不得不緊急上線大量服務器,這是相當令人惱火的?!?/p>
據(jù)美國國家公共廣播電臺報道,《紐約時報》擔心,OpenAI會“根據(jù)該報員工的原始報道和寫作風格,創(chuàng)建回答問題的文本”,從而成為其報道的直接競爭對手。
《紐約時報》和OpenAI都沒有立即回復置評請求。然而,《紐約時報》有充分的理由擔心來自ChatGPT的競爭。依賴網(wǎng)絡流量的小企業(yè)已經發(fā)現(xiàn)網(wǎng)絡流量被一項更基本的技術摧毀了——谷歌(Google)的搜索框,它把輸入問題的答案以段落的形式顯示在搜索結果的頂部。
行業(yè)細分網(wǎng)站CelebrityNetWorth(作為對名人財務交易感興趣的人們的信息來源)曾經做得風生水起,但自從谷歌開始在搜索框中顯示名人的凈資產后,CelebrityNetWorth的流量驟減了三分之二,該網(wǎng)站不得不裁掉一半的員工。其創(chuàng)始人告訴網(wǎng)站The Outline。
美國西北大學(Northwestern University)梅迪爾學院(Medill School)的數(shù)字媒體戰(zhàn)略奈特高級教授杰里米·吉爾伯特對《財富》雜志表示:“如果訴訟成為現(xiàn)實,這場訴訟就將涉及收集信息的價值,以及誰能夠使用這些信息(為客戶)?!?/p>
搜索引擎必應[Bing,其所有者微軟(Microsoft)向OpenAI投資了數(shù)十億美元]目前正在使用ChatGPT來增強其搜索功能。如果有人向必應提問,該搜索引擎就會根據(jù)《紐約時報》的報道,立即給出冗長而詳盡的答案,這樣用戶就無需訪問《紐約時報》的網(wǎng)站了(同時也減少了《紐約時報》的收入)。
吉爾伯特說:“出版商最看重新聞帶來的直接流量。”但像ChatGPT這樣的大型語言模型“根本不可能引導你到相關新聞網(wǎng)站”。
他表示:“如果[受眾]無需點擊《紐約時報》就可以獲得所需要的一切,《紐約時報》如何為其報道提供資金?即使這樣做更能夠滿足用戶的需求,但這從根本上來說是難以維持的?!?/p>
在IAC為首的一些媒體機構組成了一個聯(lián)盟,向OpenAI施壓,要求其支付“數(shù)十億美元” 的費用,以使用它們的作品作為訓練語料。
OpenAI正在復制所有內容——但這合法嗎?
眾所周知,OpenAI是根據(jù)從公共網(wǎng)絡上爬取的大量數(shù)據(jù)(小說、網(wǎng)絡論壇、對話、新聞報道、照片和插圖)進行訓練的。
目前尚不清楚的是,這種數(shù)據(jù)爬取是否合法。越來越多的作家和藝術家表示這不合法,因此,針對OpenAI和其他生成式人工智能創(chuàng)建者的訴訟(指控它們侵犯版權)不斷增加。
就連OpenAI的用戶一想到自己和機器人的對話成為訓練語料,也感到毛骨悚然:為了回應用戶的強烈反對,OpenAI在今年春天修改了條款,明確指出輸入的提示不會被用于訓練機器人。
一群律師和媒體學者最近撰文指出,生成式人工智能“是版權法的雷區(qū)”。在這些案件中,法官如何看待該技術的運行原理將是決定性因素。
如果法官認為人工智能生成的內容是創(chuàng)作出來的新內容,或者是對原有作品進行了重大修改,那么他們可能就會認為人工智能對受版權保護作品的使用是合理的。
另一方面,如果法官認為人工智能只是復制和機械重復他人的作品,那么他們可能就會認定人工智能非法使用受版權保護的作品,并迫使OpenAI銷毀其數(shù)據(jù)集中所有這些作品的副本。
無論法院如何裁決,《紐約時報》似乎都將在人工智能這塊蛋糕上分一杯羹。
今年春天,《紐約時報》的首席執(zhí)行官梅雷迪思·科皮特·萊維恩在戛納獅子國際創(chuàng)意節(jié)(Cannes Lions)的活動上說:“對于已經被用于訓練模型的內容,以及將繼續(xù)被用于訓練模型的內容,必須進行公平的價值交換。”(財富中文網(wǎng))
譯者:中慧言-王芳
The legal woes are piling up for OpenAI, the startup behind the ultra-popular ChatGPT. NPR reports that the New York Times is considering suing OpenAI after attempts to reach a deal in which OpenAI would license news content to train its algorithms failed to progress.
If the lawsuit materializes, it would be the highest-profile attempt yet to bring to heel ChatGPT, a tool whose hype has taken the world by storm. And a successful lawsuit could even go further than that, forcing OpenAI to retrain ChatGPT at great expense, as it would essentially remove much of the language on which the large language model has been trained.
Of note is that the Times was part of a group collectively lobbying for regulations on AI, until it suddenly removed itself, according to Semafor. The Times’ lawsuit also is not alone in arguing that OpenAI has illegally scraped training data. Comedian Sarah Silverman and authors Paul Tremblay, Mona Awad, and Christopher Golden, sued OpenAI in July, alleging the company committed “indus?trial-strength” plagiarism when it trained ChatGPT on their work.
In January, a trio of commercial artists sued the creators of the popular image-creating engine Midjourney, accusing it of stealing their work to create knock-offs, preventing artists from making a living off their work. The artists’ lawyers called the technology “a par?a?site that, if allowed to pro?lif?er?ate, will cause irrepara?ble harm to artists.” And Getty, the image-licensing service, has sued Stability AI, accusing it of illegally copying 12 million Getty-owned images in a bid to create a competing service. Meanwhile, earlier on August 17, the AP came up with a set of AI standards for staff that encourage them to experiment with it but forbidding them from using it to create any content or images that would be published.
Even Elon Musk, who famously left OpenAI’s board in 2018, claimed in July of this year that “extreme levels of data scraping” were happening on Twitter at the hands of AI companies. “Almost every company doing A.I., from startups to some of the biggest corporations on earth, was scraping vast amounts of data. It is rather galling to have to bring large numbers of servers online on an emergency basis just to facilitate some A.I. startup’s outrageous valuation.”
The Times’ is concerned, according to NPR, is that OpenAI would create a direct competitor to its reporting “by creating text that answers questions based on the original reporting and writing of the paper’s staff.”
Neither the Times nor OpenAI immediately replied to a request for comment. However, the Times has a good reason to fear competition from ChatGPT. Small businesses that rely on web traffic have seen it destroyed by a more basic piece of technology—Google’s search box, which presents the answer to a typed question as a paragraph at the top of search results.
The niche site CelebrityNetWorth used to do decent business as a source for people curious about celebs’ financial dealings, but after Google started presenting celebrities’ net worth in its search box, traffic to CelebrityNetWorth plunged by two-thirds, and the site had to lay off half its staff, its founder told The Outline.
“If it happens, this lawsuit will be about the value of gathering information and who gets to use it for their customers,” Jeremy Gilbert, Knight professor in digital media strategy at Northwestern University’s Medill School, told Fortune.
The search engine Bing (whose owner, Microsoft, has invested billions in OpenAI) is now using ChatGPT to power its searches. If a person were to ask Bing a question, the search engine could instantly produce a long, detailed answer based on New York Times reporting, eliminating the person’s need to visit the Times’ website (and cheating the paper of revenue).
“Publishers feel most comfortable with direct traffic to news,” Gilbert said. But a large-language model like ChatGPT’s “may not send you to the news website at all.”
“If [audiences] get everything they need without clicking through to the New York Times, how does the New York Times fund its reporting? Even if that’s much more satisfying for the consumer, it’s fundamentally untenable,” he said.
A group of media outlets, led by IAC, have formed a coalition to pressure OpenAI into paying them “billions” for the use of their work as training material.
OpenAI is copying everything — but is it legal?
It’s no secret that OpenAI has been trained on a vast sea of data—novels, web forums, conversations, news articles, photos, and illustrations—scraped from the public web.
What’s not clear yet is whether this scraping is legal. And a growing number of writers and artists say it isn’t, with lawsuits mounting against OpenAI and other generative-A.I. creators accusing them of copyright infringement.
Even OpenAI’s users are creeped out by the thought of being training material: In response to user backlash, OpenAI this spring changed its terms to clarify that prompts submitted to ChatGPT would not be used to train the bot.
Generative A.I. “is a minefield for copyright law,” a group of lawyers and media scholars recently wrote. The courts’ views of what, exactly, the technology does will be a key deciding factor in these cases.
If judges believe that the materials A.I. spits out are new creations, or that they significantly transform the works they’re based on, they’re likely to see its treatment of copyrighted works as fair use.
If, on the other hand, they believe the A.I. is simply copying and regurgitating others’ works, they could find its use illegal, and force OpenAI to destroy all copies of those works in its dataset.
Regardless of how the courts rule, the Times seems set to get its share of the A.I. pie.
Speaking at a Cannes Lions event this spring, Times CEO Meredith Kopit Levien said, “There must be fair value exchange for the content that’s already been used, and the content that will continue to be used, to train models.”