聊天機器人任意擷取網站內容 AI公司被指無視協定

Facebook

【新唐人北京時間2024年06月26日訊】兩家領先的人工智能(AI)新創公司OpenAI和Anthropic,被指「規避」既定網路協定,進而侵犯出版者版權。

以廣泛使用的聊天機器人「ChatGPT」而聞名的新創公司OpenAI,其主要投資者是微軟(Microsoft),而製造了知名聊天機器人「Claude」的Anthropic公司主要得到亞馬遜(Amazon)的支持。

一家協助出版商與人工智能公司協商版權事宜的企業TollBit,其分析師及另一知情人士向《商業內幕》(Business Insider)透露,OpenAI和Anthropic一直在尋求規避既定網路協定的途徑,特別是規避robots.txt標準。這項規則旨在防止機器人自動化擷取網站內容。

上週五(6月21日),TollBit向一些知名出版商發出信函,提醒他們這個問題。在此之前,已經有許多人工智能公司被曝光從事類似行為。

《福布斯》(Forbes)上週指控提供「免費人工智能搜索引擎」的IA公司Perplexity,指其從多個平台剽竊並傳播未經授權的文章後,引起了公眾的關注。《連線》(Wired)雜誌在一篇報導中披露,Perplexity一直無視robots.txt協定,擷取其網站和康泰納仕(Conde Nast)旗下出版物內容。科技網站The Shortcut也指控該公司抓取其內容。

儘管OpenAI和Anthropic曾公開表示承諾遵守協定,會對其各自的網路爬蟲(web crawler)GPTBot和ClaudeBot進行約束,以尊重各網站robots.txt文件中設置的指示。

但TollBit的發現表明他們並未遵守諾言。目前,OpenAI和Anthropic均未對此事發表評論。

robots.txt自1990年代推出以來一直是一個基本的程序碼片段,通過指令告訴網絡爬蟲怎麼抓取網站的頁面。它已被廣泛接受,成了網路管理的不成文規則。

隨著生成式人工智能迅速發展,新創公司和科技公司正競相建立尖端人工智能模型。但在過程中,對這種訓練數據的需求不斷增加的同時,已經削弱了robots.txt的效力。

去年,幾家科技公司在美國版權局(U.S. Copyright Office)面前主張,為了人工智能訓練數據,網路內容應該豁免版權保護。版權局計劃在今年晚些時候更新有關人工智能和版權的指南。

(記者楊采華綜合編譯報導/責任編輯:林清)

相關文章