谷歌字體:谷歌開發出從文字生成高保真音樂的人工智慧，但不計劃發布-字體教程免费ppt模版下载-道格办公

·科技巨頭們在面對風險時的謹慎，似乎已使其在與新創公司的競爭中落於下風。「這個領域發展得如此之快，對我來說，領先者是較小的公司並不奇怪。」

人工智慧（AI）的發展歷程經歷過幾次熱潮，最新一輪即是由DALL-E、ChatGPT等生成式AI引起的熱潮。在這一輪，科技巨頭們似乎因對倫理相關問題的謹慎，而在與新創公司的競爭中暫落風。

當地時間1月27日，Google公司發布了對AI模型MusicLM的研究，該系統可以從文字描述中產生任何類型的高保真音樂。但因擔心風險，谷歌沒有立即發布它的計劃。「我們強調，需要在未來開展更多工作來應對這些與音樂生成相關的風險——我們目前沒有發布模型的計劃。」Google發布的論文寫道。

AI生成作曲複雜、保真度高的歌曲

這不是第一個文本生成歌曲的AI系統，此前有愛好者基於Stable Diffusion模型製作的Riffusion，谷歌自己的AudioML和人工智能研究機構OpenAI的Jukebox等項目也都可以從文字生成音樂。然而，MusicLM的模型和龐大的訓練資料庫（280000小時的音樂）使其能製作出作曲特別複雜或保真度特別高的歌曲。

MusicLM不僅可以結合流派和樂器，還可以使用電腦通常難以掌握的抽象概念來編寫曲目。例如“一種舞曲和雷鬼音樂的混合體，其曲調空曠、超凡脫俗，能喚起驚奇和敬畏之感”，MusicLM就可以實現。

谷歌研究人員表明，該系統可以建立在現有旋律的基礎上，無論是哼唱、演唱、吹口哨或在樂器基礎上演奏。此外，MusicLM有一個「故事模式」來編程特定時間的風格、氛圍和節奏的轉變，例如可以採用幾個按順序編寫的描述「冥想時間」、「醒來時間」、「跑步時間」來創建一種「故事」敘事旋律。

MusicLM 也可以透過圖片和標題的組合來指導、產生相應風格的音樂。

與許多AI生成器一樣，MusicLM也有它的問題，有些作品聽起來很奇怪，或者人聲往往難以理解。這是因為，MusicLM雖然在技術上可以產生人聲，包括合唱和聲，但大多數「歌詞」內容能勉強聽出是英語或聽不出是什麼語言，由合成聲音演唱，聽起來像是幾位藝術家聲音的融合。

AI生成音樂或侵犯版權法

研究人員發布了MusicCaps資料集，包含超過5500個成對組成的音樂文本資料集，其中有由人類專家提供的豐富文字描述。該數據集已公開發布，以「支持進一步研究」。同時，研究人員在論文中承認了與音樂生成相關的風險，即創意內容的盜用。

谷歌的研究員在一次實驗中發現，該系統產生的音樂中約有1%是直接複製自其訓練的歌曲。假設有一天MusicLM或類似的系統可用，似乎不可避免地會出現重大法律問題，即使這些系統被定位為輔助藝術家創作而不是取代他們的工具。

實際上目前已經有相關案例了。 2020年，美國饒舌歌手Jay-Z的唱片公司對YouTube頻道Vocal Synthesis提出版權警告，理由是它使用AI創作了Jay-Z翻唱比利·喬爾（Billy Joel）的“We Didn’t Start the Fire ”等歌曲。

美國音樂出版商協會的 Eric Sunray 撰寫的一份白皮書認為，像MusicLM這樣的AI音樂生成器透過「從訓練資料庫中吸收作品中連貫的音頻，侵犯了美國版權法的複製權」。

隨著OpenAI的Jukebox發布，批評者也質疑在受版權保護的音樂材料上訓練AI模型是否合理。圖像、程式碼和文字生成AI系統都已經讓人產生了類似的擔憂，它們的訓練資料通常是在創作者不知情的情況下從網路上收集的。

目前，幾起有關生成式AI的訴訟案正在進行中。微軟、GitHub和OpenAI在一項集體訴訟中被指控允許Copilot違反版權法，Copilot是GitHub推出「AI程式設計師」插件，可以根據輸入的部分程式碼或註解自動產生完整的程式碼。

受歡迎的AI繪畫工具背後的兩家公司Midjourne和Stability AI也正處於一起法律案件審理中，被指控透過在網路抓取的圖像上訓練其工具，侵犯了數百萬藝術家的權利。

科技巨頭落風，新創公司成領導者

對於生成式AI系統，一些人工智慧倫理學家擔心，在信任和安全專家進行研究之前，大型科技公司急於進入市場可能會使數十億人面臨潛在危害，例如分享不準確的資訊、生成假照片或讓學生有能力在學校考試中作弊。

「我們相信人工智慧是基礎性的變革性技術，對個人、企業和社會都非常有用，我們需要考慮這些創新可能產生的更廣泛的社會影響。我們繼續在內部測試我們的AI技術，以確保它有用且安全。」Google發言人林莉莉（Lily Lin）說。

科技巨頭們在面對風險時的謹慎，似乎已使其在與新創公司的競爭中落在下風。

美國喬治亞理工學院（Georgia Institute of Technology ）電腦教授和機器學習專家 Mark Riedl）在接受《華盛頓郵報》採訪時表示，「ChatGPT的底層技術不一定比Google和Meta開發的技術更好，但OpenAI發布其語言模型供公眾使用的做法給了它一個真正的優勢。”

在過去約一年裡，Google的頂級AI研究人員紛紛離職，圍繞著大型語言模型創辦了新創公司，包括Character.AI、Cohere、Adept、Inflection.AI和Inworld AI。此外，使用類似模型的搜尋新創公司正在開發聊天介面，例如由前谷歌高管斯里達爾·拉馬斯瓦米（Sridhar Ramaswamy）運營的Neeva。

在「Google大腦（Google Brain）」工作了三年的尼克·弗羅斯特（Nick Frosst）說，像谷歌和微軟這樣的大公司通常專注於使用人工智慧來改進他們龐大的現有商業模式。 “這個領域發展得如此之快，對我來說，領先者是較小的公司並不奇怪。”

谷歌開發出從文字生成高保真音樂的人工智慧，但不計劃發布

发表回复

评论列表（196条）

谷歌開發出從文字生成高保真音樂的人工智慧，但不計劃發布

相關推薦

【實戰教程】PPT科研繪圖教程（016）——靜電紡絲示意圖

【實用技巧】圖解靜電紡絲流程：PPT科學研究繪圖入門指南（016）

史上最全PPT科研作圖教程及素材（第二版）

全新版：PPT科學研究繪圖全攻略與素材集錦

“科學研究PPT插畫製作指南”

发表回复

评论列表（196条）