无码av一区二区三区无码,在线观看老湿视频福利,日韩经典三级片,成 人色 网 站 欧美大片在线观看

歡迎光臨散文網(wǎng) 會(huì)員登陸 & 注冊(cè)

使用OpenAI的新技術(shù)直接在筆記本電腦上轉(zhuǎn)錄音頻

2022-09-24 23:24 作者:黃先生斜杠青年  | 我要投稿

我是斜杠青年,一個(gè)熱愛前沿科技的“雜食性”學(xué)者!


DALL-E和GPT背后的公司已經(jīng)制作了名為Whisper的自動(dòng)語音識(shí)別系統(tǒng),并允許開發(fā)人員和研究人員使用它。


人工智能的好處沒有云的缺點(diǎn)。來源:蓋蒂圖片社


OpenAI是圖像生成和模因生成程序DALL-E以及強(qiáng)大的文本自動(dòng)完成引擎GPT-3背后的公司,該公司推出了一個(gè)新的開源神經(jīng)網(wǎng)絡(luò),旨在將音頻轉(zhuǎn)錄成書面文本(通過TechCrunch)。它被稱為Whisper,該公司表示,它“接近人類水平的英語語音識(shí)別的魯棒性和準(zhǔn)確性”,并且還可以自動(dòng)識(shí)別、轉(zhuǎn)錄和翻譯西班牙語、意大利語和日語等其他語言。

事實(shí)證明,使用它比你想象的還要容易;我已經(jīng)在我的計(jì)算機(jī)上設(shè)置了Python和各種開發(fā)人員工具,因此安裝Whisper就像運(yùn)行單個(gè)終端命令一樣簡單。在15分鐘內(nèi),我能夠使用Whisper轉(zhuǎn)錄我錄制的測(cè)試音頻剪輯。對(duì)于一個(gè)不懂技術(shù),也尚未設(shè)置Python、FFmpeg、Xcode和Homebrew的人來說,這可能需要近一兩個(gè)小時(shí)(甚至更長時(shí)間)。不過,已經(jīng)有人在努力使這個(gè)過程更簡單、更方便用戶,我們稍后再討論。

命令行應(yīng)用程序顯然不適合所有人,但對(duì)于完成相對(duì)復(fù)雜工作的東西,Whisper非常易于使用。


雖然OpenAI肯定認(rèn)為這個(gè)用例是一種可能性,但很明顯,該公司主要針對(duì)此版本以研究人員和開發(fā)人員為目標(biāo)。在宣布Whisper的博客文章中,該團(tuán)隊(duì)表示,其代碼可以“作為構(gòu)建有用應(yīng)用程序和進(jìn)一步研究強(qiáng)大的語音處理的基礎(chǔ)”,并希望“Whisper的高精度和易用性將允許開發(fā)人員為更廣泛的應(yīng)用程序添加語音接口?!比欢?,這種方法仍然值得注意——該公司對(duì)其最受歡迎的機(jī)器學(xué)習(xí)項(xiàng)目(如DALL-E或GPT-3)的機(jī)會(huì)有限,理由是希望“更多地了解現(xiàn)實(shí)世界的使用,并繼續(xù)迭代我們的安全系統(tǒng)”。


如果你使用Whisper編寫文章,Whisper生成的文本文件也不完全是最容易閱讀的。


還有一個(gè)事實(shí)是,為大多數(shù)人安裝Whisper并不完全是一個(gè)用戶友好的過程。然而,記者Peter Sterne與GitHub開發(fā)人員倡導(dǎo)者Christina Warren合作,試圖解決這個(gè)問題,宣布他們正在根據(jù)Whisper的機(jī)器學(xué)習(xí)模型創(chuàng)建一個(gè)“免費(fèi)、安全和易于使用的記者轉(zhuǎn)錄應(yīng)用程序”。

我將Whisper生成的轉(zhuǎn)錄與Otter.ai和Trint為同一文件發(fā)布的內(nèi)容進(jìn)行了比較,我想說它相對(duì)可比。所有這些都有足夠的錯(cuò)誤,你永遠(yuǎn)不會(huì)在不仔細(xì)檢查音頻的情況下將引用的內(nèi)容復(fù)制并粘貼到文章中(當(dāng)然,無論如何,這是最佳做法,無論你使用什么服務(wù))。但Whisper的版本絕對(duì)可以為你完成這項(xiàng)工作;你可以搜索它以找到我需要的部分,然后手動(dòng)仔細(xì)檢查。理論上,Stage Whisper的性能應(yīng)該完全相同,因?yàn)樗鼘⑹褂孟嗤哪P停皇侵車鳪UI。

Sterne承認(rèn),蘋果和谷歌的技術(shù)可能會(huì)在幾年內(nèi)使Stage Whisper過時(shí)——Pixel的錄音機(jī)應(yīng)用程序多年來一直能夠進(jìn)行離線轉(zhuǎn)錄,該功能的一個(gè)版本開始在一些其他Android設(shè)備上推出,蘋果在iOS中內(nèi)置了離線聽寫(盡管目前沒有一種好方法可以真正用它轉(zhuǎn)錄音頻文件)?!暗覀儾荒艿饶敲淳谩!?/p>


需要澄清的是,無論使用起來多么簡單,Whisper可能不會(huì)完全過時(shí)Otter.ai和Trint等基于云的服務(wù)。首先,OpenAI的模型缺少傳統(tǒng)轉(zhuǎn)錄服務(wù)的最大功能之一:能夠標(biāo)記誰說了什么。Stage Whisper可能不支持此功能:“他們沒有開發(fā)自己的機(jī)器學(xué)習(xí)模型。”

云只是別人的電腦——這可能意味著它要快得多


雖然你獲得了本地處理的好處,但你也獲得了缺點(diǎn)。主要問題是,你的筆記本電腦幾乎肯定比專業(yè)轉(zhuǎn)錄服務(wù)使用的計(jì)算機(jī)強(qiáng)大得多。例如,我將長達(dá)24分鐘的音頻輸入了Whisper,運(yùn)行在我的M1 MacBook Pro上;轉(zhuǎn)錄整個(gè)文件大約需要52分鐘。水獺在不到八分鐘的時(shí)間里吐出了成績單。

然而,OpenAI的技術(shù)確實(shí)有一個(gè)很大的優(yōu)勢(shì)——價(jià)格。如果你專業(yè)使用基于云的訂閱服務(wù),幾乎肯定會(huì)花費(fèi)用(Otter有一個(gè)免費(fèi)層,但即將到來的更改將使其對(duì)經(jīng)常轉(zhuǎn)錄事物的人來說不那么有用),Microsoft Word或Pixel等平臺(tái)內(nèi)置的轉(zhuǎn)錄功能要求你支付單獨(dú)的軟件或硬件費(fèi)用。Stage Whisper——以及Whisper本身——是免費(fèi)的,可以在你已有的計(jì)算機(jī)上運(yùn)行。

同樣,OpenAI對(duì)Whisper的希望比它成為安全轉(zhuǎn)錄應(yīng)用程序的基礎(chǔ)更高——我對(duì)研究人員最終使用它做什么或通過查看機(jī)器學(xué)習(xí)模型將學(xué)到什么感到非常興奮,該模型是在“從網(wǎng)絡(luò)收集的68萬小時(shí)的多語言和多任務(wù)監(jiān)督數(shù)據(jù)”上接受培訓(xùn)的。但事實(shí)上,它今天也恰好有真正的實(shí)際用途,這使它更加令人興奮。

了解最新前沿科技,關(guān)注我就是你最好的選擇!


使用OpenAI的新技術(shù)直接在筆記本電腦上轉(zhuǎn)錄音頻的評(píng)論 (共 條)

分享到微博請(qǐng)遵守國家法律
新竹县| 瑞金市| 石阡县| 天峻县| 三河市| 闵行区| 上虞市| 莲花县| 大余县| 日照市| 青岛市| 洛阳市| 濮阳市| 虞城县| 长垣县| 伊春市| 凌海市| 壶关县| 孟连| 金川县| 玉林市| 衡阳县| 鱼台县| 茶陵县| 颍上县| 财经| 得荣县| 武陟县| 阆中市| 山东省| 漾濞| 保靖县| 辽宁省| 莎车县| 政和县| 尉犁县| 石嘴山市| 桓台县| 大理市| 苏尼特左旗| 通榆县|