>> 信達(dá)證券-傳媒互聯(lián)網(wǎng)行業(yè)大模型進(jìn)程焦點(diǎn):OpenAI春季發(fā)布會(huì)及谷歌開發(fā)者大會(huì)要點(diǎn)歸納-240516
| 上傳日期: |
2024/5/16 |
大?。?/td>
| 1426KB |
| 格式: |
pdf 共11頁 |
來源: |
信達(dá)證券 |
| 評(píng)級(jí): |
-- |
作者: |
馮翠婷 |
| 下載權(quán)限: |
無限制-登錄即可下載 |
|
|
事件:北京時(shí)間5月14日凌晨,OpenAI發(fā)布了最新模型GPT-4o,GPT-4o(“o”代表“omni”)接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出。它可以在短至232毫秒的時(shí)間內(nèi)響應(yīng)音頻輸入,平均為320毫秒,與人類的響應(yīng)時(shí)間相似。它在英語文本和代碼上的性能與GPT-4 Turbo的性能相匹配,在非英語文本上的性能顯著提高。與現(xiàn)有模型相比,GPT-4o在視覺和音頻理解方面尤其出色。 GPT-4o的文本和圖像功能5月14日已經(jīng)開始在ChatGPT中推出。OpenAI正在免費(fèi)套餐中提供GPT-4o,并向Plus用戶提供高達(dá)5倍的消息限制,未來幾周將在ChatGPTPlus中推出新版語音模式GPT-4o的alpha版。開發(fā)人員現(xiàn)在還可以在API中訪問GPT-4o作為文本和視覺模型。與GPT-4Turbo相比,GPT-4o速度提高2倍,價(jià)格降低一半,速率限制提高5倍。OpenAI計(jì)劃在未來幾周內(nèi)在API中向一小部分值得信賴的合作伙伴推出對(duì)GPT-4o新音頻和視頻功能的支持。 在OpenAI發(fā)布會(huì)上,團(tuán)隊(duì)展示了GPT-4o的多個(gè)功能。包括實(shí)時(shí)語音交流能力,幾乎無延遲,達(dá)到真人聊天的水平;可以識(shí)別用戶的語音情緒,語音有情感;可以使用不同語言(英語、意大利語)和多人同時(shí)交互;在語音的同時(shí)可以與視頻實(shí)時(shí)交互;實(shí)時(shí)交流,協(xié)助閱讀代碼,指導(dǎo)編程;實(shí)時(shí)視頻聊天,并識(shí)別情緒等。 北京時(shí)間5月15日凌晨,Google I/O開發(fā)者大會(huì)正式開幕。公司更新了Gemini1.5Pro,引入了1.5Flash較小型號(hào)的Gemini版本,同時(shí)也增加了兩個(gè)新的Gemma模型。Gemini 1.5 Pro:普通版本配備了100萬token上下文窗口,而Gemini 1.5 Pro將在Google AIStudio或適用于Google Cloud客戶的Vertex AI中的候補(bǔ)名單中擁有200萬個(gè)代幣上下文窗口。在智能代理領(lǐng)域,谷歌展示了其最新的人工智能代理Google Astra項(xiàng)目,可與用戶實(shí)現(xiàn)多模態(tài)交互。 多模態(tài)領(lǐng)域,谷歌推出全新視頻生成模型Veo,可生成各種電影和視覺風(fēng)格的高質(zhì)量1080p分辨率視頻,時(shí)間可以超過一分鐘;升級(jí)了文生圖新模型Imagen3,對(duì)圖像細(xì)節(jié)的把控度更高;發(fā)布了人工智能音樂生成模型Lyria。以及在AI搜索功能、照片問詢功能均實(shí)現(xiàn)了一定程度的升級(jí)迭代。 點(diǎn)評(píng): OpenAI打造全新多模態(tài)融合、高擬人情感、實(shí)時(shí)低延遲交互的“個(gè)人超級(jí)AI語音助手”,推出GPT-4o全新旗艦人工智能模型。根據(jù)傳統(tǒng)基準(zhǔn)測(cè)試,GPT-4o在文本、推理和編碼智能方面實(shí)現(xiàn)了GPT-4 Turbo級(jí)別的性能,同時(shí)在多語言、音頻和視覺功能上設(shè)置了新的高水位線。GPT-4o能夠接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像的任意組合輸出,輸入輸出均由同一神經(jīng)網(wǎng)絡(luò)處理。同時(shí),在用戶情緒感知和語義理解上,GPT-4o也展現(xiàn)得較為出色,用戶可以在對(duì)話中隨時(shí)打斷,并且可以根據(jù)用戶需要改變語音語調(diào)來滿足用戶的情緒變化,有望逐漸成為個(gè)人用戶在終端設(shè)備上的具備強(qiáng)擬人化、可交互性高、高智商、高情商的私人助理管家。 免費(fèi)提供給所有用戶使用,付費(fèi)用戶享受5倍調(diào)用額度,大模型本身的技術(shù)迭代帶來的成本降低有望使個(gè)人或企業(yè)用戶深度受益。每周都有超過一億人使用ChatGPT。OpenAI將在未來幾周內(nèi)開始向ChatGPT免費(fèi)用戶推出更多智能和高級(jí)工具。使用GPT-4o時(shí),ChatGPT免費(fèi)用戶現(xiàn)在可以訪問以下功能:體驗(yàn)GPT-4大模型的回答;獲取來自模型和互聯(lián)網(wǎng)的回復(fù);分析數(shù)據(jù)并創(chuàng)建圖表;聊聊用戶拍攝的圖片;上傳文件并提供幫助、總結(jié)、寫作或分析;發(fā)現(xiàn)并使用GPT和GPT商店;使用Memory打造更有幫助的體驗(yàn)。 OpenAI推出新的桌面應(yīng)用程序,簡(jiǎn)化用戶的工作流程。對(duì)于免費(fèi)和付費(fèi)用戶,OpenAI推出了適用于macOS的新ChatGPT桌面應(yīng)用程序,該應(yīng)用程序旨在無縫集成到用戶在計(jì)算機(jī)上執(zhí)行的任何操作。通過簡(jiǎn)單的鍵盤快捷鍵(Option+Space),用戶既可向ChatGPT提問,還可以直接在應(yīng)用程序中截取屏幕截圖并進(jìn)行討論。同時(shí),用戶可以直接從計(jì)算機(jī)與ChatGPT進(jìn)行語音對(duì)話,目前暫時(shí)提供ChatGPT發(fā)布時(shí)提供的語音模式,新的音頻和視頻功能將在未來推出。同時(shí),從發(fā)布會(huì)當(dāng)日開始,OpenAI將向Plus用戶推出適配于macOS的應(yīng)用程序,并將在未來幾周內(nèi)更廣泛地提供該應(yīng)用程序,Windows版本計(jì)劃在今年晚些時(shí)候推出。應(yīng)用程序簡(jiǎn)化了ChatGPT的界面外觀,整體UI設(shè)計(jì)更加 北京時(shí)間5月15日凌晨,Google I/O開發(fā)者大會(huì)正式開幕,在生成式人工智能AI競(jìng)爭(zhēng)中,從谷歌在本次開發(fā)者大會(huì)上發(fā)布的內(nèi)容可以看出其在AI領(lǐng)域的積淀和步伐愈發(fā)穩(wěn)健深厚。2023年12月,谷歌發(fā)布了Gemini1.0;2024年2月,谷歌發(fā)布了Gemini1.5 Pro,是第一個(gè)具有100萬tokens的模型,同時(shí)也推出了輕量級(jí)的開源模型Gemma。在本次谷歌開發(fā)者大會(huì)上,公司更新了Gemini1.5Pro,引入了1.5Flash較小型號(hào)的Gemini版本,同時(shí)也增加了兩個(gè)新的Gemma模型。 Gemini 1.5 Pro:普通版本配備了100萬token上下文窗口,而Gemini 1.5Pro將在Google AIStudio或適用于Google Cloud客
|
|