今晚,语音模型是第一次不仅仅是人们! Openai在

Xin Zhiyuan报告编辑:Dinghui这么多[Xin Zhiyuan介绍] Openai今天早上发布了最新的生产和API语音模型。 Ang Realtime Api Ay Nagpapatupad ng Direktang Pagproseo ng Boses,Sumusuporta sa Pag -Input ng Imahe,Mga Tawag Sa Sip的远程NA MCP服务器,Lubos Na Pinapasimple Ang ang Pagtatayo ng mga ng mga ahente ng bose;而新一代的语音到gpt-realtime模型可全面提高声音质量,理解,遵守命令和功能呼叫。声音几乎与真实的人相提并论,也可以以多种语言进行动作和表达。今天凌晨1点,Openai仅对AI的语音功能进行了两个重大更新。一个是实时API,它可以支持实时生产水平的代理。另一个是最先进的语音到声音模型GPT-REALTIME。 Rea UpdatingLtime API之后,它不仅可以连接到远程MCP服务器并标识图像输入,还可以通过SIP协议直接进行呼叫。新的GPT-REALTIME模型更加无情。您可以理解复杂的说明,工具调用更准确,声音是自然而光滑的,并且也可以带来一些表达。它可以通过Word读取单词免责声明,准确地重述字母数字,并在语音中无缝移动语言。最令人惊讶的是,声音效果与真实的人几乎没有什么不同,比真实的人更清晰。首先,我们将体验到这种声音的过度效果,您不会听到“机器的气味”。 ito ay ay nagpapaalala sa mga nagdaang dalawang araw ng ng ng开放式,使tao ang nagsabing“ naramdaman ang agi ...” sa社交媒体,“ pakiramdam ang agi ...” pakiramdam ang agi ...“ nagtataka agtataka ako ako ako kung kung ito sa pinakreal sa pinakreal foreices a pinakreal foreices。在Openai提供的官方示例中,增加语音功能使Agagi立即充满!现在,GPT-RealTime可以处理复杂的多步请求,例如根据生活方式需求附加属性列表,一个nd允许AI通过完整的对话完成操作。或直接致电调整医生的约会。 Realtime API首次开放Beta是在去年10月,成千上万的开发人员参与,使用和评论。这些都是这些开发人员如今塑造改进的。实时API不同,仅使用模型和接口。直接处理并直接产生音频。降低潜伏期和保存更好的细节。声音更自然和表现力。 GPT-REALTIME模型介绍了新的语音GPT-REALTIME语音模型,从而实现了声音质量,智能,指导依从性和功能呼叫的全面改进。 maaari itong masabing ang pinaka先进的型号bose bose para sa openai sa kasalukuyan在isa ring handa handa handa na型boses para sa mga sa mga kapaligiran sa paggawa。 ang天然na pag -uusap sa kalidad ng音频ay ang susi sa landing ng mga ahente ng boses sa totoong mundo,tulad ng ng protagOnista Sa Pelikulang“她的”因此,模型可仅仅通过具有语调,情感和速度与人相提并论的速度,我们可以创造一种愉快的体验,并鼓励用户继续与之交谈。 Openai在GPT-Real Time中的培训专注于以更好的声音质量和更自然的聆听体验来开发声音,并且可以遵循Ang Mga tagubiling Pinong Gerained。 Halimbawa,“ Magsalita sa Isang Mabilis,propesyonal na tono” o na may iSang tuldik na pranses,ipahayag sa isang isang isang makiramay na tono”。此外,在API中推出了两个新声音Marin和Cedar,他们在自然声音中取得了重大成功。 Kasabay Nito,Ang Walong Umiiral Na Mga型boses ay na -upgrade din,na nakikinabang din sa mga pagpabuti na Ito。 GPT-REALTIME智能和理解表现出更高的智力水平,并更准确地了解原始音频。该模型可以获得非语言提示,例如笑声,切换语言e在句子的中间,并根据需要调整音调(例如,从“清晰和专业的样式”转换为“善良和同情”)。 (65.6%)。 Kapag nagtatayo ng mga aplikasyon ng boses-sa-boses, kailangang ibigay ng mga developer ang modelo ng isang hanay ng mga tagubilin sa pag-uugali, kabilang ang kung paano magsalita, kung ano ang sasabihin sa isang tiyak na sitwasyon, at ang mga hangganan ng PAG-UUGALI。此时,该模型遵循这些指示的能力着重于提高模型有效获得最小说明的能力。 SA基准NG Audio Multichallenge na Sumusukat sa Kawastuhan ng pagsunod sa pagtuturo,ang gpt-gpt-realtime ay umiskor ng 30.5%,isang makabuluhang pagpapabuti sa mas mas matandang matandang modeo(20.6%)。使用语音说话模型生产强大的语音代理的功能呼叫,该模型应在正确的时间调用正确的工具,以在劳动环境中真正发挥作用。 GPT-REALTIME改善了三个功能呼叫维度:调用相关功能,在正确的时间呼叫,并使用正确的参数调用(以提高准确性)。 SA Pagsusuri ng音频ng复杂funcbench,可衡量性能呼叫性能,GPT-REARTIME得分为66.5%,而传统模型仅得分49.7%。 Ang Mga Pagpabuti ay ginawa din sa mga tawag sa pag -andar ng异步。 ANG MAS MASHAHABANG MGA TAWAG SA PAG -ANDAR AY AY HINDI NA MAI -BLOCK ANG DALOY NG会话 - Ang Modelo Ay MaaAring Mapanatili Mapanatili Ang Maayos na Pag -uusap habang habang habang naghihintay ng mga resucta。 Ang tampok na ito ay katutubong itinayo sa gpt-realtime,在maaaring magamit ito ito ng mga开发人员nang hindi ina-ina-ina-update ang ang代码。新的实时API远程MCP服务器支持功能,您可以通过在翻新实时API会话时传递远程MCP服务器的URL来启用MCP支持。 Pagkatapos ng Koneksyon,Awtomatikong hahawak ng api ang Mga Kaugnay na tawag sa sa工具Nang Walang Manu -Manong Pagsasama。 ang设置na itohinahayaan kang maDaling Mapalawak Ang Mga Bagong Kakayahan para sa mga ahente:ituro lamang ang pag -uusap sa ibang mcp sa ibang mcp Server在Ang Mga Kaukulang工具Ay Magagamit Kaagad。 // post/v1/实量/client_secrets
“会议”: {
“ uri”:“实时”,
“ MGA工具”:[
"Uri": "MCP",
“ server_label”:“条纹”,
“ server_url”:“ https://mcp.stripe.com”,
“ awtorisasyon”:“ {access_token}”,
“ Kinakailangan_approval”:“ Huwag Kailanman”
}输入ng imahe ng gpt-realtime ay sumusuporta sa pag输入ng imahe。 Ang MGA Visual Na Impormasyon Tulad ng Mga Larawan,Larawan,MGA屏幕截图,ATBP AY MAAARING MAAARING MAIDAGDAG SA会话NG实时Na api api kasama kasama ang ang teksto。 ngayon,maaaring pagsamahin ng modeo ang pag -uusap sa mga larawan na na nakikita ng gumagamit,na pinapayagan ang gumagamit na magtanong na magtanong tulad ng“ ano ang ang nakita mo?” o“ basahin ang teksto sa屏幕截图”。系统处理图像的方式不是实时视频流,而是更像输入对话中的图像。 Ang应用程序Kung Aling Mga Imahethe模型的Aaaring Magpasya Kung Kailan将被分享。这样,您始终可以控制模型所看到的内容和响应的时机。 {
“ type”:“ Talk.item.Create”,
“ past_item_id”:null,
“物品”: {
“类型”:“消息”,
“纸”:“用户”,
“内容”: [
“ type”:“ input_image”,
“ image_url”:“数据:image/{格式(例如:png)}; base64,{some_base64_image_bytes}”
} iba pang mga tampok ang pag -update na ito ay nagdaragdag din ng maraming mga tampok upang upang up gawing mas madaling iSama ang and madaling isama ang sealtime api at nababaluktot sa paggamit ng produksyon。 Suporta ng Session Protocol (SIP) Suporta: Ikonekta ang mga aplikasyon sa mga pampublikong network ng telepono, mga sistema ng PBX, desktop phone, at iba pang mga pagtatapos ng SIP sa pamamagitan ng katutubong suporta ng mga real-time na API.这就像先前的麝香产量的特征。重新使用的单词:您可以在不同的真实sessionsme api中保存和重复使用即时单词,例如此直接单词可能包含开发人员消息,工具,变量以及用户/助手消息的示例。中国 + 2个OpenAI面孔肯定会在新闻发布会上出现,并且在本新闻发布会上将出现两张新面孔。 Beichen Libeichensi Li目前是Openai的技术研究员。研究的方向是计算机图形和机械研究的相交,重点是使用多模式大语言模型(MLLM)来综合视觉程序。此前,他获得了MIT Csail的计算机科学博士学位,并在Wojciech Matusik教授的领导下学习。他的电气工程和计算机科学大师来自麻省理工学院;以及他的计算机科学技术学士学位,来自Tsinghua大学。 Si Liyu Chenliyu Chen Ay Kasalukuyang Isang Teknikal Na Mananaliksik Sa Openai。
特别声明:上面的NISTART(包括照片或视频(如果有))已由“ NetEase” SelfMedia平台上传和发布。这个PLATFORM仅提供信息存储服务。
注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供信息存储服务。