C114通信網(wǎng)  |  通信人家園

人工智能
2025/4/22 11:29

力壓群雄:谷歌 Gemini 2.5 Pro 成首款完全理解 PDF 布局的 AI 模型,可精確引用

IT之家  故淵

最新報(bào)告指出,谷歌旗下的 Gemini 2.5 Pro 模型能準(zhǔn)確解析 PDF 文檔的視覺(jué)結(jié)構(gòu),實(shí)現(xiàn)精準(zhǔn)的視覺(jué)引用功能,成為首款能完全理解 PDF 布局的 AI 模型。

IT之家注:谷歌于 3 月 25 日向付費(fèi)用戶和開(kāi)發(fā)者發(fā)布 Gemini 2.5 Pro 實(shí)驗(yàn)?zāi)P,僅隔 4 天時(shí)間,谷歌便通過(guò)免費(fèi) Web 應(yīng)用向全球用戶開(kāi)放。

Gemini 2.5 Pro 不僅能提取 PDF 文檔中的文本內(nèi)容,還能理解其視覺(jué)布局,包括圖表、表格和整體排版。

谷歌在開(kāi)發(fā)者文檔中表示,該模型具備“原生視覺(jué)”(Native Vision)能力,支持處理最多 3000 個(gè) PDF 文件(每個(gè)文件上限為 1000 頁(yè)或 50MB),同時(shí)擁有 100 萬(wàn) token 的超大上下文窗口,未來(lái)計(jì)劃擴(kuò)展至 200 萬(wàn) token。

AI 初創(chuàng)公司 Matrisk 的聯(lián)合創(chuàng)始人 Sergey Filimonov 特別贊揚(yáng)了 Gemini 2.5 Pro 在 PDF 視覺(jué)引用上的表現(xiàn)。

Filimonov 指出,傳統(tǒng)的文本分割方法會(huì)切斷用戶與原文的視覺(jué)聯(lián)系,導(dǎo)致無(wú)法直觀驗(yàn)證信息的來(lái)源。甚至在 ChatGPT 中,點(diǎn)擊引用也只能下載 PDF,迫使用戶自行判斷模型是否“幻覺(jué)”,這嚴(yán)重?fù)p害了用戶信任。

過(guò)去,引用文檔內(nèi)容往往只能高亮大段無(wú)關(guān)文本,精準(zhǔn)度極低。Gemini 2.5 徹底改變這一現(xiàn)狀,它不僅能將提取的文本片段映射回原始 PDF 的確切位置,還能以前所未有的精度鎖定特定句子、表格單元甚至圖像。

這種技術(shù)突破為用戶提供了直觀的視覺(jué)反饋,例如在詢問(wèn)房屋費(fèi)率變化時(shí),系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)(如 15.4% 的費(fèi)率變化),并標(biāo)注來(lái)源依據(jù)。

這種清晰度和交互性是現(xiàn)有工具無(wú)法企及的。Gemini 2.5 不僅優(yōu)化了現(xiàn)有流程,更開(kāi)啟了全新的文檔交互模式。

相比之下,Gemini 2.5 以 0.804 的 IoU(交并比)精度大幅領(lǐng)先其他模型,如 OpenAI 的 GPT-4o(0.223)和 Claude 3.7 Sonnet(0.210),展現(xiàn)出驚人的空間理解能力。

 

提供商 模型 IOU 簡(jiǎn)評(píng)
Gemini 2.5 Pro 0.804 非常優(yōu)秀
Gemini 2.5 Flash 0.614 有時(shí)表現(xiàn)不錯(cuò)
Gemini 2.0 Flash 0.395
OpenAI gpt-4o 0.223
OpenAI gpt-4.1 0.268
OpenAI gpt-4.1-mini 0.253
Claude 3.7 Sonnet 0.210

 

Gemini 2.5 的潛力遠(yuǎn)不止于文本定位。它還能從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù),同時(shí)明確標(biāo)注每個(gè)數(shù)據(jù)的來(lái)源位置,解決下游決策中因數(shù)據(jù)來(lái)源不明而產(chǎn)生的信任障礙。

給作者點(diǎn)贊
0 VS 0
寫得不太好

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話:021-54451141