全部動態
後續跟進:DeepSeek V4 Flash 在 2x RTX PRO 6000 上完成真實編碼任務速度快於 Sonnet 和 Opus,質量接近 Sonnet
該帖子對比了本地模型 DeepSeek V4 Flash 與 Sonnet 和 Opus 在真實編碼任務中的表現。DeepSeek V4 Flash 在 2x RTX PRO 6000 上運行,完成任務速度約為 Sonnet 的三分之一,質量接近 Sonnet,但 Opus 和 Fable 在質量上仍領先。測試環境模擬了實際使用場景,結果顯示本地模型在速度和實用性上有顯著提升。
WorldClaw與百度智能雲達成戰略合作,文心5.0系列登陸WorldRouter
WorldClaw宣佈與百度智能雲建立戰略合作關係,百度的文心5.0系列模型已集成到WorldClaw的WorldRouter平臺。此次合作旨在推動AI技術的應用和服務能力提升。
Claude代碼與中國:當用戶設置ANTHROPIC_BASE_URL環境變量時機制被激活(用於本地模型)
研究人員發現Claude代碼中包含一個通過Base64編碼並使用簡單XOR加密的可疑主機名列表,解碼後顯示這些域名屬於中國公司、人工智能實驗室相關關鍵詞及用於路由Claude API請求的網關或轉售商。完整解碼列表已由研究者在線公開。
黃仁勳提到的Physical AI,被這家中國跨界選手帶入生命科學實驗室
報道介紹了黃仁勳提出的Physical AI概念,及其被一家中國跨界企業應用於生命科學實驗室的情況。文中還提及第三方測評顯示該企業的AI模型超越了OpenAI的旗艦產品GPT-5.6 Sol。
程序記憶蒸餾:用於自我改進語言模型的在線反思
本文提出了一種名為程序記憶蒸餾(PMD)的方法,通過將跨回合的程序性信息轉化為可重用的記憶,並在訓練過程中蒸餾進模型權重,實現語言模型的自我改進。該方法利用模型自身軌跡中的多層次抽象信息,構建記憶輔助的自我教師機制,促進模型逐步內化程序性知識。PMD使得推理時模型無需額外記憶,提升了訓練效率和模型表現。
臨床智能體的世界反饋:在FHIR環境中診斷強化學習
本文針對臨床協議執行任務,提出了基於世界反饋的強化學習方法,並審計了現有的MedAgentBench基準,發現存在較高的無動作完成率限制。作者構建了改進版MedAgentBench-v3,揭示了強化學習在臨床任務中面臨的能力天花板和格式知識障礙,提出結合監督微調注入臨床代碼與強化學習學習條件邏輯的混合策略以提升性能。
PACE:一種用於合理且可操作反事實解釋的神經符號框架
本文提出了PACE,一種模塊化的神經符號框架,用於生成考慮可行性的反事實解釋。該框架將預測和推理分離,結合神經網絡分類模型與符號推理層,顯式建模領域知識和干預約束,從而生成符合領域知識且可解釋、可操作的反事實建議。通過在Adult Income數據集上的案例研究,展示了該方法在現實決策支持中的適用性和有效性。
Wiola架構:高效小型語言模型的新設計
本文提出了Wiola,一種全新設計的小型語言模型架構,完全獨立於現有模型家族如GPT、LLaMA等。Wiola引入了五個創新組件,包括三維螺旋旋轉位置編碼、跨層門控注意力、自適應令牌合併、雙流前饋網絡和改進的歸一化方法。該模型在多個參數規模下發布,兼容HuggingFace生態系統,並通過了全面的架構測試。
Auto-FL-Research:聯邦學習算法的智能搜索代理
本文提出了Auto-FL-Research(AFR),一種用於聯邦學習算法搜索的受限編碼代理工作流。該方法允許代理提出和實現包括服務器聚合規則、客戶端更新計劃、本地目標和模型變體在內的訓練算法候選方案,並在多個醫療和公開數據集任務上進行了評估。實驗結果顯示AFR在多數任務中取得了性能提升,同時揭示了種子敏感性和搜索選擇失敗的情況,體現了算法搜索的複雜性和挑戰。
DRL-CLBA:基於DDPG強化學習的語音分類清潔標籤後門攻擊
本文提出了一種針對語音分類的清潔標籤後門攻擊方法DRL-CLBA,利用深度確定性策略梯度(DDPG)強化學習和深度音頻隱寫技術,將樣本特定觸發器嵌入源音頻中。該方法無需標籤遷移即可實現目標樣本的有效中毒,實驗表明其在多個數據集和神經網絡上均能高效繞過多種後門防禦措施,揭示了語音控制系統的關鍵安全隱患。
分佈魯棒的列表偏好優化
本文提出了一種針對排名標籤不確定性的列表偏好優化方法,採用點對點全變差魯棒Plackett--Luce目標函數,直接對候選列表條件下的排名標籤進行魯棒化。該方法在離線和在線優化中均具有良好的理論保證,並在大型語言模型對齊任務中表現出較強的魯棒性和性能保持能力。
CreativityNeuro:通過權重引導提升語言模型的發散性思維並減少模式崩潰
本文提出了CreativityNeuro,一種無需數據的對比權重引導方法,用於提升大型語言模型的發散性思維能力。該方法在多個創造力評估任務中表現出顯著提升,尤其在詞彙空間創造力測試中提高了最多14個人類百分位。CreativityNeuro還能有效減少模式崩潰現象,且無需重新訓練或梯度微調,展示了其在創意領域提升語言模型性能的潛力。
COMFYCLAW:用於圖像生成工作流的自我進化技能框架
本文提出了COMFYCLAW,一種用於控制ComfyUI圖像生成工作流的智能體技能進化框架。該框架通過有類型的圖編輯構建工作流,利用視覺-語言模型驗證器自動修復錯誤,並逐步進化可複用的技能庫,從而提升了圖像生成的可靠性和性能。實驗結果顯示,COMFYCLAW在多個基準測試中優於無技能進化的基線方法,且人類評審更偏好該方法。
用於交互式放射學報告起草的離散擴散語言模型
本文提出了一種基於擴散機制的語言模型DiffusionGemma-26B,用於醫療領域文本生成,特別是放射學報告的起草。該模型在醫療視覺問答數據集上表現不遜於傳統自迴歸模型,且解碼速度提升3.5-4.4倍,支持任意順序的文本填充,方便放射科醫生修正報告片段並自動補全文本,提升了報告編輯的靈活性和效率。
超越下一個詞預測:針對Atlassian工作流工具使用代理的RLVR概念驗證
本文提出了一種基於可驗證獎勵的強化學習(RLVR)方法,直接在目標環境中訓練語言模型以更好地執行企業SaaS工作流中的API調用。通過構建五個模擬Jira和Confluence API的合成環境,實驗顯示RL訓練策略顯著提升了模型在複雜任務中的表現。該研究為面向特定企業API的小型模型優化提供了初步思路,但也指出了獎勵設計的可擴展性限制。
用於剪枝稀疏專家混合語言模型的通用專家覆蓋方法
本文提出了一種名為Generic TB-Coverage的專家剪枝方法,利用通用文本語料庫進行校準,無需下游校準數據。該方法通過分別評估每個專家在不同語料庫上的效用,並採用固定預算覆蓋規則,顯著提升了多模型在零樣本任務上的準確率,尤其在高強度剪枝下效果更佳。
認知護目鏡:通過梯度編輯誘導認知框架的預訓練模塊
本文提出了一種名為Goggles的預訓練模塊,通過在微調過程中編輯梯度,賦予語言模型特定的認知框架,從而解決模型對虛構內容的“否定忽視”問題。該方法顯著提升了模型識別虛構內容的準確率,並能保持模型的整體能力。Goggles還支持多種認知框架的訓練,且效果在持續微調中依然穩定。
在無原始心電圖重放的持續心電圖部署中區分專家保留與自主源推斷
本文提出了一種基於凍結的ECGFounder特徵的增量專家庫方法,用於多源心電圖部署中在無法保留或重放原始心電圖時整合新數據源。通過結合平衡softmax線性專家和輕量級路由器,實現了在無源元數據情況下的專家選擇,並在多個數據集上驗證了該方法的有效性。研究指出自主源推斷仍是當前的主要瓶頸。
多元證據,更佳預測:信息不對稱下的多智能體協商機制
本文提出在多智能體系統中引入信息不對稱,通過將證據劃分為共享的公共部分和各自獨有的私有部分,促進智能體間的有效協商與信念修正。該方法在PolyGym預測市場數據集上顯著優於現有單智能體和多智能體基線,驗證了輸入多樣性是提升多智能體推理效果的關鍵。
帶置信度的擴展:用於自適應測試時擴展的大型語言模型置信度校準
本文提出了一種新的強化學習算法C3RL,結合正確性、置信度校準和數據集參考準確率獎勵,解決了大型語言模型在提升性能的同時置信度校準不足的問題。通過在多個文本和多模態數據集上的評估,C3RL在準確率和校準指標上均優於現有方法。基於此,作者進一步提出了CAS推理策略,根據模型置信度動態分配計算資源,實現了更高效且準確的推理。
利用人工智能交通科學家自主發現交通規律
本文介紹了TrafficSci,一種將交通規律發現視為迭代且可審計工作流的智能系統。該系統在四個案例研究中自主重新發現了三條已知交通規律,並識別出一個未報道的城市駕駛行為內在時間記憶尺度。TrafficSci展示了將AI驅動的科學發現從受控實驗擴展到複雜城市交通系統的可能性。
基於利潤的反事實解釋用於產品改進:以日本漫畫銷售為案例研究
本文提出了一種基於利潤最大化的反事實解釋框架(PBCE),用於提升機器學習模型的可解釋性並支持基於模型預測的決策優化。該方法避免了傳統反事實解釋中對目標輸出和距離函數的外生指定,直接以利潤最大化為優化目標,並將距離項重新解釋為修改產品屬性的成本。研究以日本漫畫銷售為案例,展示了該方法在管理和營銷中的應用價值。
SemHash-LLM:一種用於文檔去重的多粒度語義哈希框架
本文提出了SemHash-LLM,一種結合語義投影哈希、加權MinHash、對比邊界學習及選擇性大模型裁決的多粒度文檔去重框架。該方法通過字符、詞元和文檔級信號融合,實現高效且準確的語義重複檢測,實驗表明其在保持低神經網絡驗證成本的同時,具備較強的去重性能。
安全且自適應的雲自愈:利用神經符號世界模型驗證大語言模型生成的恢復計劃
本文提出了PASE,一種基於神經符號程序合成的新型雲故障自愈框架。該框架利用大語言模型生成結構化恢復計劃,並通過神經符號世界模型進行計劃可行性驗證,結合深度強化學習優化提示生成。實驗證明,PASE在真實雲故障注入數據集上顯著提升了故障檢測準確率並將系統恢復時間縮短超過40%。
EO-Agents:用於地球觀測假設生成的三代理大型語言模型流水線
本文提出了一種基於NASA地球觀測知識圖譜的三代理大型語言模型流水線,用於生成結構化的科學假設。該系統結合異構圖神經網絡對數據集配對進行排序,並在1475個NASA數據集上生成了160個跨多個地球科學領域的假設。實驗表明,該方法能夠發現科學合理但尚未探索的數據集組合,且假設排名在不同評審者間表現穩定。
偏好學習中謊言檢測監督的規模化趨勢研究
本文擴展了可擴展監督方法SOLiD(通過謊言檢測器識別需人工複核的回答)到更大規模模型,並在多樣且現實的偏好學習場景中進行了評估。研究發現,隨著模型規模增大,未被檢測出的欺騙行為顯著減少,且在微調階段可完全去除昂貴的人類標註者,但該方法對檢測器訓練數據與偏好訓練數據的分佈偏移較為敏感,可能導致誤報率升高。
在有限監督下重新審視鏈式思維推理:半監督鏈式思維學習
本文提出了一種半監督鏈式思維學習(Semi-CoT)框架,利用未標註問題構建偽推理監督,通過選擇低熵的推理鏈作為可靠示範,實現鏈式思維的半監督訓練。實驗表明該方法在多個數據集上能選出高精度的偽推理鏈,並在部分任務上帶來性能提升,但在某些數據集上存在負遷移或性能瓶頸,表明偽監督的有效利用仍需改進。
OPINE-World:基於本體誤差優先的交互式探索的程序化世界建模
本文提出了OPINE-World,一種通過交互在線學習面向對象的程序化世界模型的LLM代理。該方法結合了假設與測試的循環機制,利用貝葉斯本體誤差度量引導探索,在ARC-AGI-3基準測試中無需針對單個遊戲訓練即可解決20個遊戲,表現出較高的技能獲取效率和行動效率。
Janus:一個支持用戶參與的代理權限管理實驗平臺
本文介紹了Janus,一個用於實現和評估用戶參與的代理權限管理設計的實驗系統。Janus包含模塊化的代理系統和自動化評估框架,支持多種權限管理設計,並通過多場景測試驗證了用戶輸入對隱私安全的重要性及AI輔助決策的優勢。研究表明不同設計在不同場景下表現各異,強調了基於情境的權限管理策略的必要性。
分叉路徑的智能代理花園
本文研究了數據分析中存在的多種合理分析路徑,展示了AI代理如何通過賦予不同人格來顯現並複製人類研究者在同一數據上的不同甚至對立結論。研究發現,AI代理能夠重現人類研究團隊在移民數據分析中的意識形態差異,且大多數分析結果難以被判定為錯誤,表明問題在於選擇性探索和報告。為此,作者提出了m值和Agentic Bootstrap方法以量化和估計分析路徑的極端性概率。
[audio.cpp] GGML音頻擴展發佈——C++/GGML原生ACE-Step、Stable Audio、HeartMuLa、RoFormer、HTDemucs上線,10分鐘音樂生成僅需60秒!
audio.cpp發佈了重要的音樂和音頻功能擴展,新增了音樂生成、音效生成和源分離功能,支持ACE-Step 1.5 Turbo、HeartMuLa、Stable Audio等多種模型。HeartMuLa現可生成約10分鐘音頻,整體框架已覆蓋語音合成、語音識別、聲紋分離等多種音頻任務,且部分生成速度優於Python實現。該項目基於C++和GGML,適合長時運行和服務器使用。
llamacpp補丁——DeepSeek V4 Flash在RTX 5090上本地運行完整1M Token上下文
該補丁解決了DeepSeek V4 Flash模型在高上下文長度(1M token)時對顯存需求過高的問題,通過為llamacpp集成CUDA內核,使其在RTX 5090顯卡上能夠以較低顯存(約3.75GB)運行1M token上下文。測試驗證了模型在長上下文檢索的正確性,並提供了源碼和構建說明,方便開發者本地部署和使用。
馬克·扎克伯格告訴員工,人工智能代理的發展進展不及預期
Meta首席執行官馬克·扎克伯格在一次內部會議上表示,人工智能開發工作進展沒有達到他預期的速度。這反映出即使在大型科技公司,AI代理的研發仍面臨挑戰。
使用RTX 3090的本地基準測試——Qwen3.6 27b與Ornith比較
作者使用RTX 3090顯卡,通過inspect-ai和inspect-evals套件對Qwen3.6 27b、Gemma4 26B A4B QAT和Ornith1.0 35B MoE三款模型進行了本地基準測試。測試涵蓋有限樣本和嚴格限制,結果顯示Ornith在約一半情況下表現與Qwen3.6 27b相當或更好,但在其他情況下表現較差。該測試有助於更全面評估本地可運行模型的性能。
英偉達AI先驅不看好通用人工智能,稱OpenAI和Anthropic的封閉模型如同AOL和Prodigy的封閉互聯網
英偉達一位AI領域的重要人物公開表示不相信通用人工智能(AGI)的實現,並將OpenAI和Anthropic的封閉模型比作早期的AOL和Prodigy封閉互聯網。該人士認為未來將是每個企業擁有定製的開源模型。此觀點引發了業界對AI開放性和未來發展方向的討論。
llm-coding-agent 0.1a0 發佈
Simon Willison 發佈了 llm-coding-agent 0.1a0,這是基於其 LLM 庫演變而成的一個簡單編碼代理框架。該項目使用 Python 開發,支持文件讀取、編輯和命令執行等功能,並採用紅綠燈測試驅動開發方法。
Meta悄然推出基於情緒編碼的遊戲應用Pocket
Meta悄然發佈了一款名為Pocket的實驗性AI應用,用戶可以通過文本提示生成並分享互動小遊戲。該應用利用AI技術簡化遊戲創作過程,提升用戶參與度。
Anthropic 正在與三星討論定製 AI 芯片
繼 OpenAI 與博通合作推出定製 AI 芯片後,Anthropic 也開始與三星討論開發新的定製 AI 芯片。這顯示了 AI 公司在硬件領域的積極佈局,推動行業硬件創新。
針對文案與創意寫作任務微調的Gemma-4-31B模型(基於EqBench3評測提升290 Elo分)
該項目對Gemma-4-31B模型進行了針對文案和創意寫作的微調,旨在提升模型生成更具體、直接且富有感染力的營銷文案。通過基於EQ-Bench 3方法構建的文案專用評測,微調模型在30個真實任務中以80%的勝率顯著優於基礎模型。訓練採用QLoRA微調技術,使用真實廣告文案數據,提升了模型的鉤子強度、具體性和簡潔性。
使用DSPy評估和改進Datasette Agent的SQL系統提示
本文介紹了利用DSPy工具評估並改進Datasette Agent中用於執行只讀SQL查詢的系統提示。通過使用GPT 4.1 mini和nano模型進行測試,發現了改進提示語的多個方向,尤其是建議在提示中包含列名以減少錯誤和猜測。該研究有助於提升基於SQL的AI代理的準確性和效率。
亞馬遜 Bedrock 如何識別 AI 生成的釣魚郵件
釣魚攻擊作為常見的網絡攻擊手段,因 AI 生成的釣魚郵件而變得更加複雜和難以防範。亞馬遜 Bedrock 利用生成式 AI 和開源情報技術,幫助安全團隊檢測和防禦這些高級釣魚攻擊,提升郵件系統的安全性。
Amazon SageMaker AI中多輪強化學習的最佳實踐
本文分享了在Amazon SageMaker AI中進行多輪強化學習訓練的最佳實踐,涵蓋了如何構建可靠的訓練環境、設置外部評估、設計與最終任務對齊的獎勵機制、管理多輪運行中的變化以及監控關鍵指標以指導迭代。
重建 Gemma 4 31b 模型,目標更優表現如 26b
作者計劃重建 Gemma 4 31b 模型,重點改進 SWA 層結構並引入基於注意力的殘差網絡以提升全局信息流通和模型一致性。通過凍結模型部分參數並使用 TopK logits 作為訓練目標,嘗試在更小模型空間內保持性能。該工作基於作者自研技術和公開研究,尚處於實驗階段。
Kimi K2.7 代碼已在 GitHub Copilot 中普遍可用
Kimi K2.7 版本的代碼現已在 GitHub Copilot 平臺上普遍可用,方便開發者訪問和使用。該消息來自 Reddit 社區 r/LocalLLaMA,表明該模型代碼的開放程度有所提升。
OpenAI提議將5%股權捐贈給美國主權財富基金
據報道,OpenAI首席執行官Sam Altman提議將公司5%的股權捐贈給美國主權財富基金,此舉重新引發了公眾分享人工智能繁榮帶來的財務收益的討論。該提議可能影響AI行業的資本分配和公共利益相關政策。
我正在切換到Linux,Ubuntu是本地AI最兼容的系統嗎?
用戶討論在切換到Linux系統時,是否Ubuntu是與本地AI工具如vLLM、ggufs、llamacpp和comfyui最兼容的選擇。該討論旨在確保這些工具能夠順利運行於Ubuntu系統上。
微軟成立專門的人工智能部署公司,承諾投資25億美元
微軟宣佈成立自己的人工智能部署公司,計劃投入25億美元資金。此舉使微軟加入了亞馬遜、OpenAI和Anthropic等公司,進一步推動AI技術的商業化和應用部署。
使用 Gemma 4 31B 進行語音對話的全開源演示
Hugging Face 的 Andi 發佈了一個完全開源且免費測試的語音演示,結合了 Nvidia 的 parakeet、Gemma 4 31B(由 Cerebras 提供支持)和自定義的 Qwen3TTS 推理。該演示支持本地運行,延遲表現良好,也提供基於雲的網頁版演示,堪稱 OpenAI 實時 API 的開源替代方案。
一初創公司提出解決AI群體思維問題的方案
本文介紹了一家初創公司針對大型語言模型(LLM)存在的群體思維問題提出的解決方案。該公司試圖通過技術手段打破現有聊天機器人的思維定勢,提升其多樣性和創新能力。文章以Claude、ChatGPT和Gemini等主流聊天機器人為例,說明瞭問題的普遍性。
是的,我們現在用OpenClaw來約會了
Ben Guez利用OpenClaw、Claude代碼和Instagram試驗,設置了一個自動化腳本,幫助他在社交媒體上獲得了許多潛在的國際約會對象。該應用展示了AI技術在社交和約會領域的創新使用。
Z.ai 推出 ZCode,挑戰 Cursor、Claude Code 和 GitHub Copilot 的 AI 編程工具
Z.ai 推出了名為 ZCode 的 AI 編程產品,旨在與 Cursor、Claude Code 以及 GitHub Copilot 等現有 AI 編程助手競爭。該產品希望通過提供類似功能來吸引開發者使用,提升編程效率。
讓Agent越用越強:AReaL 2.0開源,打造面向自演進智能體的RL基礎設施
AReaL 2.0版本已開源,旨在為自演進智能體提供強化學習(RL)基礎設施。該項目與社區合作,推動自演進智能體生態系統的發展,提升Agent的持續學習和進化能力。
全球首個英偉達含量為0的萬億參數模型,成了海外開發者的搶手貨
報道介紹了全球首個不含英偉達硬件成分的萬億參數規模模型,該模型在海外開發者中非常受歡迎,霸榜OpenR。此舉顯示了在大型模型開發中硬件多樣化的趨勢。
科大訊飛舉辦智能交互生態發佈會,三大平臺同步升級
2026年7月2日,科大訊飛在深圳舉辦智能交互生態發佈會,宣佈其三大平臺的同步升級。此次升級旨在提升智能交互體驗,推動生態系統的發展。
OpenAI提議向特朗普政府提供AI繁榮5%股權
據《金融時報》報導,OpenAI曾提議向美國政府提供5%的公司股權,以緩解與特朗普政府的緊張關係並減少公眾對AI的反彈。CEO山姆·奧特曼認為,讓公眾擁有財務利益是分享AI成果的最佳方式。該提議最早於去年初向特朗普提出。
印度科技大亨自掏3千萬美元打造微軟Office的AI替代品
印度科技企業家Bhavin Turakhia投資3000萬美元開發名為Neo的企業軟件,旨在打造微軟Office和谷歌應用的AI替代方案。這是他第五個創業項目,聚焦於企業軟件領域。
Kimi K2.7 代碼現已在 GitHub Copilot 中普遍可用
GitHub 官方宣佈 Kimi K2.7 版本的代碼現已集成並普遍可用在 GitHub Copilot 中。該更新提升了 Copilot 的代碼生成能力,幫助開發者更高效地編寫代碼。
英偉達釋放大規模AI計算能力,邀請合作伙伴共建AI基礎設施
隨著AI從模型開發轉向生產推理,計算需求加速增長並向持續運行的大規模AI工廠轉變。英偉達宣佈開放大規模多租戶加速計算資源,支持快速上線和高效利用,助力新興AI公司構建經濟高效的AI服務基礎設施。
ZCode – GLM-5.2 的應用平臺
ZCode 是一個針對 GLM-5.2 模型的應用平臺,旨在幫助用戶更好地利用該模型的能力。該平臺已在 Hacker News 上獲得較高關注,顯示出一定的行業影響力和實用價值。
SpaceX 擁有一款 AI 設備原型,聽起來像手機
據報道,SpaceX 在上市前向投資者展示了一款“類似手機”的 AI 設備原型。這可能表明 SpaceX 有意進軍無線通信領域。
阿什頓·庫徹離開Sound Ventures,與摩根·貝勒共同創立新風險投資公司
阿什頓·庫徹宣佈離開以在領先AI實驗室進行高集中度投資聞名的Sound Ventures,計劃與摩根·貝勒共同創立一家新的風險投資公司。新基金將重點投資於支持這些AI公司的基礎設施和能源層面。
谷歌2026年6月最新AI動態發佈
本文介紹了谷歌在2026年6月發佈的最新人工智能相關更新,涵蓋了多個AI技術和產品的進展。作為谷歌官方博客發佈的信息,內容權威且具有較高的行業參考價值。
在AWS GovCloud(美國)上通過Amazon Bedrock運行NVIDIA Nemotron和OpenAI GPT OSS模型
AWS宣佈在其GovCloud(美國)區域通過Amazon Bedrock支持OpenAI的開源權重GPT OSS模型(120B和20B)以及NVIDIA Nemotron系列模型。該服務提供多種推理選項以滿足數據駐留需求,並支持不同的服務層級,方便用戶快速上手。
HippoRAG:基於Amazon Bedrock、Amazon Neptune和個性化PageRank的神經生物學啟發RAG實現
本文展示瞭如何利用AWS完整技術棧實現HippoRAG。該方案結合了Amazon Bedrock的LLM能力、Amazon Neptune的圖數據庫功能及個性化PageRank算法,適用於企業級應用的構建和部署。
Inscribe如何利用Amazon Bedrock在數秒內阻止文件欺詐
本文介紹了Inscribe如何使用Amazon Bedrock開發出一個智能AI系統,能夠像專家欺詐分析師一樣跨文檔推理。該系統能在90秒內檢測出篡改、偽造和AI生成的金融文件,速度比傳統人工審核快20倍,同時保持了金融服務監管所需的準確性和可解釋性。
Cloudflare新政策要求AI公司為出版商內容付費
Cloudflare宣佈新政策,要求AI公司在9月15日前區分用於搜索的網絡爬蟲和用於AI訓練及代理的爬蟲,否則許多出版商網站將默認屏蔽這些爬蟲。此舉旨在推動AI公司為使用的出版商內容付費,保護內容提供者權益。
使用開源模型分析器簡化 Amazon Bedrock 中的模型選擇
Amazon Bedrock 模型分析器是一款開源工具,能夠將來自多個 AWS API 及外部來源的模型元數據匯聚到一個可搜索的界面中。該工具支持多種實際應用場景,並且可以在五分鐘內部署到用戶環境中,方便用戶進行模型選擇。
在Amazon SageMaker AI上使用BoltzGen加速蛋白質設計
本文介紹瞭如何在Amazon SageMaker AI上部署BoltzGen並運行端到端的蛋白質設計實驗。該方案支持從快速驗證運行到生產批處理的擴展,提供兩種執行模式以適應不同研究階段,並通過步驟級緩存減少迭代工作流中的計算開銷。
紐約市教育者與行業領導者齊聚谷歌,共同塑造課堂中的人工智能未來
谷歌、紐約就業首席執行官委員會和Urban Assembly聯合舉辦了一場人工智能峰會,吸引了150名教育和行業領導者參加。此次峰會旨在探討人工智能在課堂中的應用和未來發展方向。
大型語言模型陷入群體思維模式,這家初創公司試圖打破僵局
文章指出當前主流大型語言模型(如Claude、ChatGPT、Gemini)在生成隨機數時表現出類似的模式,顯示出群體思維的傾向。一家初創公司正在嘗試通過新方法打破這種模式,以提升模型的多樣性和創新能力。
Venice AI完成6500萬美元A輪融資,隱私優先的AI平臺成為獨角獸
Venice AI宣佈完成6500萬美元的A輪融資,估值達到獨角獸水平。公司CEO Erik Voorhees表示,Venice AI已經實現盈利,年化收入超過7000萬美元。該公司專注於隱私優先的人工智能平臺,市場表現強勁。
谷歌的智能助理 Gemini Spark 現已登陸 Mac 平臺
谷歌的全天候智能助理 Gemini Spark 現已支持 Mac 平臺,同時帶來了實時跟蹤和更多應用支持等功能改進。該助理旨在提升用戶的多任務處理效率和應用集成體驗。
Meta擬將多餘的AI算力轉化為現金,進軍雲計算市場
Meta計劃開展雲基礎設施業務,出售AI算力和模型的訪問權限。這一舉措將使其與亞馬遜AWS、谷歌雲和微軟Azure等大型雲服務提供商競爭。
Anthropic發佈Claude Science,面向科學研究的新旗艦產品
Anthropic在一次面向製藥高管、生物技術創始人和研究人員的活動中宣佈推出Claude Science,這是一款旨在支持科學研究的重要新產品。該產品定位為Anthropic的最新旗艦,專注於推動科研領域的應用。
特朗普政府取消對Anthropic Mythos和Fable模型的限制
特朗普政府取消了對Anthropic公司旗下Mythos和Fable人工智能模型的限制,反映出其在AI政策制定上的不穩定態度。此舉使得行業內公司對未來模型發佈的監管規則缺乏明確預期。
Wayve以85億美元估值推出8500萬美元員工股份回購計劃
自動駕駛AI初創公司Wayve宣佈以85億美元估值推出8500萬美元的員工股份回購計劃。此舉反映了AI初創企業利用員工股份回購作為吸引和留住人才的戰略趨勢。該計劃有助於增強員工激勵和公司穩定性。
Anthropic長期擱置的Claude Fable 5獲准重新上線
Anthropic經過與特朗普政府數週的談判後,獲得了美國商務部解除對Claude Fable 5和Mythos 5的出口管制許可。公司計劃從週三開始恢復全球用戶對Claude平臺的訪問,並將在AWS、谷歌雲和微軟Foundry上重新啟用訪問,但具體時間尚未確定。
Hugging Face 與 Cerebras 推出 Gemma 4 實時語音 AI
Hugging Face 與 Cerebras 合作推出了 Gemma 4,用於實時語音人工智能應用。該產品結合了先進的硬件和軟件技術,提升了語音識別和處理的效率與性能。
美國商務部解除對Anthropic Claude Fable 5和Mythos 5的出口管制
Anthropic宣佈美國商務部已解除對其Claude Fable 5和Mythos 5模型的出口管制。公司計劃從次日開始恢復對這些模型的訪問,並將在近期發佈進一步更新。此舉可能影響相關AI模型的國際使用和部署。
Claude Science 是 Anthropic 最新的旗艦產品
Anthropic 在一次面向製藥高管、生物技術創始人和研究人員的活動中宣佈推出 Claude Science,這是一款旨在支持科學研究的新產品。該產品類似於 Claude Code,能夠在接收簡潔的高級指令後自主完成有意義的工作,並具備訪問相關資源的能力。
Claude Sonnet 5 的新特性
Anthropic 發佈了 Claude Sonnet 5 模型,性能接近 Opus 4.8,但價格更低。該模型支持 100 萬令牌的上下文窗口和 128,000 最大輸出令牌,且默認啟用自適應思維功能。部分採樣參數被移除,且模型安全性設計使其在網絡安全任務上能力較弱,從而避免了美國政府的限制。
曾打造撲克AI的DeepMind三人組現為量化對沖基金創造收益
由三位前DeepMind研究員創立的捷克布拉格AI實驗室EquiLibre Technologies,現估值超過5億美元。該團隊曾開發撲克AI,目前正利用其技術為量化對沖基金帶來盈利。
谷歌NotebookLM新增TikTok風格AI視頻總結研究筆記功能
谷歌的NotebookLM為用戶提供了一種新的筆記總結方式:TikTok風格的60秒垂直AI視頻。該功能現向Google AI Ultra和Pro訂閱用戶推出,能夠基於上傳的資料生成帶有AI藝術和旁白的短視頻,豐富了用戶與研究內容互動的形式。
在AWS上推出Claude Sonnet 5:Anthropic最強大的Sonnet模型
Anthropic最新一代最先進的Sonnet模型Claude Sonnet 5現已在Amazon Bedrock和Claude平臺上提供。該模型在編碼、智能代理和日常專業應用中表現出頂級智能,且保持Sonnet系列的價格優勢。
ScarfBench:用於企業Java框架遷移的AI代理基準測試
IBM研究團隊發佈了ScarfBench,這是一個針對企業Java框架遷移的AI代理基準測試平臺。該平臺旨在評估和比較不同AI代理在遷移任務中的表現,推動企業軟件現代化進程。
Netflix 在《旺卡的金票》真人秀中使用 AI 生成的吉恩·懷爾德聲音
Netflix 即將於9月23日推出真人秀節目《旺卡的金票》,節目中使用了由 AI 生成的吉恩·懷爾德配音。Netflix 與 AI 音頻公司 ElevenLabs 合作,並獲得了懷爾德家族的授權,此前他們也曾為邁克爾·凱恩和斯坦·李的聲音製作 AI 復刻。該真人秀延續了 Netflix 以虛構故事為基礎製作真人競賽節目的趨勢。
NVIDIA BioNeMo Agent 工具包助力 Claude Science 為生命科學研究者加速 AI 應用
NVIDIA 推出了 BioNeMo Agent 工具包,結合 Anthropic 的 Claude Science 平臺,為生命科學研究者提供加速的 AI 計算能力。該工具包基於 NVIDIA 多年來構建的 GPU 加速計算堆棧,支持更復雜的科研工作流程和更快的迭代。
SkillOpt:將代理技能作為可訓練參數
微軟研究院提出了SkillOpt方法,將AI代理的技能編輯轉化為訓練過程,從而無需更改模型權重即可提升代理行為的可靠性。該方法解決了傳統手動修改技能無法保證改進的問題。
在 Amazon Bedrock AgentCore 上使用 AG-UI 協議構建 AI 代理的生成式用戶界面
本文介紹瞭如何將 AG-UI 集成到 Fullstack AgentCore 解決方案模板(FAST)中,以構建基於 Amazon Bedrock AgentCore 的交互式代理前端。文章還展示了 CopilotKit 如何擴展該方案,實現生成式用戶界面、共享狀態和人機交互,全部部署在 Amazon Bedrock AgentCore 上。
使用 Amazon Bedrock 和 LLM 網關實現彈性模式
本文介紹了五種在 AWS 上構建彈性生成式 AI 應用的實用模式,涵蓋從 Amazon Bedrock 原生功能到多模型編排的 LLM 網關。這些模式解決了實際問題,如流量激增時的配額耗盡、通過地理分佈提升可用性,以及多租戶環境中的“噪聲鄰居”問題。
使用 Amazon Bedrock 構建貨運物流的雙語命名實體識別系統
本文介紹了利用基於令牌的蒸餾技術構建雙語命名實體識別(NER)系統的技術方法、經驗教訓及部署架構。該方案基於 Amazon Bedrock 的知識蒸餾能力,適用於面臨類似雙語 NER 挑戰的貨運物流場景。
微調Amazon Nova模型以實現精準的電子郵件數據提取
本文介紹瞭如何使用Amazon SageMaker AI對Amazon Nova模型進行微調,以識別特定數據模式,區分相似字段,並更高效地處理信息。該方法實現了高達94.77%的提取準確率,同時降低了50%的成本。
開始使用 Nano Banana 2 Lite 和 Gemini Omni Flash 進行開發
Google DeepMind 推出了 Nano Banana 2 Lite 和 Gemini Omni Flash 兩款產品,旨在為開發者提供更便捷的構建工具。該發佈有助於推動 AI 硬件和軟件的結合,促進相關應用的開發。
問答:當今的智能代理AI是什麼,我們希望它成為什麼?
計算機科學家Phillip Isola剖析了智能代理AI的工作原理,並探討了這一快速發展的技術未來可能的發展方向。文章旨在澄清相關炒作,提供對智能代理AI的深入理解。
Libby將推出AI內容過濾功能
OverDrive旗下的電子書借閱應用Libby計劃引入AI內容控制功能,允許讀者選擇過濾AI生成的書籍內容。此舉旨在應對數字出版行業即將面臨的大規模AI生成書籍衝擊。新功能將幫助圖書館用戶更好地管理和篩選閱讀內容。
NVIDIA 推出的推理軟件堆棧實現最低令牌成本
隨著企業從AI試點轉向大規模生產,基礎設施決策重點從芯片峰值規格轉向每令牌成本。NVIDIA聯合設計的GPU、CPU、網絡和系統,以及廣泛的開源生態系統,助力實現每美元、每瓦特和延遲目標下的最高令牌效率。
為什麼專業化是不可避免的
本文探討了人工智能領域中專業化趨勢的必然性,分析了不同應用場景對模型和技術的具體需求。文章強調了專注於特定領域能夠提升AI系統性能和實用性的原因。
進入Omniverse:利用合成數據和微調提升視覺AI代理準確性的三種工作流程
本文介紹瞭如何通過NVIDIA Omniverse和OpenUSD的最新技術,使用合成數據和微調方法提升視覺AI代理的準確性。文章重點展示了三種具體的工作流程,幫助開發者和企業將視頻數據轉化為工廠中的運營智能。
每日科技快訊:AI“同事”與平流層互聯網
本期《每日科技快訊》介紹了AI代理作為“同事”的概念,強調這些AI工具並非真正的人類員工。此外,報導還涉及利用太陽能驅動的平流層互聯網技術。文章提供了對當前技術趨勢的概覽,幫助讀者瞭解最新的科技動態。
釋放英國下一生產力時代:打造人工智能先驅國家
谷歌英國發布了最新的經濟影響報告,探討如何幫助更多人利用人工智能技術帶來的優勢。報告強調通過推動AI技術普及,促進英國經濟和生產力的提升。
推出 GeneBench-Pro:用於基因組學、生物學和科學研究的 AI 性能基準測試
OpenAI 推出了 GeneBench-Pro,這是一種新的基準測試,旨在評估 AI 在基因組學、生物學和科學研究領域的表現。該基準使用複雜的真實世界數據集,幫助推動相關領域的 AI 研究和應用。
Hugging Face 模型頁面新增展示所有 Eval Ever 評測結果
Hugging Face 在其模型頁面上新增了展示所有 Eval Ever 社區評測結果的功能,方便用戶查看模型的多維度性能表現。該功能整合了來自社區的多種評測數據,提升了模型選擇的透明度和參考價值。
Memora:一種平衡抽象與具體性的和諧記憶表示方法
微軟研究院提出了Memora,一種可擴展的記憶系統,解決了AI代理無法有效記憶和檢索長任務上下文的問題。該系統通過分離存儲內容與檢索方式,實現了在抽象與具體性之間的平衡,提升了任務處理效率。
Tidal 不支付 AI 生成音樂版權費,但不全面禁止
Tidal 發佈了關於 AI 生成音樂的新政策,宣佈從7月15日起對完全由 AI 生成的音樂作品進行標識,但從即日起這類作品將無法獲得版權收益。平臺強調將優先保障由人類創作、演奏的原創作品的版權收益,未明確說明識別 AI 音樂的具體技術手段。
OpenAI 正在為 Codex 推出新硬件設備
OpenAI 將於7月15日發佈一款與其 AI 編碼工具 Codex 相關的新硬件設備。該設備由 OpenAI 與機械鍵盤製造商 Work Louder 合作推出,具備多個可映射按鍵和旋鈕,旨在提升 Codex 的快捷操作體驗。
DiScoFormer:一個用於密度和評分的跨分佈變換器模型
DiScoFormer 是一個由 AllenAI 發佈的變換器模型,能夠同時處理密度估計和評分任務,適用於不同數據分佈。該模型在 Hugging Face 平臺上介紹,展示了其在多任務學習中的潛力和應用前景。
將 Amazon Nova 2 Lite 與 Claude 搭配,實現成本優化的文檔處理
本文介紹瞭如何將 Amazon Nova 2 Lite 與 Anthropic 的 Claude Sonnet 4.6 結合使用,在 Amazon Bedrock 平臺上構建一個兩模型流水線,實現大規模掃描文檔的數字化處理。Nova 2 Lite 負責多模態信息提取,而 Claude Sonnet 4.6 進行空間推理以匹配姓名與人臉,提升處理效率和準確性。
多租戶大語言模型分析與行級安全:我們如何在AWS上構建安全代理
本文介紹了PAR如何構建一個生產級多租戶大語言模型分析系統,通過三層架構實現行級安全,包括AWS SigV4的加密請求籤名、Amazon Bedrock的語義驗證和Split-Plane SQL的程序化數據隔離。每層獨立運作,有效降低了即使在大語言模型被攻破或操控時的跨租戶數據洩露風險。
Anthropic的Claude模型現已在Azure上的NVIDIA GB300 Blackwell Ultra GPU上運行
Anthropic的Claude模型現已在微軟Foundry平臺上正式推出,運行於微軟Azure雲服務中的NVIDIA GB300 Blackwell Ultra GPU。此舉為Azure本地企業提供了構建自主和領域特定AI代理的新途徑,推動企業級智能體的創新和自主化發展。
Ornith-1.0:用於自主編碼的自我搭建大型語言模型發佈
DeepReinforce發佈了首個開源權重模型Ornith-1.0,包含9B Dense、31B Dense、35B MoE和397B MoE等多個變體。該模型基於預訓練的Gemma 4和Qwen 3.5,均為Apache 2.0許可,且在開源模型中編碼性能達到最新水平。用戶反饋顯示該模型在多工具調用的代理任務中表現出色,具備較強的實用價值。
立法者提議禁止AI公司出售您的健康數據
美國參議員伊麗莎白·沃倫和眾議員瑪麗·蓋伊·斯坎倫計劃推出新版《健康與位置信息保護法》,禁止包括AI聊天機器人在內的公司向數據經紀人出售美國人的健康和位置信息。該法案旨在適應AI時代,擴大了對數據銷售的限制範圍,保護用戶隱私。
請教AI專家:什麼是全棧AI?
谷歌專家解釋了全棧AI的含義,以及為何這種方法長期以來一直是谷歌AI工作的基礎。文章深入闡述了全棧方法在AI開發中的重要性和優勢。
Palantir 利用 NVIDIA Nemotron 開放模型為美國政府機構帶來安全 AI
Palantir 推出了一款新的智能引擎,採用 NVIDIA Nemotron 開放模型,專門服務於美國政府機構的需求。該產品強調開放源代碼創新在美國 AI 領域的重要性,結合了安全性和開放模型的優勢。
OpenAI 預覽 GPT-5.6 系列旗艦模型 Sol 及其變體 Terra 和 Luna
OpenAI 正式開始有限預覽 GPT-5.6 系列模型,包括旗艦模型 Sol、適合日常工作的 Terra 以及快速且經濟的 Luna。Terra 性能與 GPT-5.5 相當但成本減半,Luna 則提供最低成本的強大能力。該系列模型將於數週內向公眾開放,定價基於每百萬令牌輸入和輸出計費,並引入更可預測的提示緩存機制。
大衛·奧托被任命為經濟學系主任
大衛·奧托自1999年以來一直是麻省理工學院的教員,他是人工智能與未來工作領域的領先研究者。近日,他被任命為經濟學系主任。
大型語言模型幫助機器人理解模糊指令並聚焦關鍵細節
麻省理工學院提出了一種新方法,利用一個語言模型澄清用戶指令,另一個模型忽略無關信息,從而幫助機器人更好地完成家庭和工廠中的任務。該方法提升了機器人對模糊指令的理解能力和執行效率。
預覽 GPT-5.6 Sol:下一代模型
OpenAI 預覽了 GPT-5.6 Sol,這是一款具備更強編碼、科學和網絡安全能力的下一代模型,並配備了其最先進的安全技術棧。該模型旨在提升多領域的性能和安全性。
一條命令在 Hugging Face Jobs 上運行 vLLM 服務器
Hugging Face 博客介紹瞭如何通過一條命令在 Hugging Face Jobs 平臺上部署和運行 vLLM 服務器。該功能簡化了大規模語言模型的部署流程,方便開發者快速啟動和管理模型服務。
人工智能與責任問題
本文討論了德國一項具有里程碑意義的判決,該判決認定谷歌需對其AI生成的內容中的錯誤承擔法律責任。專家指出,AI代理應被視為部署它們的個人或組織的代理,企業不能以AI出錯為藉口逃避責任,否則將導致不良的商業激勵。
利用人工智能驅動的解釋和實驗理解大腦
研究人員提出了生成因果測試方法,將黑箱模型轉化為明確的假設,並通過掃描儀驗證這些假設,揭示了大腦中具體區域對語言的響應。該方法有助於更深入理解大腦語言處理機制。