使用DSPy评估与优化Datasette Agent的SQL系统提示
本文介绍了如何利用DSPy框架来评估和改进Datasette Agent的SQL系统提示。DSPy作为一个用于优化语言模型提示的编程框架,能够帮助开发者通过系统化的方法测试不同提示策略对Datasette Agent生成SQL查询性能的影响。通过该方法,可以更客观地衡量提示的有效性,并基于评估结果迭代优化提示设计,从而提升Agent处理自然语言到SQL转换的准确性和可靠性。
共 100 条 · 第 2/3 页
本文介绍了如何利用DSPy框架来评估和改进Datasette Agent的SQL系统提示。DSPy作为一个用于优化语言模型提示的编程框架,能够帮助开发者通过系统化的方法测试不同提示策略对Datasette Agent生成SQL查询性能的影响。通过该方法,可以更客观地衡量提示的有效性,并基于评估结果迭代优化提示设计,从而提升Agent处理自然语言到SQL转换的准确性和可靠性。
ctx是一个Rust命令行工具,旨在解决编码代理缺乏长期记忆的问题。它将存储在用户机器上的代理对话记录和日志导入结构化的SQLite数据库,并通过排名文本匹配进行搜索,整个过程完全本地化,无需图数据库或托管记忆服务。开发者通过让代理在开始任务前搜索历史记录,可避免重复错误,例如当测试运行因磁盘空间不足失败时,代理能快速找到先前的工作方案。此外,ctx还能生成简洁的会话记录供分享,并支持利用历史数据递归改进代理驱动的软件开发生命周期。
zkGolf项目通过形式化验证与大型语言模型(LLM)结合,探索零知识证明(ZKP)电路的自动化优化。团队首先在Lean中为SHA-256压缩编写形式化规范,引导LLM生成并优化R1CS算术化电路,以降低约束数量为目标。LLM在优化过程中能自主提出方案、验证正确性,并在无法证明时回溯调整,最终得到了超越当前人工优化水平的SHA-256压缩电路。该项目现已开放为竞赛平台zk.golf,旨在推动形式化验证电路的发展,降低ZKP应用门槛并提升效率。
本文探讨了人工智能如何继承并发展精益六西格玛和业务流程管理等传统运营框架,以应对复杂运营挑战。传统方法强调统计严谨性、质量控制和端到端的跨部门工作流映射,提供了可重复的优化路径。AI 技术通过数据驱动分析、自动化与智能决策,有望为混乱、庞杂的运营带来新的清晰度与结构化秩序,推动运营效率与质量的持续提升。
据报道,OpenAI CEO Sam Altman 已提议将公司 5% 的股权捐赠给一个美国主权财富基金。此举旨在重启关于让公众分享人工智能繁荣所带来的财务收益的讨论,探索一种让社会更广泛地从 AI 技术进步中获益的潜在机制。
开发者 Rafal-qa 在 GitHub 上开源了 Slopo,这是一个命令行工具,旨在利用嵌入模型检测代码中的非精确重复片段。项目在 Hacker News 上获得 80 点热度并引发 35 条评论。该工具通过语义相似度分析,能够识别功能相似但写法不同的代码块,帮助开发者优化代码结构、减少冗余。
证监会已同意宇树科技股份有限公司在科创板首次公开发行股票的注册申请。同时,针对近期Meta对外出售算力导致A股科技股大跌的现象,多位业内人士指出,市场对算力过剩的解读属于误读,此举实际标志着AI基础设施商业模式的成熟,而非AI资本支出的结束。此外,抖音电商上线了‘肖像保护功能’,利用AI模型主动识别并拦截交易类侵权内容;北京君正表示DRAM价格预计在三季度继续上调。
微软宣布成立一家专注于人工智能部署的新公司,并承诺投入25亿美元资金。此举使微软加入了亚马逊、OpenAI和Anthropic等科技公司的行列,这些公司均已设立了专门负责AI模型落地应用的实体或部门。新公司的成立旨在加速和优化微软AI技术在企业及产品中的实际应用与规模化部署。
联想天禧AI推出定制短剧《我的AI搭档之“禧”从天降》,将网文中的“系统流”爽文题材与职场现实结合。该剧讲述职场新人叶天在获得天禧AI后,借助AI Agent能力处理营销方案、恢复被删PPT、实时翻译等任务,实现逆袭。短剧通过情景化叙事,直观展示了AI Agent如何理解用户历史数据、自动备份、多端协同等核心功能,将技术概念转化为普通用户可感知的办公助手。剧中天禧AI的离线守护、企业云备份等功能,对应了其零部署、端云协同的产品特性。
开发者因现有AI助手OpenClaw在API集成与安全性上的不足,创建了开源替代品Valmis。Valmis通过代理系统设计解决安全问题:将AI代理运行在Docker容器中,仅能通过凭证ID请求主机执行API调用,主机完成实际请求后返回JSON数据,此设计甚至允许在断开容器网络访问的情况下工作。目前该系统已支持超过100款商业与生产力应用集成,包括Google Workspace、Slack、Notion等。Valmis还提供自动化工作流功能,支持通过cron、webhook或应用事件触发多步骤工作流,并包含条件与循环控制。
人工智能正从消费级应用向工业核心领域渗透,在物理基础设施、运营连续性与安全至关重要的行业中,AI正演变为核心操作层。文章聚焦于工业系统,探讨AI如何利用持续产生的运营数据流,在远离公众视线的场景中发挥关键作用,其影响深远,远超出聊天机器人或图像生成器等大众熟知的应用范畴。
Ben Guez利用OpenClaw、Claude代码和Instagram试用功能,开发了一个自动化脚本,成功在Instagram上吸引了大量潜在的国际约会对象。该脚本通过自动化操作,帮助用户在社交媒体上扩展社交网络,展示了AI工具在个人社交场景中的应用潜力。
AReaL 2.0作为强化学习基础设施正式开源,旨在与社区共同推进自演进智能体生态的发展。该项目专注于为智能体提供持续学习和自我优化的能力,通过构建可扩展的RL框架,支持智能体在复杂环境中实现长期性能提升与自主演进。
36氪AI工具测评团队发起「抢跑营」招募,旨在搭建一个高密度碰撞的交流平台,以打破AI工具使用中的信息茧房。该社群面向已使用AI工具产出成果或愿意持续学习迭代的用户,鼓励成员分享真实、细节化的使用体验与心得,而非泛泛而谈。加入者将获得官方产出的深度资料(如工具对比报告、避坑指南)、与各行业从业者交流具体使用场景(如指令、参数)的机会,以及平台资源支持(如测评曝光、项目共创与投资人链接)。社群强调真实交流与积极共创,不欢迎仅将AI作为谈资或长期潜水的用户。
一款完全未使用英伟达硬件的万亿参数模型在海外开发者社区引发关注,成为热门选择。该模型在OpenR排行榜上表现突出,展示了在非英伟达硬件生态下实现大规模模型训练与推理的可行性。这一进展为开发者提供了更多硬件选择,可能推动AI基础设施的多元化发展。
推荐理由:我认为所有关注算力成本和硬件锁定的AI开发者都该看看这个——它证明了不用英伟达也能跑万亿模型,直接抄作业就能打破生态依赖。
科大讯飞举办了智能交互生态发布会,宣布对其三大平台进行同步升级。此次发布聚焦于智能交互技术的生态构建与平台能力提升,具体升级细节未在摘要中披露,但表明公司在持续推进其AI产品与服务的迭代。
量子位预告,AI企业家论坛将于7月17日至7月20日举行,并已公开首发阵容。论坛将有千亿级实业巨头参与,突袭亮相。活动聚焦AI领域的企业家交流与合作,预计将吸引行业关注。
昆仑万维天工 3.2 版本迎来重磅升级,核心新功能 Skywork Tags 正式上线。该功能旨在让 AI Agent 更深度地融入工作流程,用户可为 Agent 生成专属“工牌”,并将其邀请至飞书、钉钉、企业微信等工作群聊中。此举使得 Agent 能够像人类同事一样,在群聊中接收信息、理解上下文并执行任务,实现“和人并肩工作”的协作模式。此次升级标志着大模型应用正从工具型向协同型 Agent 演进,进一步探索 AI 在具体工作场景中的落地方式。
据《金融时报》报道,OpenAI正考虑向美国政府提供5%的股权,以缓和与特朗普政府的紧张关系并应对公众对人工智能日益增长的担忧。CEO Sam Altman认为,让公众获得公司财务利益是分享AI发展红利的最佳方式。该提议最早于去年初向特朗普提出,按OpenAI最新8520亿美元的估值计算,5%股权价值约426亿美元。此举旨在平衡技术创新与政策监管之间的冲突。
爱范儿报道了一款售价54000元的叠衣服机器人,引发对具身智能产品实用性与市场接受度的讨论。文章以“Seedance时刻”比喻具身智能的突破性进展,探讨该机器人是否代表技术成熟与商业化落地的节点。报道未提供具体产品性能数据,但聚焦于高价位家用机器人引发的价值思考与行业动态。
Gartner近期发布的AI可穿戴设备报告中,钉钉A1录音卡作为案例入选。该报告指出,AI硬件的竞争重点正从参数比拼转向其背后是否拥有真正的企业级AI协作平台。钉钉A1录音卡是钉钉推出的智能硬件,旨在通过AI技术提升会议记录与协作效率,其入选反映了市场对硬件与平台深度融合价值的认可。
印度科技企业家Bhavin Turakhia宣布个人投资3000万美元,启动其第五次创业项目Neo,旨在开发一款集成AI功能的企业软件,直接挑战微软Office和谷歌应用套件。该项目标志着Turakhia在连续创业后再次进军企业软件领域,试图通过人工智能技术重塑办公生产力工具市场。
据报道,ChatGPT 近期出现的一些错误回答,实际上是 Meta 公司委托外包团队进行安全测试的结果。这些测试旨在评估 AI 模型的安全性和鲁棒性,但因其方式引发争议,被指可能干扰正常用户体验。事件揭示了科技公司在 AI 安全测试中的潜在操作,以及外包测试对产品表现的影响。
深圳可立点科技近日完成战略融资,由力合科创领投。公司聚焦“AI+机器人”养老场景,已推出面向居家养老的主动陪伴机器人与联合华西医院研发的GR-150康复助行转运机器人。后者基于SLAM导航与多传感器融合技术,可实现室内自主导航与智能转运。陪伴机器人则集健康监测、情感陪伴、安全巡检于一体,并针对老年人优化了NLP引擎与多模态情感交互。公司核心团队来自清华大学与中国科学院,产品已获部分采购意向,预计2027年逐步实现规模化营收。
硅羽科技(SPARO)在半年内连续完成四轮数亿元融资,投资方包括耀途资本、锦秋基金、阿里巴巴、弘毅投资等。公司成立于2026年2月,专注于通用空中智能,旨在将飞行器从遥控工具进化为能理解环境、自主决策的智能体。其核心技术包括多模态感知、端到端小脑、世界导航模型大脑及灵巧作业与集群协同全栈体系,实现无GPS、弱光等复杂环境下的任务执行。创始人张富为香港大学副教授,曾任大疆高级顾问科学家,团队拥有十余年技术积累。目前公司已积累数十家种子客户,产品布局包括整机和空中智能模块,并计划构建生态基础设施。
早报资讯显示,Apple Watch设计将迎来重大调整,旧款表带可能被淘汰。汽车行业方面,6月车企成绩单出炉,零跑汽车交付量突破9万台,蔚来和小鹏双双站上4万台大关。松下计划未来三年投入约5000亿日元,将业务重心转向AI基础设施。此外,1997年出生的大模型专家孙天祥已加入百度,担任基础模型研发部负责人。
据报道,SpaceX在上市前向投资者展示了一款类似手机的AI设备原型。这一举动可能预示着SpaceX有意拓展无线通信领域。目前具体功能与发布时间尚未公布,但外界猜测其可能与星链网络结合,提供新型通信服务。
演员兼投资人 Ashton Kutcher 宣布将离开其共同创立的 Sound Ventures,并与前 NFX 合伙人 Morgan Beller 共同成立一家新的风险投资公司。Sound Ventures 以其在领先 AI 实验室领域进行集中、高信念的投资而闻名。相比之下,Kutcher 的新基金似乎将专注于支持这些 AI 公司的底层基础设施和能源领域,标志着其投资策略的转变。
Google于2026年6月发布了其最新的AI技术进展与产品更新,涵盖了公司在人工智能领域的多项创新成果。
推荐理由:我认为这篇值得所有关注AI落地的产品经理和开发者看,它直接展示了Google在2026年6月的最新AI产品化思路,可以直接抄作业。
Cloudflare 宣布了一项新政策,要求 AI 公司在 9 月 15 日前将其用于搜索的网页爬虫与用于 AI 训练和智能体的爬虫区分开来。若未遵守,这些爬虫将在许多出版商网站上被默认屏蔽。此举旨在推动 AI 公司为使用出版商内容进行训练付费,保护内容创作者的权益。
Salt 是一门新的系统编程语言,其编译器内置了 Z3 定理证明器。该项目已在 Hacker News 上引发讨论,获得 43 个赞和 42 条评论。开发者旨在通过形式化验证技术,在编译阶段提供更强的正确性保证,可能用于需要高可靠性的系统软件开发。
Google、纽约就业 CEO 理事会及 Urban Assembly 联合举办了一场 AI 峰会,吸引了 150 位教育界与产业界领袖参与。会议旨在探讨人工智能在课堂中的应用前景,共同规划教育领域的 AI 发展方向。
当前主流大语言模型(如Claude、ChatGPT、Gemini)在生成随机数等任务中表现出明显的模式化倾向,例如在1到10之间生成随机数时,首次请求常返回7,后续请求则倾向于3、4、8或9。这种现象揭示了模型训练数据与算法可能导致的“群体思维”局限。一家初创公司正致力于通过技术创新,帮助大语言模型突破这种固有模式,提升其输出的多样性与随机性,以更贴近人类思维的灵活性与创造性。
Venice AI 宣布完成6500万美元的A轮融资,公司估值达到独角兽级别。其CEO Erik Voorhees透露,公司已实现盈利,年化经常性收入超过7000万美元。该平台主打隐私优先的AI服务,目前业务增长迅速。
Google 的 24/7 智能助手 Gemini Spark 现已正式登陆 Mac 平台。此次更新不仅带来了 Mac 版本,还引入了实时追踪功能,并扩展了对更多应用程序的支持。Gemini Spark 作为一款具备自主行动能力的智能助手,旨在为用户提供全天候的自动化服务体验。
推荐理由:我认为Mac用户和效率控值得看:Gemini Spark的24/7自主行动能力加上实时追踪,可能直接改变桌面自动化玩法,开发者也能抄它的多应用支持思路。
Meta正在制定一项云基础设施业务计划,旨在向外部客户出售其AI算力和模型的访问权限。此举将使Meta直接与亚马逊AWS、谷歌云和微软Azure等大型云服务提供商展开竞争。该战略类似于SpaceX利用其星链卫星网络提供商业通信服务的模式,核心是利用公司自身在AI训练和推理过程中可能产生的过剩计算资源,开辟新的收入来源。
Google 推出了六年来首款全新智能音箱 Google Home Speaker,这是其首款“专为 Gemini 设计”的硬件产品,标志着 Google 重新重视智能家居领域。该音箱设计美观,硬件表现良好。然而,内置的 Gemini 助手目前仍处于未完成状态,功能体验尚不完善,未能充分发挥 AI 在智能音箱场景下的潜力。文章指出,尽管硬件清晰展示了 Google 的回归意图,但软件层面的 Gemini 仍需进一步开发才能兑现其承诺。
在经历大规模封号事件后,Anthropic 突然发布了价格更低的 Claude 新模型。此举被视为 Anthropic 意图用 Claude 平台讲述一个更宏大的战略故事,可能旨在扩大用户基础或调整市场策略。具体的新模型定价、性能参数及与封号事件的关联等细节,报道中未详细说明。
飞书引入新型AI智能体,深度集成于工作场景。该智能体不仅能处理复杂的表格数据,还能直接在群聊中被@提及并执行任务,旨在自动化处理各类繁琐的日常工作。其设计理念是将AI作为“住在表格里的同事”,接管重复性高、耗时长的“脏活累活”,以提升团队协作效率。
爱范儿报道,未来用户在地铁等移动场景中也能操作自己的 Agent,实现更便捷的 Vibe Coding 体验。该消息暗示了 AI 代理工具在移动端应用的潜力,可能提升开发者的工作效率与灵活性。