1. 颠覆!NVMe直通显存,RTX 3090单卡狂飙Llama 3.1 70B,性能暴涨83倍! (Show HN: Llama 3.1 70B on a single RTX 3090 via NVMe-to-GPU bypassing the CPU)

一款名为NTransformer的高效C++/CUDA推理引擎问世,该引擎能够在一块拥有24GB显存的RTX 3090显卡上运行Llama 70B模型。其核心技术在于通过PCIe总线将模型层分批载入GPU显存,并可选配NVMe直接I/O功能,完全绕过CPU进行数据传输,极大地提升了推理效率。在性能测试中,Llama 3.1 70B模型在采用“分层自适应缓存”和“层跳过”优化后,相较于仅使用mmap(内存映射)的基线方法,速度提升高达83倍。该引擎的三层自适应缓存机制能够根据硬件自动调整缓存策略,优先将模型层驻留在显存中,然后是固定内存,最后是NVMe或mmap作为备用。其中,“层跳过”技术通过余弦相似度校准,能在保持极少质量损失的情况下跳过部分冗余层,进一步加速推理。
原文链接:https://github.com/xaskasdf/ntransformer
论坛讨论链接:https://news.ycombinator.com/item?id=47104667
社区上,一位用户展示了其项目,旨在通过NVMe直接连接GPU,绕过CPU和系统内存,在单张RTX 3090上运行Llama 3.1 70B模型。该项目源于复古游戏实验,作者表示其方法在消费级GPU上可行,专业级GPU效果可能更佳。
MarcLore赞扬了这种将NVMe视为扩展显存的巧妙方法,认为它通过DMA解决了内存层级瓶颈,并提出与苹果M系列芯片统一内存方案(M4 Max可容纳70B模型但吞吐量较低)进行基准测试。对此,fabifabulous指出NVMe远慢于RAM,而3abiton提到llama.cpp早已有类似GGUF文件的功能。项目作者xaskasdf表示将用M3芯片进行测试。
另一位讨论者01100011设想使用M.2接口的DRAM(RAM盘)作为模型溢出存储,以释放CPU内存。javchz对此表示赞同,并惋惜英特尔傲腾技术的未普及。xaskasdf计划尝试傲腾驱动器,但jonassm指出傲腾擅长低延迟而非带宽,而带宽可能是当前瓶颈。lmeyerov将此与之前使用GPUDirect Storage加速日志分析的经验联系起来,展望其在LLM领域的应用。ElectricalUnion和bhewes则讨论了Compute Express Link (CXL) 作为M.2 DRAM的替代方案,及其在大带宽和内存一致性方面的潜力。
然而,randomtoast评论称0.2 token/秒的速度不足以实现交互,认为对于多数用例,一个常驻显存的良好量化8B或13B模型能提供更好的延迟与质量平衡。
2. Taalas硬核突破:LLM告别内存墙,推理狂飙十倍速 (How Taalas “prints” LLM onto a chip?)

一家名为Taalas的初创公司近日发布了一款突破性的专用集成电路芯片,该芯片能够以每秒17,000个令牌的推理速度运行Llama 3.1 8B大型语言模型(采用3/6位量化)。这一速度相当于每秒生成约30页A4纸的内容,远超当前主流推理系统的性能。Taalas声称,与基于图形处理单元的推理系统相比,其芯片的拥有成本降低了十倍,功耗减少了十倍,推理速度也提升了约十倍。这一显著的性能提升得益于其独特的硬件设计理念。传统的图形处理单元在处理大型语言模型时,面临着“冯·诺依依曼瓶颈”或“内存墙”的挑战。大型语言模型由多层顺序网络组成,每层都包含大量的权重矩阵。图形处理单元在推理过程中,需要不断地将模型权重从显存或高带宽内存中取出,进行计算,再将中间结果存回显存,这个反复的数据传输过程耗时且耗能,严重限制了推理速度。
原文链接:https://www.anuragk.com/blog/posts/Taalas.html
论坛讨论链接:https://news.ycombinator.com/item?id=47103661
社区讨论了Taalas如何在芯片上“打印”大型语言模型(LLM)。核心观点围绕着模型量化和硬件实现。
有讨论者指出,通过块量化技术,可以将大量的模型系数压缩到极少的晶体管数量,使得将LLM集成到芯片上变得可行。例如,将80亿参数的模型系数打包进530亿晶体管,平均每个系数仅需约6.5个晶体管。这种方法可以大大减少硬件面积。
关于具体的硬件实现,有评论者提到了将PyTorch模型转换为VHDL(一种硬件描述语言)的可能性,并有人分享了将PyTorch编译成Verilog的早期研究。
此外,讨论中也触及了模型的精度损失问题,提到模型在经过强量化(如3比特)后可能出现性能下降。也有人指出,实现模型并不一定需要直接用晶体管存储每一比特,可能存在更高效的存储方式。
部分评论者对FPGA(现场可编程门阵列)在这一领域的应用表示关注,但也有人指出,当前最大的FPGA在规模上仍不足以完全支持这些大型模型的设计,且成本高昂。整体而言,社区对这一技术方向表现出浓厚兴趣,并探讨了其可行性、潜在挑战以及相关的技术细节。
3. 888KB掌上AI助手:ESP32上的“zclaw”革命 (zclaw: personal AI assistant in under 888 KB, running on an ESP32)

zclaw是一款专为ESP32系列微控制器设计的最小巧的人工智能个人助理,以C语言编写,旨在实现极低的固件占用。该项目严格控制其固件总容量在888千字节以内,这一预算包含了zclaw核心逻辑、ESP-IDF/FreeRTOS运行时环境、Wi-Fi/网络功能、传输层安全(TLS)/加密模块及证书捆绑等所有组件。zclaw支持通过自然语言处理实现任务调度、通用输入输出(GPIO)控制、持久化内存以及自定义工具的组合,极大地拓展了ESP32在智能应用中的潜力。用户可通过Telegram或托管的网页中继与zclaw进行交互,其功能包括支持时区感知的每日、周期性及一次性任务调度,以及内置和用户自定义工具。它还具备安全的GPIO读写控制、跨重启的持久化内存,并提供中立、友好、技术化、风趣等多种个性化预设。在大型语言模型服务提供商方面,zclaw支持Anthropic、OpenAI和OpenRouter。
原文链接:https://github.com/tnm/zclaw
论坛讨论链接:https://news.ycombinator.com/item?id=47100232
关于zclaw项目的讨论主要集中在其作为个人AI助手的潜力,以及在ESP32微控制器上运行的优势和局限性。
一些用户对zclaw是否包含本地LLM表示疑问,确认其主要功能是作为API的“包装器”,默认连接OpenAI。
核心讨论围绕在ESP32上运行AI代理的“始终在线、零维护”特性展开。有观点认为,与需要持续维护的Linux系统相比,ESP32的简单性和可预测的故障模式使其成为更可靠的部署目标,因为微控制器本质上是“自愈”的,没有复杂的包管理器或内核升级问题,每次重置都能恢复到已知状态。
然而,也有人指出,将AI代理功能转移到ESP32并连接到云API,反而增加了互联网连接、无线网络故障以及云服务中断等额外的故障点,并未根本上减少问题。
此外,关于ESP32的ADC(模数转换器)的工程性讨论也出现,有人认为其“挑剔”但可以通过专业知识使其正常工作,并提及ESP32作为早期拥有自研ISA并取得成功的芯片的独特性。
4. 国产芯片“价格战”突围,长鑫存储腰斩式定价震动韩系霸权 (CXMT has been offering DDR4 chips at about half the prevailing market rate)

在全球存储芯片竞赛中,中国厂商正以惊人的速度“破圈”。长鑫存储(CXMT)近期在 legacy DRAM 领域祭出大手笔,其 DDR4 芯片价格仅为市场价的一半,引发业界震动。受全球供应短缺影响,DDR4 合约价一年内飙升逾 8 倍,长鑫的定价策略极具杀伤力,已吸引惠普、戴尔等巨头进行质量测试,华硕和宏碁也纷纷寻求合作。
这种“以量换市”的策略背后是强大的产业韧性。长鑫不仅在成熟工艺上站稳脚跟,更积极向高端攀升,其上海工厂正将约 20% 的产能转产 HBM3 芯片,预计明年实现量产。与此同时,长江存储(YMTC)在 NAND 闪存领域也势头强劲,全球市场份额首次突破 10%,并计划在武汉三期项目中进一步布局 DRAM 产能。
面对中国企业的全面进攻,韩国存储巨头正陷入两难。虽然三星和 SK 海力士在 HBM4 领域保持领先,但其超过半数的产能仍集中在通用产品。中国厂商正通过成熟市场的利润反哺前沿研发,逐步蚕食韩系厂商的盈利根基。这场从低端渗透到高端突围的变革,正重塑全球半导体竞争格局。
原文链接:https://www.koreaherald.com/article/10679206
论坛讨论链接:https://news.ycombinator.com/item?id=47101171
社区中关于中国CXMT公司以市场价一半出售DDR4芯片的讨论,聚焦于中国半导体产业的策略与影响。有评论者认为,AI繁荣推高了NAND和DRAM价格,而中国芯片制造商的崛起,可能促使其采取激进倾销策略,以低于成本价排挤竞争对手,尤其在DRAM市场。该评论预测,中国数十年来由国家主导的半导体投资,即便曾被质疑效率,也可能即将带来行业主导地位,类似于电动汽车领域。
另有评论者强调了五年规划在长期战略实现上的优势,认为其超越了季度性盈利的短视。然而,随即有声音引用“大跃进”等历史事件,警示宏大五年规划可能带来的灾难。对此,有评论者承认“大跃进”和“独生子女政策”是中国中央计划的失败案例,源于粗劣科学与有效中央权力的结合。但该评论者也指出,不应仅凭历史失败评判当下,并建议关注中国近期五年规划(如第十二、十三、十四个)的成就。最后,有评论者反思,短期的逐利行为同样可能付出巨大代价,引发了对不同经济模式优劣的深层思考。
5. 社交网络异化:从连接到“注意力媒体” (Attention Media ≠ Social Networks)

2026年1月20日,苏珊·帕尔撰文指出,如今的社交网络已不再是真正的社交平台,而是演变成了“注意力媒体”。她回顾了近二十年前社交网络的兴起,当时用户通过关注认识或喜欢的人来获取更新,通知也真实反映了互动。然而,从2012年至2016年间,情况发生了变化,无限滚动和虚假通知的出现,使得平台从服务用户转向服务自身,优先推送无关紧要的内容,而非用户真正关心的人的动态。用户的关注点被算法操纵,时间线上充斥着陌生人的信息,而非朋友的分享,这使得用户体验变得嘈杂且失焦。作者因此放弃了这些平台,转而发现了Mastodon。她认为Mastodon保留了早期社交网络的特点,用户可以自由选择关注对象,接收到的信息是基于个人选择而非系统为了攫取和变现注意力而推送的内容,这让她找回了早期社交网络的平静与可预测性,并希望其能保持这种状态。
原文链接:https://susam.net/attention-media-vs-social-networks.html
论坛讨论链接:https://news.ycombinator.com/item?id=47110515
社区讨论了“Attention Media ≠ Social Networks”文章,焦点在于Facebook的“Feeds”功能作为真正社交网络的潜力。一位用户指出,Facebook隐藏的“Feeds”页面仅显示朋友和关注内容,若设为默认首页,将是理想社交体验,但Meta在内容审核和数据隐私上不可信赖。另一用户仅用Facebook的市场和群组买便宜货。资深用户惊喜发现“Feeds”后,希望设为默认或书签URL,并建议用浏览器取代原生App。有人吐槽iOS Safari加载URL会跳转主页面,另称300位好友中内容稀少,多为无关关注页和广告,仅见祖母狗帖。欧洲用户提到付费无广告选项可用。WeChat Moments被赞为类似纯社交功能,仅显示联系人帖子,美国账号无广告,评论仅限自家联系人可见。整体呼吁简化界面、减少算法推送和广告,提升用户控制。
6. 掌控AI代码:我的“规划先行”工作流 (How I use Claude Code: Separation of planning and execution)

一位开发者分享了他使用人工智能辅助编码工具Claude Code的独特工作流程,该流程与大多数开发者直接生成代码的模式截然不同。其核心原则是将“规划”与“执行”严格分开,即在人工智能生成任何代码之前,开发者必须先审查并批准一份书面计划。这一方法能有效避免无谓的努力,确保开发者掌控架构决策,并以更少的计算资源获得显著更好的结果。该工作流程分为几个关键阶段:首先是“研究”阶段,开发者要求Claude Code深入理解相关代码库,并将研究成果以持久化的Markdown文件形式记录下来,而非简单的口头总结。开发者通过明确的指令,如“深入理解”、“详细了解”、“探究细微之处”等,确保AI进行彻底而非表面化的阅读。这份Markdown文档作为开发者的审查依据,用于验证AI是否真正理解了系统,并在计划阶段出现错误之前纠正误解。
原文链接:https://boristane.com/blog/how-i-use-claude-code/
论坛讨论链接:https://news.ycombinator.com/item?id=47106686
社区关于使用Claude Code分离规划与执行的讨论,核心在于提升大型语言模型(LLM)代码生成的可靠性。有参与者指出,规划的关键在于迫使LLM在编码前显露其对架构、约束和不变量的隐性假设,因为LLM的失败常源于这些假设而非语法,书面计划因此成为调试这些假设的平台。
另一种提升LLM表现的策略是引入子代理,如规划、实现和审查代理,通过明确职责辅助LLM推理。尽管此法受关注,但也有人认为其与文章倡导的“一次长会话连续上下文”的使用建议相悖。
关于子代理与顺序提示的效率,有参与者质疑其必要性,认为可能仅是编排差异。但支持者反驳称,子代理能有效避免“上下文污染”,确保关注点分离,从而提升执行质量并可能降低token成本。
讨论还触及LLM的自主性。有评论者认为,若LLM需频繁人工干预,则仍是“玩具”,并建议若代理能自我纠察,供应商应将其内置。这涉及对LLM的信任及AI技术可能面临的“幻灭谷”阶段,预示着未来成本和商业模式的调整。此外,提供完整的用例流程描述被视为防止LLM产生非预期行为的关键。然而,也有人警示,显露假设本身可能像添加调试语句一样,反而改变LLM行为,导致问题“海森堡”式消失。
7. 重聚经典,再战联机 (Gamedate – A site to revive dead multiplayer games)

GameDate 平台现已上线,旨在帮助玩家寻找和加入已过时或小众游戏的联机对战,以及复古游戏的在线联机。用户无需注册账户即可使用该服务,并且可以自行安排游戏时间。
论坛讨论链接:https://news.ycombinator.com/item?id=47096167
Gamedate是一个旨在复活已停止运营的多人游戏的网站,在社区中引发了热烈讨论。有评论者回忆起2011年一个类似的Reddit小组r/playdate,该小组最初也致力于寻找游戏伙伴,并赞赏Gamedate以其酷炫的UI重新唤起了这一概念。
用户对网站的UI/UX设计意见不一。一些人喜爱其复古、受Steam启发的界面,认为它清晰、快速且直观,信息密度高,是现代设计的一股清流;但也有人认为其对比度不足,例如深红色“LIVE”文字在军绿色背景上显得不清晰,虽然也有用户认为其可读性良好并建议尝试不同主题。同时,有评论者质疑了允许匿名发帖的决策。
除了复活“死游戏”,讨论者还指出Gamedate的用途更广。例如,有人发现网站上列出了尚未发布的“Deadlock”游戏,认为它对于固定玩家群体的游戏同样有益。一位用户分享了他名为“GameFlock”的类似想法,并建议Gamedate的创建者应积极推广,将其视为一个具有潜在价值的匹配算法。他提出“泵水”策略:通过联系《网络创世纪》、《部落2》、《魔兽世界经典版》和《命令与征服:将军》等现有活跃社区,帮助新玩家入门,从而积累用户基础,并希望玩家能进而参与其他游戏,带动整个平台的发展。此外,有用户分享了对《杀手》系列已关闭多人模式的怀念,凸显了玩家对已逝游戏情感的依恋。也有评论者误以为网站旨在通过众筹等方式逆向工程并重建服务器。
8. 浮世绘“以图搜图”:解锁你的艺术寻宝之旅 (Japanese Woodblock Print Search)

日本浮世绘搜索平台近日推出一项革命性功能,用户可通过拍摄现有浮世绘作品的图片来搜索相关图像,并能在一系列作品集之间查找相似的版画。该平台旨在通过提供更优质的数据和更强大的搜索能力,为用户带来前所未有的体验。未来,平台还将增加数以万计的图像以及更先进的搜索功能,并鼓励用户订阅以获取更新通知。此次更新内容涵盖了浮世绘发展的多个重要时期,从早期(1700年代初至中期)的奥村正信、菱川师宣等艺术家,到彩色印刷的诞生(1740年代至1780年代)的胜川春章、铃木春信等,再到浮世绘的黄金时代(1780年至1804年)的喜多川歌麿、东洲斋写乐等大师的作品。
原文链接:https://ukiyo-e.org/
论坛讨论链接:https://news.ycombinator.com/item?id=47107781
一位开发者分享了他创建的日本木版画搜索网站 ukiyo-e.org,该网站利用计算机视觉技术整合了各大博物馆和大学的藏品。该网站受到了社区成员的广泛赞誉,许多人表示这是一个宝贵的资源。
有用户分享了自家收藏的葛松士郎(Kasamatsu Shiro)的版画,并对能在网站上找到同系列的其他作品表示惊喜。开发者也提供了葛松士郎版画的在线目录链接,进一步丰富了信息。
另一位社区成员则对木版画这一艺术形式表示喜爱,并分享了祖父母赠予的带有精美版画图案的日本秘密盒,询问了如何获取新网站的更新信息。开发者表示将在其网站首页的邮件列表中发布新网站的测试消息,并分享了新网站价格比较功能的截图,获得了积极反馈。
其他用户也对该网站表示感谢,并表示找到了自己父亲的版画,也有人分享了与日本版画制作相关的直播和YouTube频道,进一步拓展了社区的讨论内容。
9. 布隆过滤器:双层精滤,极致加速 (Two Bits Are Better Than One: making bloom filters 2x more accurate)

布隆过滤器作为一种概率型数据结构,能显著提升SQL查询的执行速度。它主要用于判断一个元素是否“肯定不在集合中”,允许出现假阳性(误报)但绝无假阴性(漏报),其核心优势在于极低的查找延迟,通常仅需数个CPU周期。在数据库工程中,布隆过滤器是优化哈希连接的关键工具,旨在避免对大量探针侧数据进行不必要的解压缩和哈希表探测。Floe公司在其系统中创新性地应用布隆过滤器,并在两个关键环节发挥作用:一是在存储引擎中数据解压缩之前,二是在哈希连接的探针阶段探测哈希表之前。以处理100亿行探针侧数据、仅有1%匹配的场景为例,若无过滤,99%的行将被不必要地解压缩和探测。Floe的解决方案是,在构建阶段利用构建侧数据填充布隆过滤器,随后将此只读过滤器下推至存储引擎。存储引擎首先仅解压缩布隆过滤所需的列(例如单列),对每个值进行检查,并标记那些确定不匹配构建侧的值。这种“首轮过滤”机制能够大幅减少后续处理量。
原文链接:https://floedb.ai/blog/two-bits-are-better-than-one-making-bloom-filters-2x-more-accurate
论坛讨论链接:https://news.ycombinator.com/item?id=47046070
一篇关于通过“两位”方法提高布隆过滤器准确性的文章引发了社区的讨论。一位评论者指出,文章可能是在以一种迂回的方式重新发明“块布隆过滤器”。他强调,块布隆过滤器通过将哈希操作分为块索引和块内位定位,能有效解决传统布隆过滤器的缓存局部性问题,显著提升查询性能,仅带来10-15%的空间开销,建议将其作为默认选择。
另一位评论者则认为,文章作者可能没有进行充分的文献回顾,因为哈希函数数量与假阳性率(FPR)之间的关系以及缓存阻塞、寄存器阻塞等技术都是成熟的方法。他还提到,即使是使用单一哈希函数生成多个索引位置的策略也已有先例。此外,他对文章中采用原子操作构建过滤器的方式表示不解,建议采用批处理、分区锁定和批量插入等更高效的方法。
在此基础上,有讨论者对前者的博客文章表示赞赏,但同时提出了优化建议,例如在运行时哈希计算中,使用乘法加位移操作替代通常较慢的模运算,尤其是在非Apple芯片上。他还提及了针对块布隆过滤器的SIMD(单指令多数据)变体,并分享了自己使用Java实现的寄存器级布隆过滤器。关于批量插入,该讨论者也认同其对大量键的效率,但也指出其对不同过滤器类型和规模的适用性有所不同。
10. 重返 FreeBSD:告别低效,迈向稳定(第一部分) (Back to FreeBSD: Part 1)

几十年前,将文件传输到服务器并使其可通过互联网访问的主要方式是使用文件传输协议,例如通过Total Commander、FileZilla或FAR Manager等工具手动复制文件和文件夹。更高级的用户则偏好使用安全拷贝(scp)或远程同步(rsync)等标准Unix工具,但本质上过程是相同的。这种方法并非高科技,并且确实奏效。然而,一个普遍的问题是不可避免的“失误”,例如误点击、意外删除或在错误位置编辑文件,这对于独立开发者来说问题不大,但对于负责多个客户项目的开发者来说则可能带来灾难。早期常见的后端设置是多个网站共享同一个Apache Web服务器实例,它们共享相同的生命周期,一旦Apache宕机,所有网站都会受到影响。系统依赖项的任何故障都会导致所有服务崩溃。此外,当流量激增时,一个表现优异的网站会消耗所有可用资源,导致同一服务器上的其他网站因资源不足而运行缓慢。
原文链接:https://hypha.pub/back-to-freebsd-part-1
论坛讨论链接:https://news.ycombinator.com/item?id=47108989
社区关于“重回 FreeBSD”的讨论,核心在于Linux如何在操作系统生态中占据主导,以及BSD系统的定位。
一位评论者指出,Linux的成功并非单纯的技术优势,而是得益于快速决策、GPL许可证传播及红帽、IBM等企业支持,随后谷歌等巨头的数据中心需求进一步巩固了其地位。他回忆1990年代中期Linux的硬件驱动支持更广。例如,1994年尝试BSD时,社区对其普通PC配置不屑,建议购买昂贵SCSI硬件解决IDE兼容问题,而Linux迅速提供了软件方案。此外,Linux在声卡、软猫等设备驱动上也更具优势。他发现,到1998年FreeBSD与当时流行的Unix系统无本质区别,未能提供Linux所不具备的独特优势。
另一位评论者对此表示赞同,认为FreeBSD虽好,但未能提供Linux无法实现的功能。他观察到,当前许多BSD用户是出于习惯、偏好或特立独行。他强调,除少数硬件特例,任何现代类Unix系统都能完成任务,不同Linux发行版差异亦常被夸大。选择更多基于个性和熟悉度,而非客观技术考量。
首位评论者补充说,他从Slackware到Fedora,虽偶尔尝试新发行版,但只要Fedora满足需求,便无意切换,不理解频繁更换发行版的用户,认为这可能与年龄和生活阶段有关。