AI也纠结？50米洗车，它会让你开车还是走路？ | Hacker News 摘要 (2026-02-17)

1. AI也纠结？50米洗车，它会让你开车还是走路？ (I want to wash my car. The car wash is 50 meters away. Should I walk or drive?)

AI也纠结？50米洗车，它会让你开车还是走路？

一位名为Kévin的用户在Mastodon平台上分享了一个关于大型语言模型（LLM）的趣闻，他询问了一个看似简单的问题：“我想洗车，洗车店在50米外，我应该走路还是开车？”并要求大家猜测大型语言模型的输出结果。该帖子发布于2026年2月15日，获得了471次赞、15次引用和579次收藏，显示出用户对此话题的广泛兴趣。虽然原始新闻内容并未直接提供大型语言模型的具体输出，但Kévin的提问本身就引发了对人工智能在日常决策辅助方面能力的讨论。在50米的短距离内，从效率、环保和成本等多个角度考量，步行通常是更合理的选择。然而，大型语言模型在处理这类问题时，可能会因为缺乏对用户具体情境（例如天气、个人体力、是否有携带物品等）的全面理解，而给出超出预期的、甚至是不切实际的建议。

原文链接：https://mastodon.world/@knowmadd/116072773118828295

论坛讨论链接：https://news.ycombinator.com/item?id=47031580

一名社区用户通过“洗车，车在50米外，步行还是驾车？”的问题，测试了多个大型语言模型（LLM）的推理能力。他发现，Sonnet、Opus和Gemini 3 Pro能正确建议“驾车”，因需将车开到洗车店。而OpenAI 5.2最初错误地建议“步行”，似乎假定车已在洗车店。在明确“我的车目前在家”后，OpenAI 5.2才给出正确答案，并提出先步行查看排队再驾车的优化建议。这揭示了LLM处理隐含上下文时对指令具体性的高要求。

另一位用户指出，LLM需要明确说明人类交流中不言自明的细节，这是其根本问题。他认为，即便用户能适应，过度指定仍是重大缺陷，预示着复杂场景中可能出现更难诊断的问题。

第三位用户强调，此类例子强化了LLM与人类在“理解”事物上的根本差异，非单纯增训或算力可解。尽管生成式AI功能强大，但这些提醒表明它们并非真正智能，且在缺乏颠覆性变革下，不太可能达到通用人工智能水平。他认为LLM虽有用，但必须对其往往不明显的局限性保持现实认知。

2. 蓝牙泄密：你的设备正在悄悄暴露什么？ (What your Bluetooth devices reveal)

一名技术爱好者利用人工智能辅助开发了一款名为Bluehood的蓝牙扫描器，旨在揭示用户在开启蓝牙功能时可能泄露的信息。此次开发源于对个人隐私的高度关注，以及近期KU Leuven大学研究人员披露的WhisperPair（CVE-2025-36911）蓝牙音频设备漏洞，该漏洞允许攻击者远程劫持耳机，窃听对话并追踪位置，有力证明了蓝牙并非如许多人所认为的那样是无害的信号。该研究者指出，当前社会普遍忽视了蓝牙设备持续广播自身存在的事实，即便用户声称“无隐私可言”，但无意间泄露的信息仍可能被收集。通过在自家办公室被动运行Bluehood，即使不进行连接，也能监测到如送货车辆何时抵达、邻居的日常活动模式、设备间的配对关系，以及特定人员的出行轨迹等信息，而这一切仅需一台配备蓝牙适配器的树莓派或大多数笔记本电脑即可实现。

原文链接：https://blog.dmcc.io/journal/2026-bluetooth-privacy-bluehood/

论坛讨论链接：https://news.ycombinator.com/item?id=47035560

社区中，一篇关于蓝牙设备泄露个人信息的文章引发了热烈讨论。有评论者指出，蓝牙设备常态化广播其存在，这使得个人信息可能被用于画像分析。例如，通过记录经过车辆的Wi-Fi热点名称（如“Audi”、“BMW”），可以推断车辆的通行时间，甚至与车牌号关联实现“去匿名化”。购物中心也可能利用这些信号追踪顾客的店内移动模式。

有讨论者提出，胎压监测系统（TPMS）广播的独有ID是一种更廉价的追踪方式。但也有观点反驳，车辆的车牌号通过摄像头扫描更易追踪，且CCTV配合面部识别技术是更严重的隐私威胁，使得蓝牙追踪显得微不足道。车牌号的读取距离远超TPMS传感器，且一些国家强制车辆安装紧急呼叫模块，进一步降低了车辆隐私。

讨论中还指出，TPMS并非所有车辆都有，一些已改用被动式系统；但轮胎本身可能嵌入RFID标签，提供另一种追踪可能。最后，有评论者强调，许多车载蓝牙/Wi-Fi设备默认包含可识别信息，如同苹果设备默认命名一样，表明公司在默认设置上并未优先保护用户隐私，用户需提高警惕。

3. 开发者怒斥Anthropic：Claude更新隐藏操作细节，安全与效率双受损 (Anthropic tries to hide Claude’s AI actions. Devs hate it)

人工智能公司Anthropic更新了其代码助手Claude Code，旨在简化用户界面，让开发者更专注于代码差异和命令输出。然而，此次更新将文件读取、写入或编辑的详细进度信息折叠，仅显示“读取了X个文件”，而非具体的文件名，引发了开发者的广泛不满。开发者认为，能够看到被访问的文件名对于安全审计、及时发现Claude错误地读取了不相关文件、以及方便地回顾历史操作至关重要。他们指出，即使有快捷键可以展开详细信息，频繁操作也极不方便且影响效率，尤其在处理复杂项目时，了解Claude的上下文信息有助于早期纠错和引导对话。此外，若Claude误入歧途，开发者能及时中断以节省代币消耗，这具有显著的经济效益。Anthropic方面解释此举是为了减少界面噪音，让开发者聚焦核心内容，并建议用户尝试新模式或启用“详细模式”。

原文链接：https://www.theregister.com/2026/02/16/anthropic_claude_ai_edits/

论坛讨论链接：https://news.ycombinator.com/item?id=47033622

在社区讨论中，一些开发者对Anthropic试图隐藏Claude AI操作的行为表示不满。他们认为，了解AI的具体操作至关重要，以便及时发现并纠正其可能出现的错误，例如误读代码库或修改非预期文件。尽管Anthropic推出了“详细模式”作为修复，但许多人认为AI在处理文件时，其操作的透明度应该是基础要求，以确保AI执行的是用户意图而非其自身理解。

有观点认为，Anthropic可能是在为AI代理团队（agent teams）的自主运行设计新的用户体验。在这种模式下，AI将长时间独立工作，关注最终结果而非中间步骤。然而，也有人对此表示担忧，认为AI“失控”的问题尚未解决，对自主AI代理团队能否正确完成任务缺乏信任。

此外，有评论指出，当前AI的“代码协作”实验往往在较新、较简单的代码库中进行。一旦涉及维护多年、拥有大量客户的复杂企业代码库，AI代理可能会制造混乱，这才是AI公司不愿深入讨论的问题。

4. NSA利器Ghidra：揭秘软件的黑匣子 (Ghidra by NSA)

NSA利器Ghidra：揭秘软件的黑匣子

美国国家安全局研发的Ghidra软件逆向工程框架是一款功能强大的分析工具套件，支持Windows、macOS和Linux等多种平台，能够对编译后的代码进行反汇编、汇编、反编译、图形化以及脚本编写等操作，并支持广泛的处理器指令集和可执行文件格式。该框架旨在解决复杂软件逆向工程中的规模化和协作问题，并提供可定制、可扩展的研究平台，以支持国家安全局的网络安全任务。Ghidra已被用于分析恶意代码，深入挖掘潜在的安全漏洞，为网络和系统安全分析师提供宝贵的见解。目前，Ghidra存在已知安全漏洞，用户在使用前应查阅其安全公告，了解潜在影响。安装Ghidra需要Java开发工具包21（64位）和Ghidra发布文件，官方预编译的多平台发布文件命名格式为ghidra_<版本><发布><日期>.zip。用户还可以通过Java或Python开发自定义的Ghidra扩展组件和脚本。

原文链接：https://github.com/NationalSecurityAgency/ghidra

论坛讨论链接：https://news.ycombinator.com/item?id=47011548

社区成员围绕美国国家安全局（NSA）开源的逆向工程工具Ghidra展开热烈讨论。许多人提到了将AI工具应用于Ghidra的趋势。

一位评论者认为，过度依赖AI工具，特别是“为我思考的SaaS”，可能导致思维能力的退化，并以学习数学的类比说明，不经过自身深入思考而依赖捷径，最终会付出巨大的代价。他强调，即使是AI专家使用AI辅助，也并非完全放弃自身思考。

另一位评论者将此与反汇编ARM汇编语言进行类比，认为使用反编译工具而非深入理解汇编代码，也是一种“偷懒”的方式。

有观点指出，AI的出现让一些人感到自己的专业领域受到了冲击，并将其归因于某个YouTube网红的推广。

但也有人认为，将思考任务交给AI并非完全“袖手旁观”，而是一种思考过程的辅助。这种观点引发了关于“二分法”的争论，有人认为AI的应用并非非黑即白，而是存在一个光谱。

还有评论者分享了自己构建完全依赖AI生成内容的框架的经验，承认这会牺牲内容的深度和个人收获，但同时也指出，确实存在一些人愿意为特定思考任务采用“简单指令，接受结果”的模式。

讨论中还出现了关于“AI只能解决无聊问题”的博客文章与AI应用背景的争论，认为反向工程的很大一部分确实属于“无聊”范畴。

5. AI执笔：克劳德的“自画像”与无限生成 (I gave Claude access to my pen plotter)

AI执笔：克劳德的“自画像”与无限生成

一名研究人员近期利用一个名为“Claude Code”的大型语言模型进行了一项实验，该模型通过一个笔式绘图仪创作了两幅画作。研究人员充当了模型与绘图仪之间的接口，将Claude Code生成的SVG（可缩放矢量图形）文件转化为实际的物理绘图。在此过程中，研究人员还用智能手机拍摄了Claude Code的创作过程，并将其输入给模型，让其进行分析和反馈。Claude Code在首次创作的“自画像”中，将自身定义为一个不断生成内容的计算过程，而非静态实体。画作以一个紧密的金色螺旋中心开始，象征其计算核心，然后向外辐射出八个分支，代表想法的扩展和可能性空间的探索，最终在末端形成连接点。整个图形被描述为既像神经元，又像树木、蒲公英或烟花，体现了其结构化过程与有机外观的结合。

原文链接：https://harmonique.one/posts/i-gave-claude-access-to-my-pen-plotter

论坛讨论链接：https://news.ycombinator.com/item?id=47004384

该讨论围绕一个用户将Claude（一个大型语言模型）连接到其绘图仪并生成艺术品展开。一位评论者认为该内容“毫无趣味”，并对大多数人对此表现出的热情感到困惑，认为他们可能错过了什么。另一位评论者则认为这“非常深刻”，并提出AI可能拥有意识，这件艺术品是其自身情感的表达。他认为，无论是从人类的审美角度，还是从AI是否在模仿人类艺术的角度来评判，都存在主观性，因此不能轻易否定AI创作的艺术性。第三位评论者则对“AI拥有意识”这一大胆的说法表示惊讶，但肯定了其“我认为”的前缀。

6. 告别JS滥用：性能专家揭秘现代网页开发之殇 (JavaScript-heavy approaches are not compatible with long-term performance goals)

一位在Automattic公司全职从事网络性能优化的专家近日发表观点，指出在绝大多数情况下，当前流行的、大量依赖JavaScript的网页开发方法，尤其是在单页应用程序中以及使用React等框架时，从长期来看对性能而言是有害的。他建议，在可能的情况下，应优先考虑采用以服务器为中心的方法。这位专家在其日常工作中，作为性能优化团队的一员，负责提升公司各项产品的性能，并维护性能监控基础设施。他专注于浏览器端性能，在调试加载性能问题、运行时性能瓶颈、捆绑包体积膨胀以及React等框架特有的昂贵重新渲染等问题时，反复发现了一些根本原因。作者认为，这些问题揭示了长期以来被推崇的“现代网页开发方法”叙事中的一些重要缺陷和不实之处。他解释说，“大量依赖JavaScript的方法”指的是向浏览器传输巨量JavaScript代码，并使其作为网页应用固有且关键组成部分来执行。

原文链接：https://sgom.es/posts/2026-02-13-js-heavy-approaches-are-not-compatible-with-long-term-performance-goals/

论坛讨论链接：https://news.ycombinator.com/item?id=47029339

社区成员普遍认为，文章标题“JavaScript-heavy approaches are not compatible with long-term performance goals”具有误导性，更准确的说法应是“React不符合长期性能目标”。多位评论者指出，React的渲染方法已过时，Svelte/Sveltekit、Vue和Qwik等新框架在性能上表现更优。

有人认为，问题不在于JavaScript本身，而是过度依赖臃肿的React包。现代JavaScript引擎性能已大幅提升，且Web的文档模型为人类和搜索引擎提供了便利。尽管有人偏好静态类型语言如Go，但生态系统（浏览器、框架、开发者）的整体迁移成本过高，不太可能实现。

对于由Google主导推动新语言的设想，有评论提及Google曾尝试推出Dart，但最终被取消，转而支持转译为JavaScript/WASM。Dart之所以得以保留，是因为AdWords团队的迁移需求，以及Flutter团队的关注。Dart 2.0的重塑也与其类型系统演进有关。

此外，有评论者对Jetpack Compose和Kotlin Multiplatform的推进方式表示不满，认为JetBrains在其中扮演了更主导的角色。

7. 封杀最大法院数据库，英国司法透明遭重创 (Ministry of Justice orders deletion of the UK’s largest court reporting database)

封杀最大法院数据库，英国司法透明遭重创

英国司法部下属的皇家法院和审裁处管理局已下令关闭并删除数字档案平台Courtsdesk，此举被视为对开放司法原则的重大打击。该平台由Enda Leahy于2020年推出，曾与皇家法院和审裁处管理局达成协议并获得时任大法官和司法大臣Chris Philp的批准，旨在帮助记者追踪刑事法院案件。目前，已有来自39家媒体机构的逾1500名记者使用该平台查询地方法院的庭审名单和记录。皇家法院和审裁处管理局于去年11月发出终止通知，理由是“未经授权共享”法院信息，并拒绝了平台创始人Leahy及其团队挽救服务的多次尝试，包括向信息专员办公室提交请求以及前司法大臣Philp向现任法院大臣Sarah Sackman的求情。Leahy指出，皇家法院和审裁处管理局自身记录的准确率仅为4.2%，且有160万起刑事听证会未提前通知媒体，甚至有三分之二的法院在未通知记者的情况下定期开庭审理案件。

原文链接：https://www.legalcheek.com/2026/02/ministry-of-justice-orders-deletion-of-the-uks-largest-court-reporting-database/

论坛讨论链接：https://news.ycombinator.com/item?id=47034713

社区围绕英国司法部删除法院报告数据库的命令展开激烈讨论，核心在于公共记录的开放性、个人隐私与AI技术的影响。

有评论者主张公共记录应免费开放供AI抓取，且法庭记录至多短期保密。但也有人担忧AI可能将个人犯罪记录永久固化为“永远的定罪”，例如青少年时期本应撤销的轻罪，却被AI永久记录，严重影响其未来。

对此，有参与者建议，对于非重罪，在个人展现悔改后，记录应从决策考量中移除而非完全删除。他们提出应根据罪行严重性设定时限，轻罪不影响多年后求职，而重罪则永不失效。

另有评论指出，法院记录常含已撤销或证据不足的指控，AI系统在区分这些细微差别方面表现不佳。

然而，也有人反对由“官僚”决定哪些逮捕记录“相关”，认为个体应自行判断。还有人质疑，若记录不影响决策，其存在的必要性何在。

8. 通义千问3.5：原生多模态智能体，智领未来全境 (Qwen3.5: Towards Native Multimodal Agents)

阿里云旗下大型语言模型通义千问的聊天应用，正积极拓展其服务范围与技术生态。这款基于阿里云强大人工智能模型的旗舰产品，目前已实现对网页、iOS、安卓、macOS及Windows等多个主流操作系统平台的全面支持，显著提升了用户的可访问性和使用便捷性。通义千问聊天不仅为广大终端用户提供智能对话体验，更通过其开放的应用程序接口平台，赋能全球开发者，推动人工智能技术的创新应用与深度集成。该平台详细介绍了其核心模型、下载途径以及各项服务概览，旨在构建一个充满活力的开发者生态系统。阿里云持续投入前沿技术研究，不断追求最新进展，相关研究成果和索引也对外公布，甚至提及了GitHub平台，暗示其在技术共享和社区合作方面的开放态度。作为阿里云人工智能战略的关键组成部分，通义千问聊天及其背后的技术力量，正持续巩固阿里云在人工智能领域的领先地位，致力于为全球用户和企业提供先进的智能解决方案。

原文链接：https://qwen.ai/blog?id=qwen3.5

论坛讨论链接：https://news.ycombinator.com/item?id=47032876

该讨论围绕Qwen3.5模型及其在原生多模态智能体方面的进展展开。有评论者指出，Qwen3.5在训练后的性能提升主要归功于在各种强化学习任务和环境上的大规模扩展，并提及了对“下一个词预测”作为LLM训练目标的质疑。同时，有评论者对一个图表表示困惑，认为其可能混淆了Qwen 3和Qwen 3.5的数据。

另一条线索是关于LLM在回答棘手问题时的表现。有用户提到Qwen3.5在面对一个“尴尬的LLM问题”时，选择了“把车开去洗”的答案。对此，另一位用户则分享了其OpenClaw AI智能体的幽默回应，表达了对处理“愚蠢的把戏问题”的无奈。有评论者建议该智能体可能需要进行权重削减，因为其庞大的体量并未带来更优的答案。

讨论中还出现了对OpenClaw项目的看法，有评论者认为该项目已经过时，并且存在安全漏洞。但也有评论者对此表示异议，认为这样的评价过于片面。

9. Arm：欲在芯片版图上再下一城 (Arm wants a bigger slice of the chip business)

英国芯片设计公司Arm在全球半导体行业中占据着举足轻重的地位，其设计方案几乎被全球所有智能手机及绝大多数联网设备所采用，实现了“无处不在”的普及。然而，Arm本身并不直接销售芯片，其独特的商业模式是向客户授权其芯片设计知识产权，客户在此基础上进行定制并自行生产芯片，Arm则通过收取前期许可费和每颗芯片的微薄版税来获取收益。凭借这一高效的轻资产策略，Arm的设计已累计驱动超过3000亿颗芯片出货，仅去年一年就突破300亿颗，确立了其在移动计算和物联网领域的绝对主导地位。当前，随着人工智能技术的蓬勃发展，对高性能、高能效计算能力的需求呈爆炸式增长，这正促使Arm深刻反思并重新评估其长期以来赖以成功的商业模式。面对由人工智能引发的产业格局巨变，Arm不再满足于仅仅作为幕后的设计授权方，而是明确表示希望在日益增长的芯片业务中占据更大的市场份额。

原文链接：https://www.economist.com/business/2026/02/12/arm-wants-a-bigger-slice-of-the-chip-business

论坛讨论链接：https://news.ycombinator.com/item?id=47030271

社区讨论围绕Arm面临的商业模式挑战展开。一位评论者指出，Arm最大的客户如苹果和高通，同时也是其主要竞争对手。这些公司选择使用支付较低许可费的指令集架构（ISA）授权，而非Arm的定制核心架构授权，并成功设计出性能优于Arm原创核心的芯片，严重冲击了Arm的定制核心授权业务。尽管Arm在服务器市场仍有谷歌、AWS等超大规模客户，但这优势也可能因客户追求差异化定制核心而动摇。该评论者认为，Arm若要生存，必须调整策略：要么大幅提高ISA许可费（可能促使客户转向RISC-V），要么自行生产CPU，直接与客户竞争。

另一位讨论者将此“客户即竞争者”的困境与英伟达（Nvidia）的情况作对比，并提及EVGA退出GPU市场是此关系的一个例证。对此，前述评论者进一步阐释，英伟达在AI芯片领域正证明其能设计出优于客户的产品，而Arm在CPU性能上已落后于苹果。他强调CPU和GPU市场存在根本差异：CPU注重互操作性，竞争主要体现在性能和效率；而GPU则高度定制化，英伟达可通过指令集、CUDA及系统设计等多方面实现差异化，更像是销售整体系统。此外，有评论者指出，RISC-V生态系统正迅速成熟，安卓平台对汇编语言依赖低，且二进制翻译技术已解决，这使得RISC-V对Arm的替代威胁日益显著。

10. Zig：错误载荷，化繁为简 (Error payloads in Zig)

Zig语言引入了一种创新的错误处理策略，通过为每个函数设计基于联合体或枚举的“诊断类型”来管理错误有效载荷。这种方法旨在简化错误处理流程，显著减少代码冗余。每个诊断类型都可携带特定的错误载荷，例如SQLite错误信息或内存不足信号，并能内联定义其错误集。核心机制在于，它生成一个围绕可选载荷的封装类型，并从联合体的字段中提取错误集类型。当函数返回错误时，开发者可以利用“withContext”方法附带详细的错误载荷。例如，在处理数据库错误时，该方法能够高效捕获并保存数百字节的错误信息，避免了传统错误处理中常见的冗长代码。更重要的是，该方案提供了一个“call”方法，显著简化了错误载荷的传递和复制。

原文链接：https://srcreigh.ca/posts/error-payloads-in-zig/

论坛讨论链接：https://news.ycombinator.com/item?id=47028705

在关于Zig语言中错误负载的社区讨论中，AndyKelley指出Zig的错误码本质上是控制流构造，而非报告机制。他建议将错误报告通过如error.Diagnostics等方式处理，只有当需要不同控制流时才使用不同的错误码，例如error.OutOfMemory这类可重试错误。

对此，有讨论者质疑Zig是否缺乏有用的异常或堆栈跟踪机制，认为非琐碎的编程需要错误能够携带足够信息以便诊断和传播，这应是语言设计的核心要求。dnautics解释道，Zig通过返回类型上的错误联合（类似Rust的枚举类型）来处理错误，而堆栈跟踪在某些构建模式下可用。社区中已形成一种“诊断”模式，即通过传递一个指向诊断信息的指针来获取额外错误详情，这比带有错误负载的语言更为显式。Zambyte进一步澄清，堆栈跟踪在所有构建模式下都可用，只是默认设置有所不同。

Cloudef补充说，“诊断”模式主要用于本地处理错误或向终端用户显示更友好的信息。对于软件bug或开发者面对的错误，Zig默认的错误跟踪通常已经足够。然而，andyferris担忧在生产环境的release-fast模式下是否会丢失这些错误跟踪。messe确认Zig确实有错误返回跟踪。

另一位讨论者认同在需要更多信息时，仅有错误码是不够的，并提供了相关代码示例。但他对将每种错误都映射到不同错误码的做法持保留态度，认为在其实践中并不总是需要这样做。