1. 你的屏幕缺了一大片颜色,尤其是自然界最耀眼的青色 (Where to Find the Colors Your Screen Can’t Show You)
作者指出,人眼能看见的颜色远多于普通屏幕能够显示或相机能够记录的范围,其中损失最明显的是高饱和青色。人类三类视锥细胞只把不同波长转化为三组响应强度,因此显示器用三原色就能模拟大量颜色,但任何三种现实光源构成的色域都只是 CIE 色度图中的一个三角形。要逼近纯青色,需要出现物理上不存在的“负红光”;传统电视荧光粉又无法产生足够纯的单色光,使实际色域进一步缩小。现代 P3、Rec.2020、激光投影与窄带 LED 已扩大范围,却仍不能覆盖全部视觉空间。文章最终把读者带回现实世界:阳光下的青绿色水体、羽毛、矿物和特殊颜料,才是寻找屏幕外颜色的地方。
原文链接:https://moultano.wordpress.com/2026/06/19/where-to-find-the-colors-your-screen-cant-show-you/
论坛讨论链接:https://news.ycombinator.com/item?id=48606140
讨论对文章使用 CIE 1931 图强调青绿色缺口提出修正:该图并非感知均匀色彩空间,青绿区域面积虽大,人眼未必能区分同样多的颜色;日常更常见的损失可能是 sRGB 无法呈现的饱和橙、红和紫。评论者建议有条件时启用 Display P3,并指出完整 Rec.2020 通常需要单色激光,但三激光投影仍会面临彩虹效应、黑位和激光散斑等代价。共识是广色域不是单一指标,而是光源、面板、内容和观看环境之间的折中。
2. GPT-5.5 幻觉率是 GLM-5.2 三倍?这项测试引发激烈质疑 (GPT-5.5 hallucinates 3x more than MIT-licensed GLM-5.2)
文章以公开基准和一次 Python 架构题测试,主张更大的模型并不必然更可靠。作者称 MIT 许可的 GLM-5.2 采用约 7530 亿总参数、约 400 亿激活参数,在综合能力指数上接近 GPT-5.5 等巨型模型,却表现出更好的不确定性判断。测试要求在不让出事件循环、也不使用底层轮询的情况下实现 asyncio 子进程监听;GLM-5.2 用约 800 个推理 token 指出约束在单线程中不可实现,而 DeepSeek V4 Pro 花费近十倍 token 后仍给出自信但错误的实现。作者据此提出模型选择应同时衡量能力、幻觉校准和计算效率。不过,这只是单题案例与特定服务配置,无法单独证明参数规模导致幻觉。
原文链接:https://arrowtsx.dev/bigger-models/
论坛讨论链接:https://news.ycombinator.com/item?id=48600167
HN 对文章的因果推断高度警惕。批评者认为,从少量模型和单个问题推导“更多参数或数据造成更多幻觉”过于激进,也忽略了近年模型整体事实可靠性相较早期 ChatGPT 已显著改善。有人区分两项不同主张:规模收益递减较有共识,但“更多事实训练让模型更爱回答”缺乏充分证据。另有评论指出,现代模型能力并非只由互联网预训练决定,后训练、强化学习和专门数据已占重要位置,不能用参数量或语料规模做简单解释。
3. 他把整个网页塞进了 9×9 像素的 favicon (I Stored a Website in a Favicon)
开发者把 favicon 当作纯粹的字节容器:先将一段 HTML 用 UTF-8 编码,在前面加入四字节长度头,再依次写入 PNG 像素的 RGB 通道。每个像素可保存三字节,208 字节的页面内容加上长度信息共 212 字节,只需要 71 个像素,因此一个 9×9、容量 239 字节的图像就足够,利用率约 87%。读取时,浏览器把 favicon 绘制到 Canvas,再按相反顺序取出 RGB 数值、恢复字节数组并解码 HTML,最后替换当前页面内容。它仍需要一小段 JavaScript 引导代码,并非真正的独立网站,但清楚展示了图像、像素和文件格式边界可以如何被重新解释。
原文链接:https://www.timwehrle.de/blog/i-stored-a-website-in-a-favicon/
论坛讨论链接:https://news.ycombinator.com/item?id=48606619
HN 用户提出更直接的变体:使用 SVG favicon,把标记文本直接放进 XML,再通过 fetch 或 foreignObject 读取;也有人建议利用 PNG 的 tEXt、zTXt、iTXt 区块,或 ICO 可容纳多分辨率图像的特性。作者回应,选择 RGB 像素正是为了让载荷真正“活在像素里”,而不是追求实用方案。进一步讨论还设想为 HTML 标签设计四位或八位专用编码,以提高有限空间的利用率。大家普遍把它视为有趣的边界实验,而不是值得生产采用的发布方式。
4. 看见3棵树、30%树冠、300米到公园:你的城市及格吗? (Can you see three trees?)
“3-30-300”规则用三个直观指标衡量城市居民是否公平地接触自然:每个住宅、学校或办公室能看到至少三棵树,所在社区树冠覆盖率达到 30%,并在 300 米内拥有公园。对欧洲 862 座城市的研究显示,三项同时达标者只有 14%,另有 21% 一项都不达标;最难实现的是 30% 树冠覆盖,公园距离则相对容易。约一半城市的大多数居民能看到三棵树,近 60% 欧洲人住在公园 300 米范围内,但只有三分之一处于树冠达标区域。研究估算,若欧洲城市普遍达到 30% 树冠目标,每年夏季可避免约 2644 起高温死亡。规则简单,却揭示绿荫也是城市资源分配问题。
原文链接:https://www.not-ship.com/can-you-see-three-trees/
论坛讨论链接:https://news.ycombinator.com/item?id=48582374
社区讨论从统计转向个人经验。许多人描述长时间看树、在树荫下休息或拥抱树木带来的明显平静感,并分享学校窗外老树成为几十年记忆锚点的经历。有人援引“森林浴”和植物挥发物研究,认为亲近自然可能激活副交感神经、降低压力,并非纯粹心理暗示。另一些评论把这种专注观看与完整聆听一张专辑相提并论:在持续被数字内容切碎注意力的生活中,为自然或艺术留出不被打断的时间,本身就是稀缺体验。
5. 记忆如何精准写入一个突触?四十年前的发现给出答案 (The discovery that changed how scientists think about memory)
神经科学家 Oswald Steward 与 Christine Holt、Kelsey Martin、Erin Schuman 因揭示神经元局部蛋白质合成的重要性,共获 2026 年卡夫利神经科学奖。四十多年前,主流观点认为神经元所需蛋白质主要在细胞体制造,再运输到遥远分支。Steward 原本研究脑损伤后的连接修复,却通过放射性氨基酸追踪和电子显微镜,在树突棘突触附近发现成簇多核糖体。这解释了一个长期难题:单个神经元拥有数千突触,若所有蛋白都从细胞体配送,难以精准改变某个连接。神经元实际可把信使 RNA 运到指定突触,就地制造蛋白,从而支持学习、记忆和突触可塑性,也为脆性 X 综合征及阿尔茨海默病研究提供新方向。
原文链接:https://www.ibm.com/think/news/discovery-changed-how-scientists-think-about-memory-kavli-prize
论坛讨论链接:https://news.ycombinator.com/item?id=48568652
讨论围绕“记忆是否只存在于大脑”展开。有人引用扁形虫断头再生后仍保留行为的实验,以及 RNA 可能参与记忆传递的研究,主张记忆机制或分布于更广泛的神经系统。其他人提醒,扁形虫和头足类拥有与人类不同的分布式神经结构,器官具备状态与适应性也不等于可传递语义记忆。对于“移植器官携带偏好或记忆”的说法,多数评论认为证据不足。整体共识是局部细胞状态值得研究,但不能由此跳到人格记忆储存在非神经器官的结论。
6. 不用 Canvas 和 WebGL,开发者只用 CSS 跑起《雷神之锤》 (CSSQuake)
CSSQuake 是一个把经典第一人称射击游戏《雷神之锤》搬进浏览器、并刻意以 CSS 驱动画面的实验项目。页面提供移动、瞄准、射击、跳跃、奔跑和下蹲等完整操作,也支持地图、击杀上限、时限、玩家人数及多人房间设置。调试面板还能显示轮廓、统计、帧率、敌人、拾取物和世界对象,并可切换动态光照、粒子、伤害、移动与攻击。项目重点不在性能或实用性,而在展示现代浏览器布局与样式系统被推到极端后,能够承担多复杂的交互和视觉表达。不同浏览器上的表现差异明显,也反过来说明 CSS 渲染管线并不是为实时 3D 游戏设计的。
论坛讨论链接:https://news.ycombinator.com/item?id=48608223
HN 讨论首先被性能反差吸引:有人指出三十年前的 Pentium 电脑运行原版 Quake 反而更顺畅,但其他用户在 Firefox、Linux 或 Chrome 上能稳定达到 60 FPS,卡顿主要集中在 Safari 与部分 WebKit 浏览器。多数人认为,这不是用错工具的失败案例,而是故意用不合适工具完成复杂目标的技术展示。评论也顺势回忆了 486、Pentium 和 3dfx 时代的运行体验,认为原版引擎的优化至今仍令人敬佩。
7. 服务器越多,半负载时排队延迟为何反而骤降? (Surprising economics of load-balanced systems)
文章用 M/M/c 排队模型解释负载均衡系统一个反直觉结果:当服务器数量和流量按相同比例增加、每台服务器仍保持相同利用率时,用户排队的概率并不会保持不变,而会快速下降。以服务时间均值一秒为例,5 台服务器在总容量一半负载时,约 13% 请求需要排队;扩展到 10 台并把流量加倍后,排队比例降至约 3.6%,也就是 96.4% 请求可以立刻获得服务。随着系统规模扩大,平均和高分位延迟都趋近于纯服务时间。这种规模经济意味着大型共享集群不仅资源利用更灵活,也能在相同单位负载下提供更稳定的延迟,但结论依赖泊松到达、独立服务时间和无限队列等理想假设。
原文链接:https://brooker.co.za/blog/2020/08/06/erlang.html
论坛讨论链接:https://news.ycombinator.com/item?id=48602918
HN 的主要质疑是现实流量并不服从简单泊松过程:超时重试、惊群、同步任务和关联突发会制造正反馈,使平均模型低估峰值风险。因此生产系统仍需为高峰过度配置,或采用异步处理、客户端吸收延迟、功能降级和负载丢弃来防止系统卡死。讨论还把排队论延伸到人工服务组织:管理者追求接近 100% 的利用率,常会让等待时间、客户体验和员工压力一起恶化;适度闲置并非浪费,而是系统承受波动所需的安全余量。
8. 从 Huffman 到神经网络:一本书讲透数据压缩 (Data Compression Explained (2012))
Matt Mahoney 的《Data Compression Explained》是一部面向具备编程和基础数学能力读者的完整在线教材,从信息论、编码、建模到变换与有损压缩系统梳理数据压缩。书中强调所有压缩器至少包含概率模型与编码器:模型预测符号分布,编码器为高概率符号分配更短表示;编码可以接近最优,但最优建模不可计算,因此预测和压缩本质上与人工智能相连。教材覆盖 Huffman、算术编码、PPM、上下文混合、PAQ、LZ 系列、BWT、去重、图像、视频和音频格式,也用计数论证说明不存在能压缩任意输入的“万能算法”,随机数据和已经压缩的数据通常无法再次有效压缩。
原文链接:https://mattmahoney.net/dc/dce.html
论坛讨论链接:https://news.ycombinator.com/item?id=48562662
评论补充说,书中的部分排行榜早于 Fabrice Bellard 后来的成果,神经网络建模已经进一步改善文本模式发现。讨论很快转向“AI 是否就是通用压缩”:支持者引用书中“压缩是人工智能问题”的观点;更谨慎的解释则是,模型训练为特定训练分布寻找昂贵、近似最优的有损表示,推理相当于从表示中查询信息。由于训练成本高、结构也会随代际调整,它与可随时处理任意输入流的传统通用压缩器仍有本质差异。
9. 为什么古埃及人只需一张 2/n 分数表? (Egyptian Fractions (2006))
文章从古埃及分数表示法出发,解释为何莱因德数学纸草记录的是 2/n 展开表,而不是所有 a/b 的完整表。埃及分数要求把有理数写成互不相同单位分数之和,例如 3/7 可由查表得到 2/7=1/4+1/28,再加 1/7,形成 1/4+1/7+1/28。作者说明,仅凭 2/n 表就能构造任意有理数:相加时拼接两个展开式;若单位分数重复,偶数分母可用 1/(2n)+1/(2n)=1/n 合并,奇数分母则再次查 2/n 表替换;偶数分子先折半计算再加倍,奇数分子则拆成前一个偶数与一个单位分数。文章还展示 19/20 的逐步展开,并比较项数和最大分母等不同“最优”标准。
原文链接:https://blog.plover.com/math/egyptian-fractions.html
论坛讨论链接:https://news.ycombinator.com/item?id=48548612
HN 讨论把话题扩展到历史计数系统。评论者介绍泰卢固语传统数字:整数使用十进制,分数却按四进制层级记号表示,符号通过圆圈和横竖刻线区分;这些字符虽已进入 Unicode,如今连许多母语者也不再认识。有人指出纽约证券交易所改用小数报价前长期采用八分之一,之后短暂使用十六分之一;旧金融代码甚至保留到 1/256 的价格刻度。讨论显示,看似怪异的分数表达往往服务于当时的计算、度量和交易需求,并非单纯落后的记法。