1. Nanonets-OCR-s:AI文档智能结构化引擎,为大模型深度赋能 (Nanonets-OCR-s – OCR model that transforms documents into structured markdown)
一款名为Nanonets-OCR-s的尖端图像转Markdown光学字符识别(OCR)模型震撼发布,正以其卓越性能颠覆传统文本提取。它超越简单文字识别,通过智能内容识别和语义标记,将复杂文档转化为结构化Markdown格式,完美适配大型语言模型(LLM)的下游处理,开启了文档智能化的新篇章。
其功能强大且精细入微。它能自动将数学公式精确转换为LaTeX语法,并智能描述文档图像(如Logo、图表),让LLM理解视觉内容。该模型还可精准检测隔离签名、提取水印,并将复选框标准化为Unicode符号。复杂表格也能轻松捕捉并输出为Markdown/HTML,极大提升数据可用性。
这款模型已在Hugging Face平台开放演示,并支持多种集成方式。发布不到一个月已获得近8000次下载,显示出业界对其创新能力和实用价值的广泛认可。
原文链接:https://huggingface.co/nanonets/Nanonets-OCR-s
论坛讨论链接:https://news.ycombinator.com/item?id=44287043
Nanonets员工在社区宣布推出Nanonets-OCR-s,这是一个轻量级(3B)视觉语言模型,能将文档转换为结构化Markdown。该模型擅长理解文档结构和内容上下文,包括表格、公式、图像、图表、水印和复选框。其关键功能包括识别并将LaTeX公式转换为正确格式,为大型语言模型(LLMs)描述嵌入图像,检测并隔离签名,提取水印文本,以及智能处理复选框和单选按钮。此外,它还能处理复杂表格,保留结构并输出Markdown和HTML格式。
一位讨论者表示,该模型实现了他扫描打印文档并生成结构化PDF的愿望。另有用户询问,它能否处理杂志版面中不规则的文本布局和角度。
关于模型是否存在幻觉问题,有用户提出疑问。测试者反馈,模型确实会产生幻觉,例如在一次测试中将“Page 100000000000”多识别了一个零,尽管在表格处理上表现良好。一位用户确认,该模型基于Qwen2.5-VL-3B,且发布方已明确指出“模型可能存在幻觉”的局限性。对此,有用户担忧PDF的“源”文本可能被幻觉化,但也有人指出,考虑到输入是图像而非原始PDF,这并非完全出乎意料。最后,有用户询问模型是否能直接提取图像,还是需要单独处理。
2. SSL到TLS:浏览器大战如何锻造互联网安全基石 (Why SSL was renamed to TLS in late 90s (2014))
九十年代中期,网景与微软的浏览器大战硝烟弥漫,竞争异常激烈,深刻塑造了互联网的早期格局。在这场技术较量中,安全协议的演进成为焦点。
网景公司率先开发了SSL协议,其首个版本因加密缺陷未能发布,随后推出的SSL 2成为首个投入使用的版本,虽有缺陷但仍在一段时间内发挥作用。面对这一局面,微软为争夺主导权,基于SSL 2推出了自己的“PCT”协议,仅限于IE浏览器和IIS服务器使用。网景不甘示弱,为解决SSL 2的问题并巩固自身地位,开发出更具革新意义的SSL 3.0。
然而,业界普遍担忧标准分裂会阻碍互联网发展。在Consensus Development公司的协调下,网景和微软的代表坐到了一起,其中包括后来声名鹊起的密码学专家Bruce Schneier。经过一番艰苦谈判,双方达成共识:将协议的标准化工作交由互联网工程任务组(IETF)以开放流程进行。
作为协议统一的条件,SSL 3.0需要进行部分修改,并更名以示中立。由此,我们今天熟知的TLS 1.0(本质上是SSL 3.1)应运而生。回望这段历史,尽管协议改名的小插曲如今看来有些滑稽,但这起事件却生动展现了技术竞争如何最终推动了开放标准的建立与合作,为我们今天安全便捷的在线体验奠定了坚实基础。
原文链接:https://tim.dierks.org/2014/05/security-standards-and-name-changes-in.html
论坛讨论链接:https://news.ycombinator.com/item?id=44282378
社区关于SSL/TLS协议版本演进的讨论揭示了其复杂性。一位讨论者指出,版本号并不总能准确反映协议间的差异:SSLv2问题多;SSLv3是全新协议;TLS 1.0基于SSLv3小幅修订;TLS 1.1为微小修正;TLS 1.2进行了中度修订以适应密码学发展,支持新型哈希和AEAD加密套件;TLS 1.3则几乎是全新协议。最初设计理念是自动协商版本,确保客户端和服务器可独立升级而不中断连接。
然而,有评论者认为TLS 1.0引入了“扩展”概念(如会话票据和服务器名称指示SNI),使其并非“小幅演进”。但另有人纠正,指出这些扩展实际是在TLS 1.0之后的RFC中引入,TLS 1.0仅是为未来扩展预留了空间。
关于自动版本协商,有评论者担忧这导致了“数十年的降级攻击”。对此,有人解释称,降级攻击主要源于客户端在连接失败后尝试更低版本,这在当时是为了绕过有缺陷的服务器或中间设备,并非TLS本身的固有缺陷。从TLS 1.2部署的经验中吸取教训,TLS 1.3在设计上特意使其在网络传输层面看起来与1.2相似。但也有人反驳,指出TLS在密码套件和版本协商上都存在问题,例如Logjam和FREAK攻击。TLS 1.3旨在通过改进协商机制和降低灵活性来解决这些问题。
3. 颠覆认知:引力,竟是熵增的表象? (Is gravity just entropy rising? Long-shot idea gets another look)
宇宙中最神秘的力量——引力,可能并非我们想象的那么简单!一项大胆的新理论正吸引物理学界目光,它重新审视了“熵引力”构想:引力或许仅仅是无序(熵)增长的宏观体现。
自牛顿时代起,科学家们便试图理解引力本质。尽管爱因斯坦的广义相对论将其描述为时空扭曲,但引力作为一种“涌现”现象的设想从未消失。今年,劳伦斯伯克利国家实验室的丹尼尔·卡尼团队提出了一种现代版“熵引力”模型。他们大胆推测,引力可能源于某种看不见的“热系统”与物体随机相互作用,本质上是粒子无序运动和熵增的结果,与蒸汽机原理异曲同工。
这项前沿研究试图从微观物理学层面解释引力起源。尽管“熵引力”仍属少数派观点,但其生命力顽强,甚至反对者也难以完全驳斥。
论坛讨论链接:https://news.ycombinator.com/item?id=44285874
社区中,一位用户将“熵力引力”类比为“巴西坚果效应”:摇晃时大坚果上浮,因其移动慢,下方空隙被小坚果填充。他解释熵力引力设想物体被随机粒子从各方向撞击,当大质量物体靠近时,中间区域粒子密度降低,形成“阴影”效应,导致相互吸引。但他质疑该理论的粒子密度假设。另一位用户则提到,费曼讲座中曾描述一种18世纪的“推力引力”假说:粒子从各方向撞击物体,当大质量物体(如太阳)靠近时,其方向粒子被吸收减少,产生推向大质量物体的净力。然而,费曼指出该理论缺陷在于,运动中的物体(如地球)会因迎面粒子撞击产生不符观测的阻力。
4. 儿童白血病:从死亡宣判到生命新生 (Childhood leukemia: how a deadly cancer became treatable)
曾几何时,“儿童白血病”是无数家庭的噩梦,在1970年代前,被诊断患儿的五年生存率不足10%。这意味着,一个孩子的童年和未来几乎被宣告终结。然而,得益于医学科技的飞速发展,这一残酷现实已被彻底改写,迎来了激动人心的转折!
如今,在北美和欧洲,儿童白血病的五年生存率已跃升至惊人的约85%,这是一个里程碑式的巨大飞跃。白血病作为儿童最常见的癌症(约占儿童癌症病例的四分之一),其死亡率已大幅下降了14倍。尽管儿童期造血组织活跃、细胞快速分裂可能增加DNA变异风险,但正是对这些机制的深入理解和治疗手段的创新,带来了如此显著的成就。
这一振奋人心的进步,不仅为无数患儿及其家庭点燃了生命的希望,更展现了人类在攻克疾病道路上的巨大潜能。从几乎无解到高治愈率,儿童白血病治疗的成功故事,无疑是对科学探索和美好生活不懈追求的最佳褒奖。
原文链接:https://ourworldindata.org/childhood-leukemia-treatment-history
论坛讨论链接:https://news.ycombinator.com/item?id=44282143
一位父亲在社区分享了儿子成功对抗B-ALL白血病的经历。他儿子于2020年确诊,通过儿童肿瘤研究组的一项实验性治疗,基于“男性睾丸并非癌症储存库”的新发现,减少了化疗时长,目前已康复两年。他提及了早期诊断和各项检查结果均达到最佳的幸运。
一位评论者对此表示欣慰和自豪,认为这是人类共同完成的“有价值的事情”。然而,讨论很快转向对科学研究资金的担忧。有用户指出,若无充足资金,此类成就难以实现。
随后的评论者强调了美国国立卫生研究院(NIH)面临的预算削减,尤其是基于政治原因的削减,可能会导致“人员死亡”,并对全民健康产生负面影响,因癌症研究对每个人都普遍有益。有用户具体提到NIH正面临40%的预算削减,这将严重减缓癌症研究进程。
针对此困境,有评论者建议改革科研资助模式,对于长期项目,应一次性将全部资金拨入专门基金会,而非“按月支付”,以规避政治干预。还有人提出,理想情况下应将NIH和CDC等机构与政府分离,使其更像美联储或美国邮政那样独立运作,以防止行政权力干扰,尽管资金来源仍是一个挑战。
5. 建你自己的“韧性俱乐部”:公民力量,守护数字命脉 (Start your own Internet Resiliency Club)
欧洲正面临日益增长的网络中断风险,地缘政治冲突和气候变化威胁着通信稳定。面对政府和企业准备不足的现状,资深软件工程师Valerie Aurora受到乌克兰战时网络韧性经验启发,提出了一项充满活力的公民自救方案——“互联网韧性俱乐部”(Internet Resiliency Club,IRC)。
这些由技术爱好者组成的IRC,利用廉价的LoRa无线电和开源Meshtastic软件,可在数公里范围内建立无需中心基础设施的通信网络。他们凭借专业技能和人脉,有望在紧急情况下快速恢复互联网连接,有效应对如俄罗斯攻击乌克兰网络、海底电缆被切断等突发事件。
Valerie Aurora在阿姆斯特丹居住时,深感通信中断的潜在威胁。她观察到,尽管乌克兰在战时积累了宝贵的网络维护经验(如伪装路由器室、使用被动光缆),但荷兰等国政府尚未充分采纳。IRC的理念旨在赋能社区,通过草根力量填补这一空白,为科技爱好者们提供了一个贡献社会、探索创新通信方式的绝佳平台,共同守护数字世界的连接。
论坛讨论链接:https://news.ycombinator.com/item?id=44287395
社区中一场关于Meshtastic项目离线可用性的讨论揭示了其在无网络环境下设置和使用的挑战。最初的发帖人指出,该项目过度依赖互联网,例如推荐的Web Flasher、依赖网络下载工具链的PlatformIO,以及需要联网的客户端应用和在线文档。发帖人还提到,电路板虽可托管Web应用但仍需Wi-Fi连接而非直接USB,认为这种设计不适用于紧急情况。
对此,其他讨论者提供了不同视角:固件刷写可完全离线通过命令行或拖放方式完成,Web Flasher仅为初学者提供便利。Android客户端APK可从GitHub下载。此外,编译好的固件、刷写脚本和文档(.mdx格式)均可在GitHub仓库中离线获取,这些“问题”被认为是项目为方便网页用户而做的权衡。评论还指出,Web应用本身通过浏览器保存后也能离线使用,且通过USB实现以太网连接并托管控制网页服务器是可行的。
尽管存在离线方法,一些评论者仍认同项目应投入更多精力支持“长期无网络”的使用场景。但也有人认为,在真正需要“互联网弹性”的紧急情况下,未刷写固件的LoRa板可能难以获得,因此构建完全离线的工具链虽是好主意,但在资源分配上优先级可能不高。
6. G级文件也能“指哪读哪”?Rust新星Zeekstd为压缩数据访问带来革命性提速 (Show HN: Zeekstd – Rust Implementation of the ZSTD Seekable Format)
还在为解压G级大文件只为读取一小段数据而烦恼吗?来自社区的 Zeekstd 项目为此提供了一个精妙的解决方案。这是一个基于Rust语言实现的Zstandard可寻址压缩格式库。
它的核心技术是将庞大的数据流分割成多个独立的压缩“帧”(默认为2MiB),并生成一个索引表。当需要访问归档中间的内容时,程序可直接“跳转”到对应的帧进行解压,无需再处理整个文件,极大地提升了对大型归档文件的随机访问效率。这对于处理日志、数据库备份或任何大型顺序数据都堪称革命性提速。
值得一提的是,Zeekstd 在实现新版规范的同时,完全兼容旧版格式,并附带了命令行工具,方便开发者和用户直接上手体验。对于追求高效数据处理的你,这无疑是个值得关注的开源新星。
原文链接:https://github.com/rorosen/zeekstd
论坛讨论链接:https://news.ycombinator.com/item?id=44284871
社区上的一场讨论围绕可寻址(seekable)压缩格式展开,特别是Zstd的可寻址版本。一位讨论者指出,可寻址格式允许随机读取,例如通过HTTPS从远程压缩文件启动QEMU虚拟机,并提及xz格式已支持此功能,但Zstd的可寻址版本尚未标准化,这阻碍了他为nbdkit工具编写相关过滤器。另一位用户证实了Zstd可寻址格式确实尚未标准化。
一位使用Go库实现可寻址Zstd的开发者表示,尽管该技术非常酷,但他对缺乏广泛支持感到不安。他还对某个工具名称“zeek”感到困惑,因其与他雇主负责的Zeek项目同名。该工具的创建者解释,“zeek”是“zstd”和“seek”的结合,并承认这个名字确实容易引起混淆。
讨论中还提及了bgzip作为该领域常用的工具。有评论者建议,可以尝试对文件的前几块数据进行字典训练,并将字典嵌入到可跳过帧中,这对于小块数据压缩可能大有裨益。然而,另一位查阅Zstd可寻址规范的评论者指出,当前规范并未明确支持自定义字典,但预留了未来添加内联字典的位。他认为内联字典对于包含混合数据(如游戏文件或tar文件)的格式非常有用,可以根据压缩效果动态训练新字典。最后,有人补充说自定义字典是普通Zstd的特性,理论上可寻址Zstd作为其有效子集,也应该能够支持。
7. 双生视界:重塑文本交互新纪元 (Twin – A Textmode WINdow Environment)
在图形界面普及的当下,一款名为“Twin”的创新开源项目,以其独特的文本模式窗口环境,正悄然改变着我们对操作系统交互的认知。Twin并非简单的字符终端,它巧妙地集成了鼠标支持、强大的窗口管理器、多功能的终端模拟器以及网络客户端功能。更令人惊叹的是,它支持显示器的即时连接与分离,用户可以如同科幻电影般,在不同屏幕间无缝切换工作环境,尽享前所未有的灵活性与便捷性。
这款轻量级而强大的软件,兼容性极佳,已在Linux(涵盖i386、x86_64、ARM等多种架构)、macOS (x86_64)和FreeBSD等主流操作系统上通过测试,展现了卓越的跨平台运行能力。Twin的服务器和客户端遵循GPL协议,核心库则采用LGPL,这不仅保障了其开放性和可扩展性,更鼓励了全球开发者社区的积极参与。
对于爱好科技、追求效率与探索精神的中文读者而言,Twin提供了一个充满乐趣与无限潜力的平台。无论是希望重温经典文本界面的极客,还是寻求高效、低资源占用工作环境的专业人士,Twin都提供了一种回归本源的计算哲学体验。它不仅是一个工具,更是一扇通往数字世界新可能的大门,邀请我们共同探索和创造。
原文链接:https://github.com/cosmos72/twin
论坛讨论链接:https://news.ycombinator.com/item?id=44284657
社区讨论围绕DESQview、IBM TopView和AlphaWindows等早期多任务/窗口管理环境展开。有评论者提出,在现代4K显示器、高速网络和多核处理器的计算机上,重试这些概念或能激发出新的可能性。有用户分享了AlphaWindows资料的难寻,随后其他讨论者提供了其规范和固件链接。多位成员回忆了使用DESQview的体验:有人形容其“无用但引人入胜”,曾将其作为X终端运行Win16软件;也有人称其在资源受限的学院电脑上是“超能力”。此外,Borland Turbovision也被提及。
8. 苯:两百年芳华,芳香化学的基石 (Benzene at 200)
1825年,迈克尔·法拉第在分离照明气体的油性残渣时,发现了一种具有独特芳香气味的神秘液体——苯。这种化合物从一开始就充满魅力,其出乎意料的稳定性预示着化学领域一场深刻变革。苯是无色液体,沸点80.1°C,易挥发,是出色的溶剂。它独特的化学性质,特别是其稳定性和反应性,最终成为芳香族化学的基石。
如今,苯及其衍生物已无处不在,渗透到健康、能源、先进材料、电子、食品、染料和生物技术等多个领域,极大丰富了我们的日常生活。它开启了一个广阔的芳香族化合物世界,带来无数重新定义世界的应用。
苯的发现也催生了多环芳烃(PAHs),这类化合物由多个苯环融合而成,不仅保留了苯的稳定性,还展现出独特的电子和光学特性。从早期的萘、蒽,到更复杂的PAHs表现出的半导体行为,它们为纳米石墨烯等新材料的诞生铺平了道路。研究人员通过精确控制分子结构,已能设计出具有可调控电子传导性、荧光和手性等特性的先进材料。1958年发现的六苯并冠烯(HBC),作为最大的全表征多环芳烃,曾保持纪录数十年。苯的故事,正是化学精准之美与无限可能性的生动写照,持续推动着科学边界向前。
原文链接:https://www.chemistryworld.com/opinion/benzene-at-200/4021504.article
论坛讨论链接:https://news.ycombinator.com/item?id=44290413
社区中,一位用户分享了其化学Instagram账号,展示了多种多环芳烃(PAH)的塑料模型,包括六苯并冠烯(HBC)和萘,旨在向大众及化学爱好者普及这些分子的迷人结构。该用户还列举了更多芳香族化合物,如苯、红荧烯、冠烯等模型的链接。其他用户对此表示赞赏,认为分享“非常酷”。
讨论中,有用户分享了个人与苯相关的经历,将其视为“祸根”。其父亲作为石油公司的化学工程师,常提及苯泄漏事故;母亲则因在无防护下用苯清洁实验室玻片,可能导致该用户童年患上朗格汉斯细胞组织细胞增生症。
另一位用户提出了化学史问题:19世纪早期化学家在不知苯结构的情况下,如何确定其高度不饱和性?是否通过燃烧法测量产物?对此,有专业用户解释了19世纪确定分子式分两步:首先,通过燃烧化合物并测量氧化物重量来确定经验式(如苯的碳氢比为1:1);其次,利用理想气体定律等方法确定化合物的摩尔质量,从而得出精确分子式(如C6H6)。
9. “用户是猴子吗?”:揭秘安卓官方API里那些令人捧腹的程序员彩蛋 (Jokes and Humour in the Public Android API)
在严谨的代码世界背后,安卓(Android)系统的开发者们埋藏了多少幽默感?答案是:非常多。其公开的应用程序接口(API)中,就充满了开发者留下的“彩蛋”和玩笑,成为程序员之间心照不宣的秘密。
其中最著名的莫过于isUserAMonkey()。它听起来像是在问“用户是猴子吗?”,实则是一个实用的检测功能,用来判断是否正由“猴子”自动化测试工具在操作界面,其诞生源于一次测试中意外拨通紧急电话的趣事。更有纯粹的玩笑如isUserAGoat(),它一度被用来检测手机是否安装了热门游戏《模拟山羊》。
从调用isTheFinalCountdown()就会播放同名摇滚金曲,到“禁止娱乐”(DISALLOW_FUN)策略,再到致敬90年代网页的
原文链接:https://voxelmanip.se/2025/06/14/jokes-and-humour-in-the-public-android-api/
论坛讨论链接:https://news.ycombinator.com/item?id=44285781
在社区的讨论中,人们围绕代码中幽默或非传统变量名的使用展开。一位前Facebook员工分享道,诸如_DO_NOT_USE_OR_YOU_WILL_BE_FIRED
的后缀曾是公司内部的长期玩笑,但在疫情期间,大量新入职的远程员工对此感到不安,导致这些命名被废弃,也暴露出公司在员工入职和文化融入方面的挑战。
有参与者提到React代码中也出现了类似的“去幽默化”现象,引发了讨论。一些人欣赏这种轻松幽默的风格,甚至建议加入更多夸张的玩笑。然而,另一些人则认为,乐趣不应以牺牲清晰度或引入歧义为代价,并视这些变更为必要的工程改进。一位评论者甚至指出,即便修改后,某些变量名依然令人困惑。
反之,讨论中也出现了非常规命名带来积极效果的例子。一位谷歌工程师讲述,将一个复杂且难以修改的代码块重命名为“[Foo]Sorcery”后,竟意外地阻止了进一步的修改,并促使其逐步被清理。其他社区成员还提到了X11中party_like_its_1989
这样的全局变量、BeOS/Haiku的is_computer_on_fire()
函数,以及Delphi的EProgrammerNotFound
异常。这些案例表明,尽管代码清晰度至关重要,但巧妙或幽默的命名在特定情境下也能带来意想不到的积极效果。
10. 铁窗码农:狱中逆袭数据库工程师 (Working on databases from prison)
身陷囹圄的软件工程师Preston Thorpe,近日传来令人振奋的消息:他已成功加入Turso公司,担任软件工程师。对许多技术专业人士而言,能在顶尖团队从事数据库开发是梦想,但Preston的特殊之处在于,这份工作是他从州立监狱的牢房中获得,堪称科技逆袭的传奇。
Preston因年轻时涉毒入狱。近两年前,他通过博客首次与外界接触,其对技术的热情迅速获得科技界关注。三年前,他抓住监狱学院有限网络接入机会,重新燃起对编程的热爱,每天投入超过15小时专注于项目和开源贡献。凭借不懈努力,他成为缅因州惩教署远程工作项目的首批参与者,成功获得Unlocked Labs软件工程职位,并在一年内晋升开发团队负责人。
去年12月,Preston在Hacker News上发现Turso发起的“Project Limbo”项目,旨在重写SQLite。尽管此前未涉足关系型数据库,但他对存储引擎的兴趣促使他深入研究。在监狱中,编程已成为他生活的全部,每周投入约90小时编写代码或管理Kubernetes集群。正是这份极致投入,让他抓住了Turso的机遇。Preston Thorpe的故事,不仅展现了科技力量,更生动诠释了在逆境中追求梦想、实现自我救赎的非凡历程,无疑将激励无数对美好生活充满好奇的科技爱好者。
原文链接:https://turso.tech/blog/working-on-databases-from-prison
论坛讨论链接:https://news.ycombinator.com/item?id=44288937
社区有讨论者认为,缅因州的囚犯远程工作计划极具前景,能有效防止再犯。该计划为囚犯提供真实工作,出狱后可无缝衔接,解决了他们出狱后找工作难、易陷入绝望导致不良行为的问题。尽管存在剥削风险,但若管理得当,它能赋予囚犯目标感,并提供出狱后的成功途径。
另有评论指出,这印证了北欧国家以康复而非单纯惩罚为重点的模式,能有效降低再犯率。一位读者进一步解释,北欧模式不仅是康复,还包括强制性冲突解决,要求争议双方坐下来讨论并找到解决方案,这有助于培养情绪管理能力,使他们更好地融入正常社会。
讨论中,有人提出社会同质性可能对此类计划的成功有所贡献。然而,这一观点遭到反驳,多数人认为将同质性作为不愿尝试改进现状的借口是不可取的,甚至有人指出这常被用作建立“民族国家”的托词。另有评论认为,同质性被高估了,人类总能找到新的歧视轴线。但也有声音认为,同质性确实能提高社会信任,并引用了学者罗伯特·普特南的观点。