“飞光飞光,劝尔一杯酒。吾不识青天高,黄地厚。唯见月寒日暖,来煎人寿。食熊则肥,食蛙则瘦。神君何在?太一安有?天东有若木,下置衔烛龙。吾将斩龙足,嚼龙肉,使之朝不得回,夜不得伏。自然老者不死,少者不哭。何为服黄金、吞白玉?谁似任公子,云中骑碧驴?刘彻茂陵多滞骨,嬴政梓棺费鲍鱼。”——李贺《苦昼短》
(初来乍到的朋友,建议先阅读【上篇】和【中篇】,再阅读本文,体验更加)
一 吾不识青天高,黄地厚
你可曾有过,在美国旅游或生活的经历?
在美国旅游或生活,令人印象深刻、甚至颇为诟病的一个地方,在于小费文化。
餐馆用餐,要留给服务员小费;酒店住宿,要塞枕头下小费;连出门打出租车,都得给司机一笔小费。
打出租,通常给车费10-20%的小费,凑个整,去趟机场,小费也得有个8到10刀了,挺肉疼。
可是,你知道吗?早在1980年代,有一位奇人,已经给纽约出租车司机,高达100美元的小费了!
100美元啊!1980年代的100美元!这家伙的钱,难道是大风刮来的?
还真差不多,这位奇人,是华尔街一位出色的交易员。
有时候,恶作剧也不乏同情心。记得在我当交易员的早期,钱开始来得很容易。我平时坐出租车,如果司机说着蹩脚的英语,并且看起来非常窘迫,我就会给他一张百元大钞(当做小费),让他感到有点震惊和意外。你会看着他展开钞票,以某种惊慌失措的表情看着它。(100万美元肯定有更好的效果,但我办不到。)
这也是一种简单的快乐实验:只花100美元就让别人有快乐一天的感觉,非常令人飘飘然。后来我不这样做了,因为当我们的财富增加并且我们开始看重钱时,我们都变得吝啬和斤斤计较起来。

这位嚣张跋扈的交易员,到底是何方神圣?
你听说过“黑天鹅效应(Black Swan Effect)”或“黑天鹅事件”么?
黑天鹅事件,指一种极小概率发生,但影响巨大的意外事件。
它具有以下三个主要特征:
极度罕见:事件发生概率极低,超出正常预期,几乎无法预测。
影响巨大:一旦发生,会对社会、经济、市场或个人产生深远且剧烈的冲击。
事后解释:事后人们往往会尝试为事件寻找合理化解释,认为它“本应可预测”。
这位在1980年,给100美元出租车小费的圣人,恰恰就是黑天鹅效应的提出者——纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)。

塔勒布这老哥,至今仍活跃于X(twitter)等社交媒体平台。
这老哥,在社交媒体上,也一如40年前,就给100美元小费的作风:潇洒、豪爽、奔放、快意人生。
塔老哥,一直大力宣扬:想要健康长寿,无论年轻还是老年,必须重点做重量训练,而非有氧运动如游泳或慢跑。
单纯宣扬,怎能取信于人。塔老哥,不仅有大风刮来、令人欣羡的财富,还以身作则做重量训练,让自己壮得像公牛一般,并自称举重爱好者。
在2015年的一篇采访中,老哥提到自己(已经55岁)能硬拉(Deadlift)325磅(约147公斤)。
今年,65岁的塔老哥,在X上分享自己能用六角杠硬拉约200-220磅(约90-100公斤),并提到推举95磅(约43公斤)。

与我父母相若的年龄,却有着远比我这年龄,还要强健的体魄。崇拜不崇拜?敬仰不敬仰?
题外but重要的话,书童此前,也追踪了近年长寿研究的大综述如《超越百岁》一书,塔老哥所言非虚!
确保不受伤的前提下,渐进式重量训练,的确是延长寿命,更重要的是——确保高质量中晚年生活的不二法门。
因此,划重点啦:如果你身边有奇人,在美国能给到100美元小费,一定要重视他说的每一句话。
二 食熊则肥,食蛙则瘦
聪明的读者,一定在揣测,作为三倍杠杆系列最后一篇收官之作,却至今还没进入主题,书童一定是在为塔老哥的策略做铺陈,对不对!
是啦是啦,您这么了解书童,请一定看到本篇最后哦!
塔老哥写出《黑天鹅:如何应对不可知的未来》一书爆红之后,又出了本《反脆弱(Antifragile)》,同样风行一时。
啥叫反脆弱?不懂。
首先,啥叫脆弱?这个好理解,比如玻璃杯,掉地上,易碎,这就是脆弱。
那反脆弱就是掉地上,不容易碎的玻璃杯么?
那可就太小看塔老哥的概念构建能力了。
不是!掉地上不容易碎,那只是强韧(robust),并非反脆弱(antifragile)。
如果有一个玻璃杯,直接从1m高的桌面掉到地板上,会碎掉,这不奇怪。
但是,如果这个玻璃杯,你先让它试着从0.5m掉几次,没有碎;再慢慢加到0.6m、0.7m……直到1m再掉落,它却不会碎裂了,这就是一支反脆弱的玻璃杯!
啥玩意儿?一派胡言!普天之下,哪有这种奇怪的玻璃杯?
嘿嘿,当然不存在这种不合理的玻璃杯;但是,你身体的肌肉和骨骼,却遵循反脆弱的原理。
还记得刚刚提过的渐进式重量训练么?
每几次相同重量的肌力训练后,再增加一点点的负重,你会觉得,这微不足道的增重,却如同第一次肌力训练一般,艰难到不可理喻。
对应的肌肉,也会在这次增重后,如同第一次训练一般,有了微小的撕裂。而这些微小撕裂,会在两三天内修复,让你的肌肉变得更加强壮。
同时,你的骨骼,也会在渐进增加的受力后,骨密度增加,变得更加强硬。
几次之后,你有一次体验到,相同重量的训练,开始变得轻松。恭喜你!你的身体,就是名副其实的反脆弱实体!

再插播一条非常重要的提醒:老年人非常怕跌倒,很多老人一旦跌倒,就会骨折;而一旦骨折,就再也无法起身,长期卧床直到去世。
这其中,有一个如此糟糕的正反馈在起作用:因为缺少力量训练——>肌肉力量、骨密度不足——>下肢肌无力容易跌倒——>因骨密度不足,跌倒后易骨折——>骨折后只能长期卧床,更无法运动锻炼——>下肢肌肉力量继续下降——>丧失直立行走能力——>失能与死亡。
而打破这一正反馈的关键做法,不言自明。
《超越百岁》一书强调,一个人的肌肉量和骨密度,会随年龄流失。因此老年时,非常依赖青壮年时期的储备,尽可能让我们反脆弱的肌肉和骨骼,物尽其用吧!

“What doesn’t kill you make you stronger, stand a little taller.” Kelly Clarkson这首歌,完美阐释了什么叫做反脆弱。
反脆弱的核心,在于压力是成长的必要条件,通过适度随机性和挑战,系统能优化自身。塔勒布强调,这不能简单理解为恢复力(resilience),而是因混乱而获益的能力。
“Chaos is the ladder.” 《权力的游戏》里,小指头是专业的。
三 神君何在
让我们终于切入正题。
回顾此前所述,三倍杠杆ETF,不仅有着上窜下跳的狂躁特性,却又似乎隐含某种“反脆弱”的影子?
其原因书童在此不多解释,请诸君翻及前篇,思忖究竟,亦有助于诸君投资获益。
塔老哥投资策略的核心,在于如何“基于非预测性的世界观,来构建具有反脆弱性的策略”。
老哥格外推崇的一个策略,被其誉为“杠铃策略”:
老哥《反脆弱》一书中,如此写道:
起初,我用杠铃来形象地描述在某些领域采取保守策略(从而在负面的“黑天鹅”面前保持强韧性),而在其他领域承担很多小的风险(以开放的姿态迎接正面的“黑天鹅”)的双重态度,从而实现反脆弱性。
一面是极端的风险厌恶,一面是极端的风险偏好,而不采取“中等程度”或“温和”的风险态度,因为这种态度实际上是骗人的把戏(人们一般都明白“高风险”和“零风险”的概念,但是中等风险则有很大的迷惑性,因为它受巨大的测量误差的影响)。
但是,得益于它的结构,杠铃策略有利于不利风险的减少,也就是能消除毁灭性风险。
是不是诘屈聱牙,莫名其妙?
没关系,书童用人话举几个例子:
某位有着铁饭碗公务员工作的老哥,用每月工资的5%去购买比特币。
作家J.K.罗琳在教学的同时写作《哈利·波特》。
把99%的仓位放到短期美债,1%的仓位每隔几个月赌一次末日期权。

因此,我们是否有可能,利用3XETF,构建一个杠铃策略,使得该策略实现:
a.获得与底层标的相若的长期复合增长率的同时,承受幅度更小的最大回撤水平。
b.在相似幅度的最大回撤水平下,能够获得高于底层标的的长期复合增长率。
可见,a与b基本等价,实现任何一者,都相当于获得了一个优于直接买入并持有单一底层标的的策略。
好,我们不妨以SPXL为例,尝试能否按照塔老哥得投资哲学,构建一个杠铃策略,使之优于单纯买入并持有底层标的标普500。
要知道,拉长到十年的跨度,85%以上的基金经理,是无法跑赢标普500的哦!
四 太一安有
首先,让我们考察,从SPXL开始公开交易的2008年11月7日(书童勘误:应为11月5日,差两天,就不重新回测啦XD)至2025年10月12日,差不多17年岁月,用一万美元,一把梭SPY(标普500指数基金ETF),每年1月1日,将分红再投资,会怎样呢。

啥玩意儿啊,花花绿绿的。
老读者们或许知道,这张丑图讲了些啥。
新读者们,对不起,书童已经口干舌燥讲过很多遍啦,请参考系列文章之中篇,一窥丑图究竟。
书童直接抛结论在此:近17年光阴,一把梭并且每年红利再投资于SPY,能够把初始的一万美元,变为近8.7万美元!年化复合增长率高达13.62%!
当然,17年里,获取近8倍收益的过程,可不是一帆风顺的哦。
策略在08年11月入场,已经避开了2008年金融危机期间,最风雨飘摇的岁月,但是后续若干次大的回撤,幅度普遍也在-15%以上。
2020年新冠疫情Lockdown,美股连续熔断,最大回撤33.77%,想必不少读者记忆犹新。
好,接下来,让我们尝试用SPXL,来构建塔老哥的杠铃策略。
杠铃激进一端,当然是SPXL,那么极端保守的另一端呢?
什么最保守?当然是现金了。短期美国国债、国库券,等价于现金。
我们索性认为,这部分现金,滚动买入美国财政部发行的13星期国库券,能够获得国库券的无风险收益。
接下来是配比的问题,极端保守的一端,配比要显著多于激进一端。事实上,这是一个需要进行参数优化的问题。
作为初始猜测,我们采用7:3的比例,试一下!
由于SPXL的涨跌,会造成杠铃两端比例的变化;因此我们对这一杠铃组合,每年进行一次再平衡,维持现金与SPXL的比例保持在7:3。

哇!看到没?塔老哥诚不我欺!
17年里,杠铃策略基本维持与基准SPX差不多的年化收益率(11.5% vs 12.1%)。
惊艳的地方在于,SPX最大回撤在新冠疫情期间,达到-34.1%(指数回调略高于红利再投资),而杠铃策略将回撤控制在了-25.0%!
一边是极端的激进:三倍杠杆做多SPX,另一端是极端的保守,只买无风险的国库券,组合起来就是媲美SPX回报,同时拥有更低的最大回撤的组合!
这就叫——凸性!
啥玩意儿?
嘿嘿,不解释了,看塔老哥的书去理解吧。
此外,由于杠铃的激进端,三倍杠杆ETF独特的属性,在市场风雨飘摇的下跌阶段,居然可以自动去杠杆!
比如2020年,新冠疫情,美股连续熔断,最波澜壮阔的下跌阶段,我们杠铃策略的杠杆率,从接近200%,自动下降到了不到120%。
经常在券商融资加杠杆的同学可以发现,这与加杠杆直接买底层标的,有着截然相反的效果:一者随时让你收到Margin Call(追加保证金通知),另一者主动帮你去杠杆XD。
这是否也说明,3X杠杆基金本身,也存在一定的反脆弱性?
从极限角度考虑,如果SPXL跌到0(实际几乎不可能),你的债务也出清了,回到了无杠杆的状态。
哎呦喂,好像有点意思。
很好,我们可以进一步调整这个杠铃配比,比如我们希望在与基准SPX有相同的最大回撤的情况下,获得更高回报,那么可以增加SPXL的比重,来测试下6:4.

咣!-33%最大回撤,与SPX的-34%基本相若。
而年化回报,比SPX高出两个点还多,达到了+14.5%!
过瘾不过瘾?飘然不飘然?
当然,诸位看官需要注意的是,我们假设全部现金,都能获得13星期国库券的收益,这是一个过于理想的条件。
实际交易过程,难免有一定摩擦成本。当然,你的资金体量越大,这一成本损耗也越小。
服黄金、吞白玉
神君,太一!杠铃策略太无敌了吧。
让我们继续思考,是否有可能,构建出年化回报和最大回撤,两个指标都优于SPX的策略呢?
哈哈,广告时间到,下面请参考书童之前的文章——只要买入这种魔法资产,就能缓冲标普500一半的跌幅?。阅读思考后,记得返航哦。
咣咣咣!让我们把大类资产配置的思路,引入到杠铃的激进端。
让我们在激进端,组合两种不同的3X杠铃片!
比如加入3X做多20年以上长期美债的TMF,让TMF与SPXL两个杠铃片都是1:1配重,保守端的国库券杠铃片仍然占比60%。
由于TMF于2009年4月才开始公开交易,因此我们用中篇提到的类似的数学模型,将其扩展到2008年11月7日。

诶,这个策略看起来,好像并不及50-50股票-长债策略?
在不加杠杆的50-50策略中,由于长债和股票的低相关性,能够降低整个资产组合的波动。
而这个策略,似乎并没有明显降低最大回撤,反而拖拽了收益?
仔细查看收益曲线,我们能够看到,蓝色(投资组合累积收益)线相比于SPX,在2020年之前似乎不相上下,但是2020年之后,却一蹶不振。
回想2020年至今,美联储首先祭出了无限制放水的大杀器,然后通胀爆表,紧接着暴力加息,直到今日,美国20年期以上长债利率,仍然维持在4%以上。
3X杠杆做多长债,2022年暴力加息阶段,可是结结实实吃了个大瘪,至今仍然萎靡不振,无怪乎后续表现不济。
让我们继续优化一下则个策略。
让我们祭出——只有中子星碰撞,才能够创造的——星际文明硬通货——黄金!这一独特的资产,与美股、长债相关性都很低。
服黄金,吞白玉。说干就干。
可是美股赌具当中,把现货/期货黄金价格作为底层标的,并提供3X杠杆的ETF,只有一支SHNY。
这支由加拿大蒙特利尔银行发行的杠杆ETF,其追踪GLD(底层标的为现货实物黄金)日价格变化,但其从2023年才开始的短短历史,并不足以协助我们构建策略。
那么我们只能退而求其次,采用2X杠杆的黄金ETF——UGL来构建啦。
当然UGL其实和SHNY的底层标的并不一样,暂时先不讨论这个。

诶,这个结果似乎有改善,但好像还是逊色了些哦,2016年之后,就开始持续跑输SPX了。
注意那个UGL24%的比例,纯纯是年初再平衡后,黄金硬生生的价格涨出来的。
咱说了,黄金,可是星际文明货币,将来外星智慧生物来地球,大概率也会认黄金为一般等价物。
追高慎重,其余不再赘述,相关文章,请看文末。
我们继续优化一下这个策略。
首先,现金比例60%,在有三种相关性低的大类资产,占据了杠铃另一端的情况下,似乎确有些过于保守了,让我们把这个比例降低到50%——公平。
此外,2X杠杆和3X杠杆的杠铃片,怎么能一样重呢。我们不妨让SPXL:TMF:UGL=2:2:3,看看结果有何不同!

结果有改善,但依然逊色SPX的表现。难道,没有更好的方法,能够改善这种杠铃策略的回报表现了么?
谁似任公子,云中骑碧驴
有!甚至,这个改进后的杠铃策略,正是书童本人,已长期使用的策略之一。
我们首先,还是要继续深入考察3X杠杆ETF的基本特性。
………………
以SPXL为例,复习一下。
优点:
缺点:
因此,我们改进的基本逻辑是:
来时汹涌澎湃,排山倒海;走时雷厉风行,斩钉截铁。
这不废话么,谁都想在上涨阶段在场,下跌阶段离场。
没错,事实上,在这一基本哲学指导下,依赖客观、可靠的技术指标,建立起来的交易系统,往往被划分在趋势跟随系统。
让我们仅仅使用一个最简单的趋势跟随策略:双均线系统,来优化我们的杠铃策略。
双均线交易系统是一种基于两条移动平均线(MA)的技术分析交易策略,通常使用短期均线(如5日或10日)和长期均线(如20日、50日)。
其核心逻辑是通过均线的交叉来判断买卖信号:
金叉(买入信号):当短期均线上穿长期均线时,表明价格趋势可能转为上涨,触发买入信号。
死叉(卖出信号):当短期均线下穿长期均线时,表明价格趋势可能转为下跌,触发卖出信号。
这这这,这不就是追涨杀跌么?
没错,就是追涨杀跌,不过是有规矩的追涨杀跌。
我了解诸多科班出身,擅长宏观分析、企业估值、以及AI量化的朋友们,对诸多技术分析过拟合流派嗤之以鼻。
书童最初也不屑一顾,直到真正在SPXL上测试了双均线系统,并且想明白了一些事情。
因书童不喜欢频繁交易,仅仅进行了简单的参数优化,让长短均线有尽可能大的离差,从而降低对短期小波动(噪音)的敏感性。
优化后选用10日做短均线,180日为长均线参数。
我们假定完全不保留现金,维持每年一次再平衡的频率,如果触发买入或卖出信号,则全仓买入/卖出。

震惊不震惊?
回测时间段,SPXL+双均线策略的收益曲线,稳稳压制了基准SPX,年化收益率接近令人叹为观止的25%。而最大回撤,被截断在38%,仅仅比SPX高一点点。
为什么如此震撼?一方面,必须承认,利用历史数据进行参数优化,必然无法避免过拟合的问题。长期执行该策略,大概率无法获得历史回测期间如此优异的风险回报比。
另一方面,比较玄学的是,SPX的上涨,往往具有小幅、持续、稳定的特点;而下跌,则往往凌厉、迅速、短暂;SPX下跌过后,要么是快速反弹;要么是慢慢磨底走熊。
以上三种特点组合,非常适合以分隔较大的长短均线交织飞舞,作为非预测性的判断指标。
趋势来了,大快朵颐;趋势走了,胆小如鼠;而上下穿线震荡,对不起了,这是必须付出的成本。
那么问题是,SPX,是否长期依然有这种特性?我不知道,没有人知道。
最后,我们以最大回撤不超过SPX为目标,构建了SPXL+TMF+UGL的杠铃策略,结果如下:

长期年化回报+15.5%,超过SPX 3%哦,而且,最大回撤仅仅-26%,低于SPX近10%呢。
聪明如你,一定发现,这个策略,居然会满仓SPXL+TMF+UGL。
这这这,这与杠铃策略大大的不同吧!
我们不妨这样解读:塔勒布的杠铃策略中,全部资产、自始至终,都处于买入并持有状态,并不择时而动;因此,在任一时间切片上,杠铃两端,都挂满了杠铃片。
而我们,引入的双均线策略,实际上是一种动态择时的策略。从而我们构建了时间上的动态杠铃。
同时,由于这些标的,是市场上流动性非常好的标的,MA穿线全仓买入/卖出的时候,标的承载数百万美元的交易规模,也不会对价格造成可观测的影响。
因此,对于一般私人资产规模而言,策略容量是绰绰有余的。
浪潮涌来,让我们用全部的杠铃片,倾注于激进洪流;海啸褪去,让我们斩钉截铁地驶离险滩,持盈守泰。
那么,书童对自己的究极拷问是:我到底有多么相信,该策略的长期有效性?
嘿嘿,自从程序化运行和跟踪以来,这个策略,被书童称为:Wizardspike,巫师之刺。
玩过暗黑破坏神II的朋友,或许会知道,这是死灵法师用的一件暗金匕首。

行情好的时候,我们刺突猛进,博取丰沛收益;潮水一旦褪去,我们干净利落,扭头抽离。
如刺突进,如刺抽离——巫师之刺。
对书童而言,大概只把10-15%的总资产,放在该策略上,
最后的最后,必须要提醒诸君:2020年3月连续熔断期间,你能卖出去么?
3X ETF,永远只能当作正餐后的甜点,蛋糕上的奶油,做菜放的调味料。
千万不能喧宾夺主,成为主食和正餐哦!!!
参考:
“要是轮到上帝上场击球的话,我就一定投给他一个快球,管保又高又刁”——欧内斯特·海明威《岛在湾流中》
〇 引子
你玩过《博德之门》系列游戏么?
嘿嘿,我和香菇,初来乍到,非常喜欢。
可不是得了Steam大奖、好评如潮的《博德之门3》哦。
当然要对整个系列游戏都充满崇高敬意,近30年后,方才邂逅最经典的《博德之门1》。
如果你玩过这款1998年发行的、遵循龙与地下城规则系统的RPG游戏,那么你一定忘不了,它是多么难以上手。
比如,你创建了一个施法系角色,刚刚离开烛堡,就要面临第一场战斗。
尽管你完全不习惯手动暂停这种奇葩的战斗系统,但刚刚学会施放的魔法飞弹,伴随着夸张的音效,给予了敌人痛快的一击。
“哈!”——你随之欢呼,却发现只有一次施法机会。
接下来,你紧握手杖,头顶4点HP,勇敢冲向敌人——几次空挥过后——主角被一击毙命。
emmmm……
如果经历这么糟心的第一场战斗,你还没有彻底弃坑、或者放弃以施法系人物开局,那么你将会发现:
投石索和短弓,对于开局期间,生命值孱弱的施法系角色,是多么重要呀!
在保持尽可能远的物理距离的同时,试图获得高数值、高准确、大面积投射伤害的能力,在许多RPG游戏当中,都是非常有效的游戏策略逻辑。

一 投掷
你知道吗?在孕育了一切已知生命的地球上,人类是唯一能够以高速、力量和精确度进行上臂投掷的物种。
咋听起来,是不是有点惊讶?
不对,印象中,似乎猴子和猩猩这类灵长类动物,也会投掷?
Grok告诉我,恒河猴能评估投掷轨迹以避险,但自身无法精准投掷。
作为人类最近的亲缘物种,黑猩猩,能扔物体(如石头或粪便),但速度仅约40公里/小时(11米/秒),准确性极低。
在一项研究中,野生黑猩猩扔出44个物体,仅在2米内击中目标5次,且无法造成致命伤害。
然而,作为人类,专业棒球投手可以轻松投出超过约145公里/小时(40米/秒)的快球。
人类徒手投掷的最高速度纪录,由美国职业棒球大联盟(MLB)投手阿罗尔迪斯·查普曼(Aroldis Chapman)在2010年9月24日创下,169.31公里/小时(47.13米/秒)。
总之,孕育了一切已知生命的地球上,没有任何一种动物,能像人类一样,只需要一定的训练,就能以足够的力量和精确度,投掷石块,砸碎30米范围内,无论同类还是异类的头骨。
如果把人类视为一种上帝智能,那么像投掷这种与物理世界互动的身体技能,可是有着至少200多万年的训练数据了哦。
作为对比,现代语言的形成,不过才30万至10万年前的事情,至于更加高级和抽象的文字系统,不过5000多年的历史而已。
如果把人类看作是上帝创造的智能,而人类所缔造的人工智能,恰恰从上帝智能最新近、最高级、最抽象的发明——文字系统上,获得了巨大突破。
可不要再嘲笑,目前只会一个个往外蹦字儿的人工智能啦。
你咋知道,上帝智能将来不会给人工智能找到路子,喂给他们200多万年真实物理世界的数据后,做饭、扫地、叠衣服,依然干得没你好?
2016年查普曼服役于洋基队时投球照片
二 弓弩
作为蓝星上最聪明的物种——智人,当然不能仅仅满足于徒手投掷啦!
智人是会发明工具的哦。
1万多年前,有一个聪明的智人,灵光一闪,巧妙地将皮革或植物纤维组合起来。
从此之后,对于智人来说,已经不需要拥有查普曼那般过人的臂力,也能够轻松实现40米/秒的快速投掷。
这位祖先,发明了一种简单地投掷工具——投石索(Sling)。

哇,博德之门施法系开局神器!
投石索究竟有多厉害?
不妨让我们看看圣经《旧约·撒母耳記》中,大衛與歌利亞的故事。
非利士人前來攻擊以色列人。有個名叫歌利亞的非利士巨人,每天早上都向以色列人叫戰,看誰要來跟他決鬥。歌利亞比其他任何人都要高大,且性情兇猛。他穿著厚實的盔甲,帶著劍、矛和大型盾牌。沒有人敢和他決鬥。(撒母耳記上17:1-11)
大衛是個年輕的牧童,對主很有信心。他的哥哥都是以色列軍營的士兵。有一天,大衛為哥哥們送餐。當他到了軍營,聽到歌利亞在叫戰。(撒母耳記上17:20-23)
大衛問士兵為何沒有人捍衛以色列。他的哥哥們很生氣,叫他回去照顧羊群,但是大衛知道主會保衛以色列。(撒母耳記上17:24-30)
掃羅王知道大衛的信心,因此要求接見大衛。大衛告訴掃羅,他不怕去跟歌利亞決鬥。大衛說,有一次他在看顧羊群時,殺了一頭獅子和熊。主當時保護了他,因此大衛知道主這次也會保護他。(撒母耳記上17:31-37)
掃羅把自己的盔甲給大衛穿,但並不合身,所以大衛脫下盔甲。他決定不穿盔甲去戰鬥。(撒母耳記上17:38-39)
大衛收集了五顆光滑的石子放在袋裡。他拿著投石器和牧羊杖去迎戰歌利亞。(撒母耳記上17:40)
歌利亞看見大衛,就大聲吼叫並嘲笑他,說一個牧童根本打敗不了他。大衛大聲回答說,他信賴主會保護他!大衛說,他會打敗歌利亞來彰顯主的大能。(撒母耳記上17:42-47)
大衛衝向歌利亞,用投石器迅速地甩出一顆石子,擊中歌利亞的額頭,這巨人就倒在地上。主幫助大衛不用任何刀劍或盔甲就打敗歌利亞。(撒母耳記上17:48-50)
非利士人看見歌利亞死了,就害怕地逃跑。以色列人打了勝仗。大衛信賴主,而主保護了以色列。(撒母耳記上17:51-53)
见识到投石索的厉害了吧。
尽管使用投石索这种原始的投掷工具,就能够击毙歌利亚巨人,但那是大卫!
实战中,投石索准确性低,投手在战场需要较大空间,无法集中部署,而且训练难度也大。
聪明的你,一定想到了,我将要介绍,对人类历史来说,极端重要的另一种远程武器:弓箭!
弓的发明,甚至可能早于投石索。
但为什么没有完全取代投石索呢?因为投石索对付覆甲敌人更有效咯。
已知最古老的人类使用弓箭证据,来自南非的Sibudu洞穴等地,那里发现了可能的石制箭头,其历史可追溯到大约72,000至60,000年前。
这一时期,智人已在非洲活跃,7.2万至6万年前是其在非洲内部扩散和向外迁移的关键阶段。
西班牙莫雷利亚城洞穴(cave at Morella la Vella)中描绘的一场遭遇战,约公元前 7000 年
人类最早使用的弓,是单体弓。
什么叫单体弓?即弓身为单一材料做成。
单体弓的制作很简单,找一根坚硬且又有韧性的树枝或者竹子,用火稍微烤干一下,在两端分别刻一个凹槽,然后找一根兽皮或者动物的筋在凹槽上绑紧作为弓弦,单体弓就这样做成了。
在数万年的时间里,人类试图让弓在同样的拉力下,获得更快的箭矢初速度,现代复合弓是当今最快的弓型。
来来来,围观下现代人制造的复合弓,单纯相貌上看,就知道是科技狠活堆出来的,上下俩滑轮,连弦都不止一根。

为啥搞这么丑呀,因为复合弓要靠这套复杂的滑轮系统,将弹性势能转化为箭矢动能的效率,提高到90%以上,这才显著提升初速度。
据Grok,顶级复合弓(如Hoyt或Mathews品牌,拉力70-80磅,箭重约20-25克),在理想条件下,箭矢初速可达到 95-100米/秒。
非常好,作为比投石索更复杂的工具,蓄积弹性势能,随后转化为箭矢动能,相比于智人投掷可以达到的速度,翻倍了!
我和香菇,逛博物馆的时候,总能看到一片片粗糙、斑驳的东汉石刻的后面,陈列着一件精巧的青铜弩机。
一者粗枝大叶,一者精致巧妙,但却是同一时期的人类发明,总让我感到非常不可思议。

弩的发明,甚至可以追溯到春秋战国。
弩的关键部件——弩机,非常精致巧妙。
弩机的制作流程,包括模具铸造、打磨和组装,常有精细的齿轮和扣件,要求高超精湛的机械工艺,才能确保弩高速、精准的射击性能。
第一个发明弩机的人,一定是比肩达芬奇或爱迪生的天才吧!
数千年的时间里,人类同样试图,让弩获得更快的箭矢初速度,于是科技狠活又堆起来了——现代复合弩。
比起第一个发明弩机的智人,那位灵光一闪,将滑轮组迁移到弓弩上的智人,貌似没那么值得钦佩哈。
据Grok,顶级复合弩(如TenPoint Vapor RS470或Ravin R29X)发射轻型弩箭(约400 grain,约26克)时,初速度可达 140-150米/秒。例如,2023年Ravin R500E测试记录显示初速度为 152米/秒(约500英尺/秒)。
相比于复合弓能够达到的初速,又上升了50%哈。
敲黑板啦,冷兵器的范畴中,人类用了数万年时间,从徒手投掷到现代复合弩,抛射速度,仅仅提高了3倍。

三 枪炮
你知道,我还要说点什么?
嘿嘿,热兵器时代到了。
仅靠肉体的呼吸作用,利用氧气去燃烧有机物,最终转化为抛射物的动能,各种科技狠活堆砌,也不过给予箭矢150米/秒的初速度。
人类真的太聪明了,以至于我们发明了火药,从而在密闭且有限的空间中,点燃远比通过线粒体呼吸作用,更为激烈的氧化还原反应。
让瞬间沸腾暴涨的气体,直接驱动弹丸,获得巨大动能。
我们就不从黑火药与火铳,一一细数枪炮的历史沿革啦。来,直接上科技狠活。
现代高性能步枪,比如巴雷特M82,发射.50 BMG子弹,枪口初速(muzzle velocity)可达约900米/秒。
巴雷特M82反器材步枪
实验性的超高速步枪弹药,如.220 Swift,甚至能获得接近1400米/秒的枪口初速。
看到没,人类的聪明才智,能够做出多么不可思议的事情。
坦克炮的炮弹初速,就更惊人了。德国莱茵金属120毫米滑膛炮发射穿甲弹,初速度轻松突破1700米/秒。
初始阶段化学推进的理论极限,在实验室苛刻条件下,大概摸到2000-2500米/秒的天花板。
再往上,得靠电磁轨道炮了。
轨道炮,靠洛伦兹力加速弹丸,能量来自电能,无惧真空,精确缓冲,反应堆供能——当然是太空作战、星际迷航必不可少之神器啦。
美国海军测试过,发射10-20公斤弹丸,初速可达2500米/秒。实验室里用更轻的弹丸和高能脉冲电源,甚至能冲到3000-4000米/秒。
比徒手投掷,快了100倍了哦。
四 火箭
从徒手投掷,到弓弩再到枪炮,人类不断突破着抛射物的速度极限。
仅仅初始阶段的加速和推进,怎么能够满足人类的野心呢。
我们早已不再满足于“把东西打出去”,而是想要“把东西一直向前推进”,推出地球、推向深空。
欢迎来到火箭时代。
考据的书童,终于搞明白了“比冲 (specific impulse)”的概念。
比冲的单位是秒,却描述了燃料推进剂的效率。
比冲代表了燃烧一公斤的燃料,能提供多长时间一公斤的推力。
化学燃料的比冲通常在200-450秒之间——比如液氢液氧组合的最高比冲约450秒。
单级液体火箭发动机的排气速度大约是4.4公里/秒。
排气速度已经与电磁炮初速相当了呢。
人类那么聪明,当然要成为蓝星上唯一有能力逃离地球引力的物种啦。
为了实现这个目标,人类设计了强大的多级化学火箭。
土星五号,或者SpaceX的猎鹰重型火箭,它们通过逐级抛弃空燃料箱的方式“轻装上阵”,最终把航天器加速到环绕地球的第一宇宙速度——7.8公里/秒。
逃离地球的第二宇宙速度也不在话下——11.2公里/秒。
当然,人类绝不会就此满足。
位于 NASA LC-39A发射台的猎鹰重型火箭
五 引力弹弓
还记得旅行者号(Voyager)吗?
旅行者1号和旅行者2号,分别于于1977年9月5日和1977年8月20日发射。
是的,旅行者2号更早发射,为了匹配其预设采用行星引力弹弓加速的轨迹。
距离它们离开地球,至今已经接近五十年了。
更加不可思议的是,尽管其中历尽坎坷,但是截至2025年9月21日,也就是至今为止,它们依然能够与地球母亲正常通讯。
当然,没有永恒的奇迹。
预计2030年,旅行者2号,将无法为任何仪器供电;而到2036年,两位旅行者与地球母亲通信的信号传输的电力,都将消耗殆尽。
旅行者1号,是目前人类发射过的,距离地球最遥远的人造物体。
旅行者,旅行者,真的是孤寂又漫长的旅程啊。
1970年代末,木星、土星、天王星、海王星大致连成一线,每175年才会出现一次。
这为旅行者们提供了绝佳的引力弹弓加速的机会。
行星强大的引力,牵引渺小的旅行者们不断接近它们。
当然要计算好,不能被捕获,一旦跌入行星大气层,然后就没有然后了。
先被拉向最接近行星的近心点(Periapsis),再被抛出,如同弹弓一般,航天器借走了行星的轨道动能,实现加速。
天体引力弹弓的作用原理
旅行者1号和2号,目前速度分别为17km/s和15.3km/s。
多么不可思议的速度,这是人类徒手投掷速度的——400倍还多。
这个速度记录,被2006年发射的新视野号探测器所打破。
它离开地球时,速度就达到了惊人的16.26km/s。
经过木星加速与冥王星加速后,2016年8月,新视野号的速度达到了23km/s。
580倍。
这依然不是极限。
派克(帕克)太阳探测器于2018年由NASA发射,其任务是反复探测和观察太阳的外日冕。
派克太阳探测器的任务多次使用金星的重力助推来逐渐减少其轨道的近日点,以达到最终距离太阳表面8.5太阳半径,即大约600万公里。
几天前的2025年9月15日,派克号完成了第25次近距离飞越太阳后,创下了距离太阳表面620万公里的记录。
依赖太阳的引力效应,派克达到了创纪录的192km/s的速度。
从习得投掷技能至今的数十至百万年来,人类已经把抛射物的速度,提高了4800倍。
这是一项多么令人瞠目结舌的成就。
我知道你要说什么,用引力弹弓加速,而不是人工推进,不算作弊么?
嘿嘿,就当没作弊吧。
派克太阳探测器
六 GPU和基因测序
咦,讲着讲着抛射物,怎么突然跃迁到了GPU?
哈哈,因为这才是本文的主旨呀。
人类非常、非常难以直观想象,短时间内数量级的变化,是多么不可思议。
比如大规模集成电路。
理查德·费曼(Richard Feynman)于1959年12月29日在加州理工学院发表的晚宴演讲,标题为:There’s Plenty of Room at the Bottom。
费曼的探讨了人类操纵和控制微观尺度物质的可能性,特别强调了电子设备和计算机的小型化潜力。
人类在接下来的70多年里,进展如何呢?
你记得《大众软件》这个杂志么?
这本1995年就开始发行、介绍计算机软硬件的杂志,1999年改为半月刊,因为销售火爆,2009年竟然改为旬刊,每月1日、8日和16日面向全国发行。
杂志最辉煌的那几年,恰好是我高中的那几年。
那种似乎没有穷尽的束缚与压抑的日子,至今想来,依然心有余悸。
周六,学校食堂并不开张,自习结束,必须要外出觅食。
周六中午,我总是奔向校园西侧的小巷,首先冲向书报亭,买一本当旬的《大众软件》,再到周围,糊弄些吃的。
这本《大众软件》,就是我未来一到两周,全部的精神食粮。
2009年元旦刚过,我盯着杂志上,英伟达发布的GTX 285旗舰级显卡,口水直流。
GeForce 200系列,55nm制程,1GB DDR3显存,14亿晶体管,240个着色单元、80个纹理映射单元和 32个光栅单元与30个流处理器。
想到家里的台式机,CPU是04年英特尔赛扬D,菲律宾产,当初之所以选它,是因为它在90nm工艺下,主频最高且价格最便宜。
没有GPU,只给你看赛扬D!
买回来后,发现发热是大问题,待机50度,随便玩个游戏直接飙90度,风扇像转得像空调外机。
显卡呢?独显买不起,32MB显存集显,解码720p视频直接自动重启。
在那高压、几乎没有自由的日子里,对着杂志翻看旗舰显卡参数,吉光片羽,都是难得的幸福和满足。
那个时候,AlexNet尚未出现,Transformer更不存在。
你知道吗,32位单精度浮点运算能力,GTX285能够达到708.5GFLOPS。
我们假定,GTX285的16位半精度浮点运算能力,相当于翻倍,那就是约1.4TFLOPS,
16年后的2025年,英伟达推出专门面向AI应用的B300芯片,估计其16位浮点运算能力,已经提升到3750TFLOPS。
16年,接近2700倍的提升。
如果不考虑大型天体引力弹弓的效应,人类用了多少年,才能将抛射物的速度,提高500倍?
你还记得生物课本上的人类基因组计划(Human Genome Project, HGP)吗?
为什么突然讨论起这个?
2003年完成首个完整人类基因组测序,当时的成本约为30亿美元(约合一个基因组的测序费用)。
据Grok,到2025年,全基因组测序(Whole-Genome Sequencing, WGS)的成本已降至约200美元/个基因组。

这意味着从2003年到2025年,22年的时间,基因测序成本下降了约1500万倍,或下降幅度达99.999993%。
这一下降得益于下一代测序技术(NGS)的进步、自动化、规模化,推动了从实验室级到消费级的转变。
癌症靶向治疗,通常需要基因测序来确定适合的靶点。
在2000年前后,基因测序和靶向治疗的综合成本,对绝大多数患者和医疗系统来说,几乎是“天文数字”,而如今,已经作为外科手术、放化疗之后的普及疗法。
短时间指数级的变化,很快就会拉开数量级的差距。
我们的大脑,很难捕捉、理解和适应这种变化。
但是,请务必敏感地,捕捉它,理解它,感受它,拥抱它。
在它面前,人生的许多问题,不再是问题。
未来与希望,都在这里了。
(完)
书童按:本篇是德米斯·哈萨比斯(Demis Hassabis)爵士于2025年7月接受Lex Fridman的播客采访实录,他完全可被视为全世界最懂人工智能的寥寥数人其中之一。本篇(下篇)采访中涉及等观点,精彩绝伦,令人击节称赞。初稿采用Deepseek翻译,经自动化中英混排,书童仅做简单校对及批注,中文全部译文多达4万余字,分为上、中、下三个部分发出,以飨诸君。

谷歌与AGI竞赛
Google and the race to AGI
Lex Fridman (01:17:55) 所以商业、领导力方面令人难以置信的故事之一是谷歌过去一年所做的事情。所以我认为可以公平地说,一年前,谷歌在 LLM 产品方面正在失利,Gemini 1.5。而现在它正在获胜,这……我是乔·拜登(开玩笑)。你接手了领导工作,并领导了这项努力。从所谓的失利到所谓的获胜,需要付出什么,在一年之内?
(01:17:55) So one of the incredible stories on the business, on the leadership side is what Google has done over the past year. So I think it’s fair to say that Google was losing on the LLM product side a year ago with Gemini 1.5 And now it’s winning, which… I’m Joe Biden. And you took the helm and you led this effort. What did it take to go from let’s say quote-unquote losing to quote-unquote winning, in the span of a year?
Demis Hassabis (01:18:22) 是的,嗯,首先,我们拥有绝对不可思议的团队,由 Corey、Jeff Dean、Oriole 以及我们在 Gemini 上的出色团队领导。绝对地。所以没有最优秀的人才,你无法做到。当然我们也有大量出色的计算资源。但然后是我们创造的研究文化,基本上是把谷歌的不同团体聚集在一起,那是世界级的 Google Brain 团队,然后是原来的 DeepMind,聚集所有最优秀的人和最好的想法,团结起来制造我们所能制造的最伟大的系统。
Demis Hassabis (01:18:22) Yeah, well firstly it’s absolutely incredible team that we have led by Corey and Jeff Dean and Oriole and the amazing team we have on Gemini. Absolutely. So you can’t do it without the best talent. And of course we have a lot of great compute as well. But then it’s the research culture we’ve created and basically coming together both different groups in Google that was Google Brain, World-class team, and then the old DeepMind, and pulling together all the best people and the best ideas and gathering around to make the absolute greater system we could.
(01:18:59) 这很艰难,但我们都非常有竞争力,并且我们热爱研究。做这件事太有趣了,看到我们的发展轨迹很高兴。这不是必然的,但我们对我们所处的位置和进展速度非常满意。所以如果你看看我们从两年前到一年前再到现在的历程,我认为我们称之为 relentless progress(无情进展)。连同 relentless shipping(无情发布)的进展,一直非常成功,并且竞争激烈得难以置信,整个 AI 领域,与世界上一些最伟大的企业家、领导者和公司都在竞争,因为每个人都意识到了 AI 的重要性。看到这种进展对我们来说非常令人高兴。
(01:18:59) And it was been hard, but we’re all very competitive and we love research. This is so fun to do, and it’s great to see our trajectory. It wasn’t a given, but we’re very pleased with where we are and the rate of progress is the most important thing. So if you look at where we’ve come to from two years ago to one year ago to now, I think we call it relentless progress. Along with relentless shipping of that progress is being very successful and it’s unbelievably competitive, the whole space, the whole AI space, with some of the greatest entrepreneurs and leaders and companies in the world, all competing now because everyone’s realized how important AI is. And it’s very been pleasing for us to see that progress.
Lex Fridman (01:19:47) 谷歌是一家巨型公司。你能谈谈在这种情况下自然发生的事情吗,就是出现的官僚主义?你希望小心自然,有会议,有经理,等等。从领导力的角度来看,为了达到,就像你说的,发布(产品),突破这些的一些挑战是什么?像过去几年发布的 Gemini 相关产品的数量是疯狂的。
Lex Fridman (01:19:47) Google’s a gigantic company. Can you speak to the natural things that happen in that case is the bureaucracy that emerges? You want to be careful the natural, there’s meetings and there’s managers and that. What are some of the challenges from a leadership perspective, breaking through that in order to, like you said, ship? Like the number of products, Gemini related products that has been shipped over the past years is insane.
Demis Hassabis (01:20:14) 对吧?是的,正是。这就是 relentlessness(无情)的样子。我认为问题是任何大公司最终都会有很多管理层次之类的事情,这是其运作方式的本质。但我仍然运作,并且我一直以初创公司的方式运作旧的 DeepMind。一个大的,但仍然像初创公司一样。
Demis Hassabis (01:20:14) Right? Yeah, exactly. That’s what relentlessness looks like. I think it’s a question of any big company ends up having a lot of layers of management and things like that is sort of the nature of how it works. But I still operate and I was always operating with old DeepMind as a start-up still. A large one, but still as a start-up.
(01:20:37) 这就是我们今天在 Google DeepMind 仍然采取的行动方式。以决断力和最好的小型组织所具有的能量行动。我们试图两全其美,我们拥有这不可思议的、数十亿用户的界面和可信的产品,我们可以用我们的 AI 和研究来赋能,这太棒了,世界上很少有地方你能得到那个,一方面做不可思议的世界级研究,然后第二天就将其接入并改善数十亿人的生活。这是一个相当惊人的组合。
(01:20:37) And that’s what we still act like today with Google DeepMind. And acting with decisiveness and the energy that you get from the best smaller organizations. And we try to get the best of both worlds where we have this incredible, billions of users surfaces and credible products that we can power up with our AI and our research and that’s amazing and that’s very few places in the world you can get that, do incredible world-class research on the one hand and then plug it in and improve billions of people’s lives the next day. That’s a pretty amazing combination.
(01:21:10) 我们不断地斗争和削减官僚主义,以让研究文化和无情发布的文化蓬勃发展。我认为我们取得了相当好的平衡,同时对其负责,作为一个大公司你必须这样做,并且我们也拥有大量巨大的产品界面。
(01:21:10) And we’re continually fighting and cutting away bureaucracy to allow the research culture and the relentless shipping culture to flourish. And I think we’ve got a pretty good balance, whilst being responsible with it, as you have to be as a large company and also with a number of huge product surfaces that we have.
Lex Fridman (01:21:30) 所以你提到的一个有趣的事情是关于拥有数十亿用户的界面,我和一个叫 Irvin Finkel 的杰出家伙在这里大英博物馆进行了一次对话。他是楔形文字的世界专家,那是一种写在石板上的古代文字,他不知道 ChatGPT 或 Gemini,他甚至不知道 AI,但他第一次接触这个 AI 是谷歌上的 AI 模式。
Lex Fridman (01:21:30) So a funny thing you mentioned about the surface with the billion, I had a conversation with a guy named, brilliant guy here at the British Museum, called Irvin Finkel. He’s a world expert at cuneiforms, which is a ancient writing on tablets and he doesn’t know about ChatGPT or Gemini, he doesn’t even know about AI, but this first encounter with this AI is AI mode on Google.
Demis Hassabis (01:21:57) 是的。
Demis Hassabis (01:21:57) Yes.
Lex Fridman (01:21:58) 他就像,这就是你们在谈论的 AI 模式吗?这只是提醒,世界上有很大一部分人不知道这个 AI 东西。
Lex Fridman (01:21:58) He’s like, is that what you’re talking about, this AI mode? And it’s just a reminder that there’s a large part of the world that doesn’t know about this AI thing.
Demis Hassabis (01:22:08) 是的,我知道。很有趣。如果你生活在 X 和 Twitter 上,至少我的 feed 是,全是 AI。在某些地方,在硅谷和一些小圈子里,每个人都在,他们想的全是 AI,但很多普通世界还没有遇到过它。
Demis Hassabis (01:22:08) Yeah, I know. It’s funny. If you live on X and Twitter and I mean it’s sort of at least my feed, it’s all AI. And there’s certain places where in the valley and certain pockets where everyone’s just, all they’re thinking about is AI, but a lot of the normal world hasn’t come across it yet.
Lex Fridman (01:22:24) 而那是他们第一次互动的巨大责任。农村的宏大范围,印度或世界任何地方,你都能到达……
Lex Fridman (01:22:24) And that’s a great responsibility to their first interaction. The grand scale of the rural, India or anywhere across the world you get to…
Demis Hassabis (01:22:34) 我们希望它尽可能好,并且在很多情况下,它只是在幕后赋能,让像地图或搜索这样的东西工作得更好。理想情况下,对很多人来说,这应该是无缝的。它只是让他们的生活更高效、帮助他们的新技术。
Demis Hassabis (01:22:34) And we want it to be as good as possible and in a lot of cases it’s just under the hood powering, making something like maps or search work better. And ideally for a lot of those people should just be seamless. It’s just new technology that makes their lives more productive and helps them.
Lex Fridman (01:22:50) Gemini 产品和工程团队的一群人对你的另一个维度评价极高,我几乎没想到。我有点认为你是深度科学家,关心这些重大的研究科学问题。但他们也说你是伟大的产品人,比如如何创造一个很多人会使用并喜欢使用的东西。所以你能也许谈谈创建一个很多人喜欢使用的基于 AI 的产品需要什么吗?
Lex Fridman (01:22:50) A bunch of folks on the Gemini product and engineering teams spoken extremely highly of you on another dimension, that I almost didn’t even expect. I kind of think of you as the deep scientists and caring about these big research scientific questions. But they also said you’re a great product guy, like how to create a thing that a lot of people would use and enjoy using. So can you maybe speak to what it takes to create a AI based product that a lot of people enjoy using?
Demis Hassabis (01:23:18) 是的。嗯,我的意思是,再次,那来自于我的游戏设计时代,我过去为数百万游戏玩家设计游戏。人们会忘记那一点。我在产品中拥有尖端技术的经验,那就是九十年代游戏的样子。
Demis Hassabis (01:23:18) Yeah. Well, I mean, again, that comes back from my game design days where I used to design games for millions of gamers. People would forget about that. I’ve had experience with cutting edge technology in product that is how games was in the nineties.
(01:23:31) 所以我实际上热爱尖端研究和然后应用于产品并为新体验提供动力的结合。所以,我认为这真的是同样的技能,即想象使用它会是什么样子, viscerally,并且拥有好的品味,回到早些时候。在科学中有用的同样东西,我认为在产品设计中也有用。
(01:23:31) And so I love actually the combination of cutting edge research and then being applied in a product and to power a new experience. And so, I think it’s the same skill really of imagining what it would be like to use it viscerally, and having good taste coming back to earlier. The same thing that’s useful in science, I think can also be useful in product design.
(01:23:57) 我只是一个非常,一直是一个多学科的人,所以我真的看不到艺术与科学、或产品与研究之间的界限。对我来说这是一个连续体。我喜欢研究尖端的产品。如果它们只是普通的产品,没有尖端技术 underneath the hood,我就不会对它们感到兴奋。它需要这种发明、创造力、能力。
(01:23:57) And I’ve just had a very, always been a sort of multidisciplinary person, so I don’t see the boundaries really between arts and sciences, or product and research. It’s a continuum for me. I like working on products that are cutting edge. I wouldn’t be able to have cutting edge technology under the hood. I wouldn’t be excited about them if they were just run-of-the-mill products. It requires this invention, creativity, cap capability.
Lex Fridman (01:24:23) 你学到的一些具体东西是什么,即使是在 LLM 方面,你与 Gemini 互动时?这感觉不像,布局,界面,也许在延迟之间的权衡,如何呈现给用户,等待多长时间以及如何显示那种等待或原因能力。有一些有趣的事情,因为就像你说的,它是非常尖端的。我们不知道如何正确地呈现它。所以有什么具体的东西你学到了吗?
Lex Fridman (01:24:23) What are some specific things you learned about when you, even on the LLM side, you’re interacting with Gemini? This doesn’t feel like, the layout, the interface, maybe the trade-off between the latency, how to present to the user, how long to wait and how that waiting is shown or the reason capabilities. There are some interesting things because like you said, it’s the very cutting edge. We don’t know how to present it correctly. So is there some specific things you’ve learned?
Demis Hassabis (01:24:55) 我的意思是这是一个如此快速发展的空间,一直在评估这个,但我们今天所处的位置是,你希望不断简化事情,无论是界面还是你在模型之上构建的东西,你有点想摆脱模型的阻碍。模型训练正在轨道上下行,并且它以难以置信的速度改进。我们之前谈到的无情进展。
Demis Hassabis (01:24:55) I mean it’s such a false evolving space, evaluating this all the time, but where we are today is that you want to continually simplify things, whether that’s the interface or what you build on top of the model, you kind of want to get out of the way of the model. The model train is coming down the track and it’s improving unbelievably fast. This relentless progress we talked about earlier.
(01:25:17) 你看看 2.5 对 1.5,那只是一个巨大的改进,我们预计未来的版本还会再次如此。所以模型正在变得更有能力。
(01:25:17) You look at 2.5 versus 1.5 and it’s just a gigantic improvement, and we expect that again for the future versions. And so the models are becoming more capable.
(01:25:26) 所以你在今天世界的设计空间中有趣的事情是,这些 AI 优先的产品是,你必须不是为今天的东西能做什么,技术今天能做什么而设计,而是为一年后的情况而设计。所以你实际上必须是一个非常技术性的产品人,因为你必须对和感觉有很好的直觉,好吧,我现在梦想的东西今天做不到,但研究轨道是否按计划基本上在六个月或一年内拦截那个。
(01:25:26) So you’ve got, the interesting thing about the design space in today’s world, these AI first products is you’ve got to design not for what the thing can do today, the technology can do today, but in a year’s time. So you actually have to be a very technical product person, because you’ve got to have a good intuition for and feel for, okay, that thing that I’m dreaming about now can’t be done today, but is the research track on schedule to basically intercept that in six months or a year’s time.
(01:25:55) 所以你有点必须拦截这个高度变化的技术将要去的地方,以及新的能力一直在上线,这些是我们以前没有意识到的,可以让这些研究工作的能力。或者现在我们有了视频生成,我们用它做什么,这种多模态的东西。
(01:25:55) So you’ve kind of got to intercept where this highly changing technology’s going, as well as the new capabilities are coming online all the time that we didn’t realize before that can allow these research to work. Or now we’ve got video generation, what do we do with that, this multimodal stuff.
(01:26:13) 一个问题我有,它真的会是今天我们拥有的当前 UI 吗,这些文本框聊天?一旦你想到这些超级多模态系统,似乎非常不可能。难道不应该是更像《少数派报告》(Minority Report)那样的东西吗,你在那里以一种协作的方式与它 vibe(共鸣)?今天看起来非常受限。我认为我们回顾今天的界面、产品和系统时,会认为它们在也许仅仅几年内就相当过时了。
(01:26:13) Is it, one question I have is it really going to be the current UI that we have today, these text box chats? Seems very unlikely once you think about these super multimodal systems. Shouldn’t it be something more like Minority Report where you are sort of vibing with it in a kind of collaborative way? It seems very restricted today. I think we’ll look back on today’s interfaces and products and systems as quite archaic in maybe in just a couple of years.
(01:26:41) 所以我认为实际上在产品方面以及研究方面都有很大的创新空间。
(01:26:41) So I think there’s a lot of space actually for innovation to happen on the product side as well as the research side.
Lex Fridman (01:26:47) 然后我们离线谈论了键盘是,悬而未决的问题是我们何时以及多大程度上将转向音频作为与我们周围机器交互的主要方式,而不是输入东西?
Lex Fridman (01:26:47) And then we are offline talking about the keyboard is, the open question is how, when and how much will we move to audio as the primary way of interacting with the machines around us versus typing stuff?
Demis Hassabis (01:27:00) 是的,我的意思是输入是一种非常低带宽的方式,即使你是一个非常快的打字员。我认为我们将不得不开始利用其他设备,无论是智能眼镜、音频耳塞,最终也许是某种神经设备,在那里我们可以增加输入和输出带宽到也许是今天的 100 倍。
Demis Hassabis (01:27:00) Yeah, I mean typing is a very low bandwidth way of doing it, even if you’re a very fast typer. And I think we’re going to have to start utilizing other devices, whether that’s smart glasses, audio earbuds, and eventually maybe some sorts of neural devices, where we can increase the input and the output bandwidth to something maybe a 100x of what is today.
Lex Fridman (01:27:24) 我认为未被充分欣赏的艺术形式是界面设计,因为我认为如果你没有正确的界面,你就无法解锁系统智能的力量。界面是你解锁其力量的方式。如何做到这一点是一个如此有趣的问题。所以你如何思考摆脱阻碍是一门真正的艺术形式。
Lex Fridman (01:27:24) I think that underappreciated art form is the interface design because I think you can not unlock the power of the intelligence of a system if you don’t have the right interface. The interface is really the way you unlock its power. It’s such an interesting question of how to do that. So how you would think getting out of the way isn’t real art form.
Demis Hassabis (01:27:46) 是的。那是我想史蒂夫·乔布斯总是谈论的东西,对吧?我们想要的是简单、美丽和优雅。还没有人做到那一点,在我看来。而那是我希望我们达到的。
Demis Hassabis (01:27:46) Yes. It’s the sort of thing that I guess Steve Jobs always talked about, right? It’s simplicity, beauty, and elegance that we want. And we’re not that nobody’s there yet, in my opinion. And that’s what I would like us to get to.
(01:27:58) 再次,这有点像围棋,最优雅、最美丽的游戏。你能制作一个像那样美丽的界面吗?实际上,我认为我们将进入一个 AI 生成界面的时代,这些界面可能是个性化的,适合你,你的审美,你的感觉,你的大脑工作方式,AI 根据任务生成那种界面。感觉那可能是我们最终会走的方向。
(01:27:58) Again, it sort of speaks to Go again as a game, the most elegant, beautiful game. Can you make an interface as beautiful as that? Actually, I think we’re going to enter an era of AI-generated interfaces that are probably personalized to you, so it fits the way that you, your aesthetic, your feel, the way that your brain works and the AI kind of generates that depending on the task. That feels like that’s probably the direction we’ll end up in.
Lex Fridman (01:28:25) 因为有些人是高级用户,他们想要屏幕上的每一个参数,一切都基于也许是我用键盘导航,并为一切设置快捷键。而有些人喜欢极简主义。
Lex Fridman (01:28:25) Because some people are power users and they want every single parameter on the screen, everything based perhaps me with a keyboard-based navigation and to have shortcuts for everything. And some people like the minimalism.
Demis Hassabis (01:28:37) 只是隐藏所有那种复杂性。是的,正是。
Demis Hassabis (01:28:37) Just hide all of that complexity. Yeah, exactly.
Lex Fridman (01:28:39) 是的。嗯,我很高兴你身上也有史蒂夫·乔布斯模式。这太棒了。爱因斯坦模式,史蒂夫·乔布斯模式。
Lex Fridman (01:28:39) Yeah. Well, I’m glad you have a Steve Jobs mode in you as well. This is great. Einstein mode, Steve Jobs mode.
(01:28:47) 好吧,让我试着骗你回答一个问题。Gemini 3 什么时候出来?是在 DTS-6 之前还是之后?世界都在等待两者。
(01:28:47) All right, let me try to trick you into answering a question. When will Gemini 3 come up? Is it before or after DTS-6? The world waits for both.
(01:28:56) 从 2.5 到 3.0 需要什么?因为似乎已经发布了很多 2.5 的版本,这些版本在性能上已经有了飞跃。所以升级到一个新版本甚至意味着什么?是关于性能吗?是关于一种完全不同的体验风味吗?
(01:28:56) And what does it take to go from 2.5 To 3.0? Because it seems like there’s been a lot of releases of 2.5, which are already leaps in performance. So what does it even mean to go to a new version? Is it about performance? Is it about a completely different flavor of an experience?
Demis Hassabis (01:29:16) 是的,嗯,所以不同版本号的工作方式是我们试图收集,所以也许做一个新类型的完整运行和新版本的完整产品化大约需要六个月左右的时间。
Demis Hassabis (01:29:16) Yeah, well, so the way it works with our different version numbers is we try to collect, so maybe it takes roughly six months or something to do a new kind of full run and the full productization of a new version.
(01:29:32) 在那段时间里,很多新的有趣的研究迭代和想法出现,我们 sort of 将它们全部收集起来,你可以想象过去六个月在架构方面的有趣想法,也许是在数据方面,就像许多不同的可能事情。我们将所有那些打包,测试哪些可能对下一次迭代有用,然后将所有那些捆绑在一起。然后我们开始新的巨型英雄训练运行。然后当然那会被监控。
(01:29:32) And during that time, lots of new interesting research iterations and ideas come up, and we sort of collect them all together that you could imagine the last six months worth of interesting ideas on the architecture front, maybe it’s on the data front, it’s like many different possible things. And we package that all up, test which ones are likely to be useful for the next iteration, and then bundle that all together. And then we start the new giant hero training run. And then of course that gets monitored.
Demis Hassabis (01:30:00) …运行,对吧?然后当然那会被监控,然后在预训练结束时,还有所有的后训练,有很多不同的方式做那个,不同的修补它的方式。所以那里有一个完整的实验阶段,你也可以从中获得很多收益。那就是你通常看到版本号指的是基础模型,预训练模型,然后是 2.5 的临时版本和不同的大小以及不同的小添加。它们通常是补丁或后训练的想法,可以在之后基于相同的基本架构完成。然后当然在那之上,我们还有不同的大小,Pro 和 Flash 以及 Flashlight,这些通常是从最大的那些,Flash 模型从 Pro 模型中蒸馏出来的。那意味着我们有一系列不同的选择。如果你是开发者,你是想优先考虑性能还是速度和成本?
Demis Hassabis (01:30:00) … run, right? And then of course that gets monitored and then at the end of the pre-training, then there’s all the post-training, there’s many different ways of doing that, different ways of patching it. So there’s a whole experimental phase there which you can also get a lot of gains out. And that’s where you see the version numbers usually referring to the base model, the pre-trained model, and then the interim versions of 2.5 and the different sizes and the different little additions. They’re often patches or post-training ideas that can be done afterwards off the same basic architecture. And then of course on top of that, we also have different sizes, Pro and Flash and Flashlight that are often distilled from the biggest ones, the Flash model from the Pro model. And that means we have a range of different choices. If you’re the developer, do you want to prioritize performance or speed and cost?
(01:30:51) 我们喜欢把它想成帕累托前沿(Pareto frontier),一方面,Y 轴像是性能,然后 X 轴是成本或延迟和速度 basically。我们有完全定义前沿的模型。所以无论你作为个体用户或开发者想要什么权衡,你应该找到我们的一个模型满足那个约束。
(01:30:51) And we like to think of this Pareto frontier of on the one hand, the Y-axis is like performance, and then the X- axis is cost or latency and speed basically. And we have models that completely define the frontier. So whatever your trade-off is that you want as an individual user or as a developer, you should find one of our models satisfies that constraint.
Lex Fridman (01:31:17) 所以 behind the version changes,有一个大的运行,然后还有一个产品化的 insane complexity。然后有沿着那个帕累托前沿的不同大小的蒸馏。然后随着你走的每一步,你意识到可能有一个很酷的产品。有支线任务。
Lex Fridman (01:31:17) So behind the version changes, there is a big run and then there’s just an insane complexity of productization. Then there’s the distillation of the different sizes along that Pareto front. And then as with each step you take, you realize there might be a cool product. There’s side quests.
Demis Hassabis (01:31:39) 是的,正是。
Demis Hassabis (01:31:39) Yes, exactly.
Lex Fridman (01:31:41) 然后你也不想接太多支线任务,因为那样你会有数百万个版本和数百万个产品。
Lex Fridman (01:31:41) And then you also don’t want to take too many side quests because then you have a million versions and a million products.
Demis Hassabis (01:31:45) 是的,正是。
Demis Hassabis (01:31:45) Yes, precisely.
Lex Fridman (01:31:46) 非常不清楚,但你也超级兴奋,因为它超级酷。甚至怎么看 VLs?非常酷。它如何融入更大的事物?
Lex Fridman (01:31:46) It’s very unclear, but you also get super excited because it’s super cool. How does even look at VLs? Very cool. How does it fit into the bigger Thing?
Demis Hassabis (01:31:55) 是的,正是。正是。然后你不断地这个过程,我们称之为从产品界面或从后训练甚至更下游的想法上游,然后你将这些上游到下一次运行的核心模型训练中。所以然后主模型,主要的 Gemini 轨道变得越来越通用,并最终,AGI。
Demis Hassabis (01:31:55) Yes, exactly. Exactly. And then you’re constantly this process of converging upstream, we call it ideas from the product surfaces or from the post-training and even further downstream and that, you upstream that into the core model training for the next run. So then the main model, the main Gemini track becomes more and more general and eventually, AGI.
Lex Fridman (01:32:20) 一次英雄运行。
Lex Fridman (01:32:20) One hero run.
Demis Hassabis (01:32:21) 是的,正是。几次英雄运行之后。
Demis Hassabis (01:32:21) Yes, exactly. A few hero runs later.
Lex Fridman (01:32:23) 是的。所以有时当你发布这些新版本或每个版本时,基准测试对于显示模型性能是有益的还是适得其反的?
Lex Fridman (01:32:23) Yeah. So sometimes when you release these new versions or every version, really, are benchmarks productive or counterproductive for showing the performance of a model?
Demis Hassabis (01:32:36) 你需要它们,但重要的是你不要过度拟合它们。所以它们不应该是终极目标。所以有 LMArena,或者它曾经叫 LEMSYS,那是其中之一,结果有机地成为人们喜欢测试这些系统的主要方式之一,至少是聊天机器人。显然有很多学术基准测试数学和编码能力、一般语言能力、科学能力等等。然后我们有自己的内部基准,我们关心。
Demis Hassabis (01:32:36) You need them, but it’s important that you don’t overfit to them. So they shouldn’t be the be all and end all. So there’s LMArena, or it used to be called LEMSYS, that’s one of them that turned out organically to be one of the main ways people like to test these systems, at least the chatbots. Obviously there’s loads of academic benchmarks that test mathematics and coding ability, general language ability, science ability and so on. And then we have our own internal benchmarks that we care about.
(01:33:04) 这是一个多目标优化问题。你不想只擅长一件事。我们试图构建在各个方面都好的通用系统,并且你尝试进行无遗憾的改进。所以你在编码方面改进,但不会降低你在其他领域的性能。所以那是困难的部分,因为当然你可以放入更多编码数据或者你可以放入更多,我不知道,游戏数据,但那会不会让你的语言系统或你的翻译系统以及其他你关心的事情变得更糟?所以你必须不断监控这个越来越大、越来越大的基准测试套件。并且当你将这些模型放入产品中时,你也关心直接使用情况和直接统计数据以及你从最终用户那里得到的信号,无论他们是编码者还是使用聊天界面的普通人。
(01:33:04) It’s a multi objective optimization problem. You don’t want to be good at just one thing. We’re trying to build general systems that are good across the board, and you try and make no-regret improvements. So where you improve in coding, but it doesn’t reduce your performance in other areas. So that’s the hard part because of course you could put more coding data in or you could put more, I don’t know, gaming data in, but then does it make worse your language system or your translation systems and other things that you care about? So you’ve got to continually monitor this increasingly larger and larger suite of benchmarks. And also when you stick them into products, these models, you also care about the direct usage and the direct stats and the signals that you’re getting from the end users, whether they’re coders or the average person using the chat interfaces.
Lex Fridman (01:34:00) 因为最终,你想要衡量有用性,但将其转化为一个数字是如此困难。它真的是跨大量用户的 vibe-based benchmarks(基于感觉的基准)。而且很难知道,这对我来说只是可怕,你知道有一个聪明得多的模型,但只是 vibe-based 的东西。它不太工作。那真是太可怕了,以及你刚才说的一切。它必须在这么多领域既聪明又有用。所以你突然变得超级兴奋,解决了你以前从未解决过的编程问题,但现在它的诗歌更烂了之类的,只是,我不知道,那是一种压力。那太难了——
Lex Fridman (01:34:00) Because ultimately, you want to measure the usefulness, but it’s so hard to convert that into a number. It’s really vibe based benchmarks across a large number of users. And it’s hard to know and it would be just terrifying to me, you know have a much smarter model, but it’s just something vibe based. It’s not quite working. That’s such a scary and everything you just said. It has to be smart and useful across so many domains. So you get super excited all of a sudden solving programming problems you’ve never been able to solve before, but now it’s crappier poetry or something and it’s just, I don’t know, that’s a stressful. That’s so difficult-
Demis Hassabis (01:34:43) 去平衡。
Demis Hassabis (01:34:43) To balance.
Lex Fridman (01:34:44) 去平衡,并且因为你不能真正信任基准测试,你真的必须信任最终用户。
Lex Fridman (01:34:44) To balance and because you can’t really trust the benchmarks, you really have to trust the end users.
Demis Hassabis (01:34:48) 是的。然后其他更晦涩的事情开始起作用,比如系统的风格、角色,它是否冗长?是否简洁?是否幽默?不同的人喜欢不同的东西。所以这非常有趣。这几乎是心理学研究或人格研究的前沿部分。我过去在我的博士研究中做过那个,比如五因素人格,我们实际上希望我们的系统是什么样子的?不同的人也会喜欢不同的东西。所以这些都是产品空间中所有的新问题,我认为以前从未真正解决过,但我们现在将不得不迅速处理。
Demis Hassabis (01:34:48) Yeah. And then other things that are even more esoteric come into play, like the style of the persona of the system, is it verbose? Is it succinct? Is it humorous? And different people like different things. So it’s very interesting. It’s almost like cutting edge part of psychology research or personality research. I used to do that in my PhD, like five factor personality, what do we actually want our systems to be like? And different people will like different things as well. So these are all just new problems in product space that I don’t think I’ve ever really been tackled before, but we’re going to rapidly have to deal with now.
Lex Fridman (01:35:27) 我认为这是一个超级迷人的空间,发展事物的性格,在这样做的过程中,它给我们自己竖起了一面镜子,我们喜欢什么样的东西?因为提示工程允许你控制那些元素的很多方面,但产品能否让你更容易控制那些体验的不同风味,你与之交互的不同角色?
Lex Fridman (01:35:27) I think it’s a super fascinating space, developing the character of the thing and in so doing, it puts a mirror to ourselves, what are the kind of things that we like? Because prompt engineering allows you to control a lot of those elements, but can the product make it easier for you to control the different flavors of those experiences, the different characters that you interact with?
Demis Hassabis (01:35:51) 是的,正是。
Demis Hassabis (01:35:51) Yeah, exactly.