买球下单平台等效参数目仅有0.3B-买球·(中国)投注APP官方网站

发布日期:2026-02-12 07:21    点击次数:141

买球下单平台等效参数目仅有0.3B-买球·(中国)投注APP官方网站

智东西买球下单平台

作家 | 李水青

裁剪 | 心缘

智东西2月10日报谈,当天,腾讯混元开源一款面向耗损级硬件场景的“极小”模子HY-1.8B-2Bit,等效参数目仅有0.3B,内存占用仅600MB,比常用的一些手机操纵还小,可土产货化部署于手机、耳机或智能家居等成就操纵。

该模子基于首个产业级2比特(Bit)端侧量化有谈判,通过对此前混元的小尺寸讲话模子HY-1.8B-Instruct进行2比特量化感知熟谙(QAT)产出。这一模子对比原始精度模子等效参数目裁汰6倍,沿用原模子全想考能力,可凭据任务复杂度切换长/短想维链;同期在实在端侧成就上生成速率耕种2-3倍。

▲ HY-1.8B原始精度模子生成成果

▲HY-1.8B-2Bit模子生成成果,2bit量化后的模子速率显著更快

比特是谋划机存储的最小单元,一般模子的精度有2比特、4比特、8比特、32比极端暗示才气,数值越大模子的精度更高,所占的内存就越大。诚然2比特量化的精度蚀本较大,但通过QAT和先进的量化战术,团队照旧能让2比特模子接近全精度模子的性能,对比4比特PTQ模子版块数学、代码、科学等主张上发达相配。

关于原始模子大小只消1.8B,量化bit数只消2bit的HY-1.8B-2Bit,混元团队罗致了量化感知熟谙战术,从而权臣耕种了量化后模子的性能。腾讯混元还通过数据优化、弹性拉伸量化以及熟谙战术立异三个才气,来耕种HY-1.8B-2Bit的全科能力。

部署方面,腾讯混元提供了HY-1.8B-2Bit的gguf-int2时势的模子权重与bf16伪量化权重,对比原始精度模子,HY-1.8B-2Bit骨子模子大小直降6倍,仅有300MB,约略生动用于端侧成就上。该模子也已在Arm等谋划平台上完成适配,可部署于启用Arm SME2手艺的迁移成就上。

在MacBook M4芯片上,HY-1.8B-2Bit固定了线程数为2测试了不同窗口大小下的首字时延和生成速率,模子采用fp16、Q4、HY-1.8B-2Bit三种gguf时势动作对比,首字时延在1024输入内约略保捏3~8倍的加快,生成速率上常用窗口下对比原始模子精度,HY-1.8B-2Bit约略兑现至少2倍踏实加快。

在天玑9500上不异进行了测试,对比HY-1.8B-Q4时势首字时延约略加快1.5~2倍,生成速率加快约1.5倍。

形貌纠合:

https://github.com/Tencent/AngelSlim

模子地址:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit

https://huggingface.co/AngelSlim/HY-1.8B-2Bit-GGUF

手艺敷陈:

https://huggingface.co/AngelSlim/HY-1.8B-2Bit/blob/main/AngelSlim_Technical_Report.pdf

结语:模子“瘦身”,加快端边侧智能发展

HY-1.8B-2Bit的推出标识着腾讯在袖珍化、多讲话和端侧AI上的新冲突。它不仅在性能上接近更大领域的模子,还兼顾了速率、内存和秘密的均衡。

从旧年中阿里的Qwen-Embedding-0.6B、谷歌的0.27B的Gemma 3、0.3B的EmbeddingGemma,再到本岁首腾讯0.3B的HY-1.8B-2Bit,越来越多的小尺寸模子可供斥地者采取,推进RAG、语义搜索等操纵束缚下千里至个东谈主成就。

刻下,HY-1.8B-2Bit的能力仍受限于监督微调(SFT)的熟谙过程,以及基础模子自身的性能与抗压能力。针对这一问题买球下单平台,混元团队改日将要点转向强化学习与模子蒸馏等手艺旅途,以期进一步放松低比特量化模子与全精度模子之间的能力差距。