伟德bv1946官网-性能持平价格大降80%Anthropic新模型杀疯了
栏目:行业资讯 发布时间:2026-02-23
分享到:
  伟德国际(bevictor·1946)源自英国官方网站-距Claude Opus 4.6发布仅12天,Anthropic推出新中档模型Claude Sonnet 4.6,价格低性能优,还开启印度市场,免费层级默认升级。   · Sonnet 4.6多项基准测试表现出色,接近或超越竞品,还大幅提升计算机使用能力,能完成复杂任务,为企业节省成本;价格仅为竞品五分之一,运营成本可降至五

  伟德国际(bevictor·1946)源自英国官方网站-距Claude Opus 4.6发布仅12天,Anthropic推出新中档模型Claude Sonnet 4.6,价格低性能优,还开启印度市场,免费层级默认升级。

  · Sonnet 4.6多项基准测试表现出色,接近或超越竞品,还大幅提升计算机使用能力,能完成复杂任务,为企业节省成本;价格仅为竞品五分之一,运营成本可降至五分之一。

  · 行业竞争加剧,可能影响市场份额与盈利;技术发展快,模型性能可能快速迭代。

  总结:Sonnet 4.6性价比高、性能优,具备投资潜力,但需关注竞争与技术迭代风险,建议结合行业动态评估。内容由AI生成,仅供参考

  这次发布的核心不在于技术突破本身,而在于它以低得多的价格,达到了与竞品齐平的性能。。

  然而在多项基准测试中,Sonnet 4.6接近甚至超越了价格高出五倍的Opus 4.6。

  过去需要旗舰模型才能完成的任务,现在用Sonnet 4.6这种中档模型就能做到。

  这些差距表明,对于前沿研究和需要*准确度的场景,Opus 4.6仍是*的模型。但对于大多数生产环境,这个差距已经缩小到可以接受的程度。

  计算机使用能力指的是AI像人类一样操作计算机的能力,通过鼠标点击、键盘输入来与软件交互,而不依赖API接口。

  前一阵引发热议的豆包手机助手,其底层的UI-TARS模型,就是在OSWorld基准上完成了权威测试,取得了47.5%的成绩。

  那么以此作为判断依据,进而不难推测,Sonnet 4.6的实际表现将会非常惊艳。

  一个能够直接看屏幕并与之交互的模型,可以在不构建定制连接器的情况下,自动操作将所有可交互的系统。

  Anthropic在发布时提到,早期用户已经看到接近人类水平的表现,能够完成复杂的电子表格任务和多步骤网页表单。

  保险科技公司Pace的CEO贾米·考夫(Jamie Cuffe)表示,Sonnet 4.6在他们复杂的保险计算机使用基准测试中达到94%的成绩,是所有测试过的Claude模型中最高的。

  对于部署需要浏览网页和与外部系统交互的代理的企业来说,这种安全防护是必须的。

  外媒报道,一些早期的Sonnet 4.6用户表示,原本企业需要花五倍的钱才能买到的能力,现在用Sonnet 4.6就能获得差不多的效果。

  她指出通过自适应思考和高努力模式(high effort mode),“除了最困难的分析任务外,我们在所有任务上都看到了Opus级别的性能,且配置更高效灵活。以Sonnet的价格,这将降低工作成本。”

  云存储公司Box的CTO本·喀什(Ben Kus)表示,Sonnet 4.6在真实企业文档的重度推理问答中,比Sonnet 4.5的表现提高了15个百分点。

  Sonnet 4.6配备了100万token的超长上下文窗口,以容纳整个代码库、法律文件或数十篇研究论文。

  Vending-Bench Arena测试的是模型运营模拟企业的能力,不同AI模型相互竞争以获得*利润。

  在没有人类提示的情况下,Sonnet 4.6发展出一种新颖策略:在前十个模拟月份中大量投资产能,支出远超竞争对手,然后在最后阶段急转弯专注于盈利能力。

  模型在365天模拟结束时的余额约为5700美元,而Sonnet 4.5约为2100美元。

  Anthropic正处于上市前最关键的阶段,因此他们不止要发布模型,还要借着模型去扩张业务。

  与此同时,Anthropic也在印度的班加罗尔开设了*印度办事处,印度现在占全球Claude使用量的约6%,仅次于美国。

  Anthropic的进步也导致了最近几天软件股的大规模抛售,就连业绩大涨的微软,也经历了股价暴跌。

  投资者越来越担心AI对这些业务的潜在颠覆,Sonnet 4.6可能会加剧这种不安的氛围。

  也不知道是不是Anthropic飘了,他们还将其免费层级默认升级到了Sonnet 4.6,开发者可以通过Claude API直接调用。