Search: swebench.com | Heykuki News

HK

Heykuki News

Top New Best Ask Show Jobs

Top New Best Ask Show Jobs

1.

Show HN: LLM Function Calling Library to Interact with File, Shell, Git and Code

2 years ago

5 points

2.

Show HN: New SWE-bench leaderboard compares LMs without fancy agent scaffolds

a year ago

2 points

3.

Show HN: Agent Benchmark Repository and Viewer

explorer.invariantlabs.ai

2 years ago

2 points

4.

MiniMax M2.5 is beating Claude Opus 4.6 and MiniMax is 17x-20x cheaper

4 months ago

6 points

5.

Show HN: Randomly switching between LMs at every step boosts SWE-bench score

10 months ago

5 points

6.

SWE-bench just published an updated list of top AI Agents

a year ago

4 points

7.

Amazon Q Developer Agent is now SOTA on SWE-bench

2 years ago

4 points

8.

New leader on swe-bench multimodal

a year ago

3 points

9.

Refact.ai is the new open-source SOTA on SWE-bench Verified and Lite

a year ago

3 points

10.

New #1 SOTA on Swe-bench is using Claude 3.7 and O1

a year ago

3 points

11.

SWE-Bench Can Language Models Resolve Real-World GitHub Issues?

3 years ago

3 points

12.

Gru.ai Got 35.67% on SWEbench

2 years ago

2 points

13.

SWE-Bench: Can Language Models Resolve Real-World GitHub Issues?

3 years ago

2 points

14.

a year ago

1 points

15.

SWE-Bench: Can Language Models Resolve Real-World GitHub Issues?

2 years ago

1 points

16.

Can Language Models Resolve Real-World GitHub Issues?

3 years ago

1 points