Freelance Agent Evaluation Engineer

Mindrift
Frankfurt am Main

Please submit your CV in English and indicate your level of English proficiency.

Mindrift connects specialists with project-based AI opportunities for leading tech companies, focused on testing, evaluating, and improving AI systems. Participation is project-based, not permanent employment.

What this opportunity involves

We're building a dataset to evaluate AI coding agents — how well a model handles real-world developer tasks. You'll create challenging tasks and evaluation criteria within realistic simulated environments:

  • Build virtual companies following a high-level plan - codebase, infrastructure, and context (conversations, documentation, tickets) that form a realistic environment with development history
  • Assemble and calibrate tasks from intermediate states of the virtual company: craft the prompt, define evaluation criteria, and ensure the task is solvable and the evaluation is fair
  • Design tasks set in isolated environments - emulations of a developer's workstation: a Linux machine with development tools (terminal, CLI), MCP servers (repository, task tracker, messenger, documentation, etc.), and a real web application codebase
  • Write tests that accept all correct solutions and reject incorrect ones - neither too strict (breaking on valid approaches) nor too lenient (passing bad ones)
  • Iterate with an AI agent on tests - verifying they catch real problems, don't miss bad solutions, and don't break on good ones
  • Review code written by agents, analyze why an agent failed or succeeded, and design edge cases and adversarial scenarios
  • Iterate based on feedback from expert QA reviewers who score your work on quality criteria

What this is NOT

  • Not data labeling
  • Not prompt engineering
  • Not writing code from scratch - the agent writes most of the code; you guide and evaluate

A significant part of the work is done together with AI - it's very hard to create tasks that challenge frontier models without using frontier models.

What we look for

This opportunity is a good fit for experienced developers, software engineers, and/or test automation specialists open to part-time, non-permanent projects. Ideally, contributors will have:

  • Degree in Computer Science, Software Engineering, or related fields
  • 5+ years in software development, primarily Python (FastAPI, pytest, async/await, subprocess, file operations)
  • Background in full-stack development, with experience building React-based interfaces (JavaScript/TypeScript) and robust back-end systems
  • Experience writing tests (functional, integration — not just running them)
  • Docker containers, and familiarity with infrastructure tools (Postgres, Kafka, Redis)
  • CI/CD understanding (GitHub Actions as a user: triggers, labels, reading results)
  • English proficiency - B2

You don't need to be an expert in every item, but you should be comfortable reading and reasoning about code across the stack.

Why this is hard

  1. Frontier models are already good at coding. Creating a task that genuinely challenges the best models is non-trivial. You need to deeply understand where models fail and what scenarios reveal the difference between a good and a bad solution.
  2. Tasks have many valid solutions. Writing tests that accept all correct solutions and reject incorrect ones is harder than it sounds.

How it works

Apply → Pass qualification(s) → Join a project → Complete tasks → Get paid

Effort estimate

Tasks for this project are estimated to take 20 hours to complete, depending on complexity. This is an estimate and not a schedule requirement; you choose when and how to work. Tasks must be submitted by the deadline and meet the listed acceptance criteria to be accepted.

Compensation

On this project, contributors can earn up to $50 per hour equivalent , depending on their level and pace of contribution.

Compensation varies across projects depending on scope, complexity, and required expertise. Please note that other projects on the platform may offer different earning levels based on their requirements.

Veröffentlicht am 2026-04-24

Empfohlene Jobs

Manufacturing and Supply Where the miracles of science are made a reality for patients

Frankfurt am Main

Über die Stelle Als Automatisierungstechniker*in innerhalb unseres technischen Teams der APU Onkologie wirst du die Verfügbarkeit der Automatisierungssysteme sicherstellen und federführend die V…

Details Anzeigen
Veröffentlicht am 2026-03-12

(Senior) Consultant Cyber Incident Response & Forensic (w/m/d)

KPMG Karriere Deutschland
Frankfurt am Main

Du denkst nicht in Problemen, sondern gehst lösungsorientiert jede neue Herausforderung an? Dann kannst Du Dich hier einbringen: Du gehörst zur Reaktionstruppe und übernimmst die Erstbehandlung, P…

Details Anzeigen
Veröffentlicht am 2026-03-28

Servicekraft in Vollzeit oder Teilzeit / Aushilfe

Dicke Butz
Frankfurt am Main

Wir bei Dicke Butz sind davon überzeugt, dass Essen für die Menschen mehr bedeutet als nur Nahrung zu sich zu nehmen. Es ist Genuss, Geschmack, Lebensgefühl und Identifikation. Davon möchten wir ein …

Details Anzeigen
Veröffentlicht am 2026-04-18

kfm. Sachbearbeiter (m/w/d) Vollzeitkraft

RADAS Jobbörse & Personalvermittlung GmbH
Frankfurt am Main

+++ DIREKTVERMITTLUNG in Festanstellung (keine Zeitarbeit) / Vermittlungsgutscheine (AVGS) werden akzeptiert +++ Bei Fragen einfach unverbindlich anrufen: 03048479484 oder einen Rückruf vereinbaren…

Details Anzeigen
Veröffentlicht am 2026-04-18

Property Manager / Immobilienkaufmann (m/w/d) mit dem Schwerpunkt Nebenkostenabrechnung Gewerbe

GGM Gesellschaft für Gebäude-Management mbH
Frankfurt am Main

Eigenverantwortliche Erstellung von Betriebs- und Heizkostenabrechnungen für gewerbliche genutzte Immobilien (Einzelobjekte oder Portfolios) Prüfung und Bearbeitung von Kostenbelegen sowie Umlagesc…

Details Anzeigen
Veröffentlicht am 2026-03-11

Ab 24,-€ Stundenlohn - Elektroniker m/w/d, KFZ-Mechatroniker m/w/d

Unique Personalservice GmbH
Frankfurt am Main

Unser Angebot für dich als Elektroniker m/w/d, KFZ-Mechatroniker m/w/d - ab 24,-€ Stundenlohn - ab 24,-€ Stundenlohn - 500€ Starterprämie nach 4 Wochen Produktivität - Langfristiger Einsatz mit …

Details Anzeigen
Veröffentlicht am 2026-04-24

Arzt m/w/d in Weiterbildung zum Facharzt - Arbeitsmedizin

Frankfurt am Main

Im Kundenauftrag suchen wir für ein Gesundheitszentrum in Düsseldorf, Mainz-Kastel und Frankfurt a.M. jeweils einen Arzt m/w/d in Weiterbildung zum Facharzt – Arbeitsmedizin. Die Option eines unbefri…

Details Anzeigen
Veröffentlicht am 2026-03-31

Werkstudent (Online-) Administration & Assistenz - Ausschussarbeit (w/m/d)

Börsenverein des Deutschen Buchhandels e.V.
Frankfurt am Main

Willkommen beim Börsenverein des Deutschen Buchhandels - einem bunt gemischten Team von über 50 Buchmenschen. Wir setzen uns dafür ein, die Interessen der Buchbranche gegenüber Politik und Öffentlich…

Details Anzeigen
Veröffentlicht am 2026-01-12

Elektroniker/EMSR Handwerker (m/w/d)

Daikin Refrigerants Frankfurt GmbH
Frankfurt am Main

Die Daikin Refrigerants Frankfurt GmbH mit Sitz in Frankfurt am Main ist eine 100 %ige Tochter der Daikin Chemical Europe GmbH und damit der Daikin Industries Ltd., mit Sitz in Osaka Japan, zugehörig.…

Details Anzeigen
Veröffentlicht am 2026-04-23

Mitarbeiter Customer Service (m/w/d) im Bankenwesen - hybrides Arbeiten (Remote & Präsenz)

Frankfurt am Main

Sie verbinden Motivation mit Expertise und fühlen sich im Kundenservice wohl? Sie suchen nach einer neuen Herausforderung im Berufsleben und glänzen mit Persönlichkeit und Leidenschaft für Ihren Job?…

Details Anzeigen
Veröffentlicht am 2026-04-21