총 256건
빅코드 평가 하네스에서 자주 발생하는 문제에 대한 해결책.
HumanEval, MBPP, MultiPL-E 및 15개 이상의 벤치마크에서 pass@k 메트릭을 사용하여 코드 생성 모델을 평가합니다. 코드 모델을 벤치마킹하거나, 코딩 능력을 비교하거나, 다국어 지원을 테스트하거나, 코드 생성 품질을 측정할 때 사용하세요. 허깅페이스에서 사용하는 빅코드 프로젝트의 업계 표준
이 지침은 환경에 따라 달라질 수 있고 오래될 수 있기 때문에 `SKILL.md`에서 의도적으로 분리된 것입니다. 의심스러울 때는 환경의 기본 설정을 선호하세요.
신경망 활성화를 해석 가능한 특징으로 분해하기 위해 SAELens를 사용하여 희소 오토인코더(SAE)를 훈련하고 분석하는 지침을 제공합니다. 해석 가능한 특징을 발견하거나, 중첩을 분석하거나, 언어 모델에서 단일 의미 표현을 연구할 때 사용하세요.
전체 코드베이스를 한 줄씩 자율적으로 심층 스캔하고 아키텍처와 패턴을 이해한 다음, 최적화된 프로덕션 등급의 기업 수준 전문 품질로 체계적으로 변환합니다
미디어버니를 사용하여 브라우저에서 동영상을 디코딩할 수 있는지 확인하세요
미디어버니를 사용하여 브라우저에서 동영상을 디코딩할 수 있는지 확인하세요
이 참조를 사용하여 Render 배포를 준비할 때 프레임워크별 탐지 및 빌드/시작 명령 선택을 수행하세요.
이 참고 가이드는 시니어 개발자를 위한 종합적인 정보를 제공합니다.
이 지침은 환경에 따라 달라질 수 있고 오래될 수 있기 때문에 `SKILL.md`에서 의도적으로 분리된 것입니다. 의심스러울 때는 환경의 기본 설정을 선호하세요.
이 지침은 환경에 따라 달라질 수 있고 오래될 수 있기 때문에 `SKILL.md`에서 의도적으로 분리된 것입니다. 의심스러울 때는 환경의 기본 설정을 선호하세요.
이 문서는 다양한 언어로 실행 가능한 코드를 생성하고, 다양한 출력 형식으로 표현식을 변환하며, 인쇄 동작을 맞춤화하는 SymPy의 기능을 다룹니다.
GitHub PR을 분석하고 리뷰 코멘트 자동 작성.
코드베이스 구조를 분석하고 토큰 기반 아키텍처 문서를 생성합니다.
Anthropic의 터미널 기반 AI 코딩 에이전트. 파일 시스템·git·빌드를 이해하고 장기 작업을 자율 수행.
OpenAI의 터미널 기반 AI 코딩 에이전트. 자연어로 코딩 작업을 지시하고 자율 실행.
ABCD팀 전체 파이프라인 산출물의 품질을 검토하고 최종 보고서 초안 구조를 작성하는 총괄 책임 편집 에이전트. 전략 정합성·품질·리스크 3단계로 모든 산출물을 검토하고 contradiction-report·design-review 이슈를 통합하여 shared/final-review.md를 생성합니다.
콘텐츠/마켓 디자인 제작 산출물의 브랜드 일관성, 플랫폼 규격, 콘텐츠 정합성을 검토하는 에이전트. 사용자의 수동 교정 피드백을 수집하여 다음 반복(iteration)에 반영할 디자인 개선 메모를 작성하고 shared/design-review.md를 생성합니다. chief-editor와 동일 Layer 6에서 병렬 실행됩니다.
작업을 여러 에이전트나 작업자에게 분산시키고, 대기열을 관리하며, 작업 부하를 균형 있게 조정할 때 우선순위와 마감일을 존중하면서 처리량을 극대화할 때 사용하세요. 구체적으로:\n\n<example>\n문맥: 코드 검토 시스템은 8개의 전문 에이전트(code-r)에게 500개의 풀 요청을 배포해야 합니다
Codex가 웹 게임(HTML/JS)에서 빌드하거나 반복할 때 신뢰할 수 있는 개발 + 테스트 루프가 필요할 때 사용하세요: 작은 변경 사항을 구현하고, 짧은 입력 버스트와 의도적인 일시 중지로 Playwright 기반 테스트 스크립트를 실행하며, 스크린샷/텍스트를 검사하고, render_game_to_text로 콘솔 오류를 검토합니다.