본문 바로가기
AI

OpenAI: New tools for building agents with the API

by 조병희 2025. 3. 30.

알겠습니다. OpenAI 발표 영상 내용을 기반으로, 거짓 없이 사실에 입각하여 세미나 발표 형식을 수정하고 다듬었습니다. 외부 뉴스 보도에 대한 추측성 언급보다는 영상에서 발표자들이 직접 언급한 내용을 중심으로 재구성했습니다.


세미나 제목: OpenAI: 신뢰성 있고 유용한 AI 에이전트 구축을 위한 새로운 도구

1. 소개 (발표자: Kevin, OpenAI 제품 책임자)

  • 세션 초점: 개발자와 AI 에이전트 – 사용자를 대신하여 독립적으로 작업을 수행하는 시스템.
  • OpenAI의 에이전트 비전: OpenAI는 단순히 정보만 제공하는 AI를 넘어, 실제 작업을 수행하고 사용자를 돕는 '행동하는 AI'로서 에이전트의 중요성을 강조해 왔습니다.
  • 기존 OpenAI 에이전트: ChatGPT 내 Operator(웹 브라우징/작업 수행), Deep Research(상세 보고서 생성)를 통해 에이전트의 가능성을 보여주었고, 긍정적인 피드백을 받았습니다.
  • 개발자의 어려움: 최신 모델(GPT-4o 등 멀티모달, 고급 추론)은 강력하지만, 개발자들이 에이전트를 만들기 위해 여러 저수준 API를 어렵게 조합해야 했습니다. 이는 개발 과정을 느리고, 복잡하며, 불안정하게 만들었습니다.
  • OpenAI의 목표 및 이번 발표: 이러한 어려움을 해결하고, 개발자들이 OpenAI 플랫폼 위에서 더 쉽고 안정적으로 강력한 에이전트를 구축할 수 있도록 새로운 통합 도구 세트(API 및 SDK)를 출시합니다.

2. 팀 소개 및 새로운 '에이전트 빌딩 블록'

  • OpenAI 개발자 경험(Ilan), API 엔지니어링(Steve), API 제품(Nikunj) 팀 발표.
  • 핵심 발표: '에이전트 빌딩 블록(Agent Building Blocks)' 공개 - 에이전트 개발을 위한 강력하고 통합된 구성 요소 제공.
    • 3가지 새로운 내장 도구 (Built-in Tools)
    • 새로운 "Responses API"
    • 오픈소스 "Agents SDK"

3. 심층 분석: 내장 도구 (Built-in Tools)

  • a) 웹 검색 도구 (발표: Nikunj)
    • 기능: 모델이 인터넷에서 최신 정보를 검색하여 응답의 정확성과 최신성을 높입니다.
    • 기술: ChatGPT 검색 기능과 동일한 기술 기반, 미세 조정된 GPT-4o/4o-mini 모델 활용.
    • 성능: SimpleQA 벤치마크에서 GPT-4o 검색 프리뷰 90%, 4o-mini 검색 프리뷰 88%의 높은 정확도 달성.
  • b) 파일 검색 도구 (발표: Steve)
    • 기존 기능 (Assistants API): 문서 업로드, 청킹, 임베딩을 통한 RAG(검색 증강 생성) 지원.
    • 새 기능 1: 메타데이터 필터링: 파일에 속성을 추가하여 특정 사용자나 컨텍스트에 맞는 파일을 쉽게 필터링하고 검색 관련성 향상.
    • 새 기능 2: 직접 검색 엔드포인트: 모델을 거치지 않고 벡터 저장소를 직접 검색하여 특정 정보 검색 가능.
  • c) 컴퓨터 사용 도구 (CUA - Computer Use Agent, 발표: Nikunj)
    • 기능: API를 통해 'Operator' 기능 제공. 개발자가 제어하는 컴퓨터(로컬 PC, VM, GUI만 있는 레거시 앱 등)의 화면을 보고 마우스 클릭, 스크롤, 타이핑 등 GUI 상호작용 수행.
    • 기술: 컴퓨터 사용에 특화된 '컴퓨터 사용 모델(CUA)' 활용.
    • 성능: OSWorld, WebArena, WebVoyager 등 컴퓨터 제어 벤치마크에서 SOTA(State-of-the-art) 달성. 초기 사용자 피드백 매우 긍정적.

4. 심층 분석: Responses API (발표: Nikunj)

  • 개발 동기: 멀티모달 입력, 도구 사용, 여러 번의 대화 턴 등 최신 에이전트의 복잡한 요구사항을 지원하기 위해 처음부터 설계된 새로운 API.
  • Chat Completions API와의 관계:
    • Responses API는 Chat Completions API의 상위 집합(superset)입니다.
    • Chat Completions API는 계속 지원되며 새로운 모델과 기능이 추가될 예정입니다.
    • 하지만 웹 검색, 파일 검색, 컴퓨터 사용 등 내장 도구를 활용하는 기능이나 특정 에이전트 모델은 Responses API를 사용해야 합니다.
    • 기존 Chat Completions 사용자의 Responses API 마이그레이션은 비교적 간단할 것입니다.
  • Assistants API와의 관계:
    • Assistants API 개발 경험과 사용자 피드백을 바탕으로 구축되었습니다.
    • OpenAI는 Responses API가 향후 Assistants API의 모든 기능을 지원하도록 개발 중입니다.
    • 기능적 동등성이 확보되면, Assistants API 사용자를 위한 마이그레이션 가이드를 제공할 예정입니다.
    • OpenAI는 2026년 중 Assistants API 지원을 종료(sunset)할 계획입니다.

5. 심층 분석: Agents SDK (구 Swarm, 발표: Ilan)

  • 개발 동기: 여러 에이전트가 협력하는 복잡한 애플리케이션(예: 스타일리스트 + 고객 지원 에이전트) 구축 시 필요한 에이전트 오케스트레이션, 상태 관리, 테스트 등을 단순화합니다.
  • 목표: 간단한 아이디어는 간단하게, 복잡한 아이디어는 더 관리하기 쉽게 구현하도록 지원.
  • 핵심 개념:
    • 에이전트 정의: 이름, 지침(instructions), 도구(tools)로 각 에이전트의 역할과 능력을 명확히 정의.
    • 함수 도구 (Function Tool): Python 함수의 타입 힌트와 독스트링(docstring)을 분석하여 필요한 JSON 스키마를 자동으로 생성하고, 모델이 함수 호출을 결정하면 SDK가 해당 Python 코드를 직접 실행하고 결과를 모델에 전달.
    • 핸드오프 (Handoffs): Triage 에이전트처럼, 대화의 맥락(히스토리)은 유지하면서 현재 사용자 요청에 가장 적합한 전문 에이전트(예: 스타일리스트 또는 고객 지원)에게 대화 제어권을 넘기는 기능. 이때 해당 에이전트의 지침과 도구 세트가 적용됨.
  • 주요 기능: 내장된 모니터링 및 추적 기능(Platform UI 연동), 사용자 정의 가능한 가드레일, 라이프사이클 이벤트 훅 제공.
  • 오픈 소스: GitHub에서 공개되어 있으며, 개발자 커뮤니티의 기여를 환영합니다. (pip install openai-middle-dash-agents로 설치 가능, JavaScript 버전 출시 예정).

6. 데모 요약 (AI 스타일리스트 + 고객 지원 에이전트)

  • 시연 내용:
    • 사용자가 일반적인 스타일 질문을 함. (Agents SDK + Responses API 활용)
    • 개인화된 답변을 위해 파일 검색 도구로 케빈의 스타일 선호도(다수의 파타고니아 착용 기록) 확인.
    • 근처 매장 추천을 위해 웹 검색 도구로 도쿄의 파타고니아 매장 정보 검색 및 제시.
    • 사용자가 "너무 많이 주문한 것 같으니 하나 반품해줘"라고 요청.
    • Triage 에이전트가 요청을 분석하고 고객 지원 에이전트에게 핸드오프 수행.
    • 고객 지원 에이전트가 활성화되어, 함수 도구(get_past_orders)를 호출하여 케빈의 최근 주문 목록(파타고니아 재킷 다수) 확인 후 반품 절차 안내 시작. (데모에서는 실제 반품 대신 주문 목록 확인까지 진행)
    • 추적(Tracing) UI: 플랫폼 대시보드에서 전체 워크플로우(Triage Agent 시작 -> 핸드오프 -> Customer Support Agent 실행 -> get_past_orders 함수 호출 및 결과)를 시각적으로 확인 가능. 각 단계별 소요 시간, 입출력 데이터 확인 가능하여 디버깅 용이.

7. 결론 및 미래 비전 (발표자: Kevin)

  • OpenAI는 개발자들이 강력하고 유용한 에이전트를 더 쉽게 만들 수 있도록 지속적으로 지원할 것입니다.
  • 새로운 Responses API, 3가지 강력한 내장 도구, 그리고 오픈소스 Agents SDK는 그 시작입니다.
  • 2025년은 '에이전트의 해'가 될 것: AI가 단순히 질문에 답하는 것을 넘어, 사용자를 위해 실제 세계에서 '행동'하고 작업을 수행하는 시대로 나아가고 있습니다.
  • OpenAI는 개발자 여러분이 이 도구들을 활용하여 만들어낼 혁신적인 에이전트 애플리케이션을 기대합니다. 이제 막 시작입니다.

(본 게시글은 OpenAI 유튜브 영상을 기반으로 Gemini 2.5 Pro를 사용하여 작성되었습니다. )

'AI' 카테고리의 다른 글

Maskara AI: 프롬프트 최적화를 통한 AI 활용  (0) 2025.04.10
MCP(Model Context Protocol)  (0) 2025.04.08
Gemini 2.5 Pro 요약  (0) 2025.03.26
2025년 AI 에이전트 비즈니스  (0) 2025.03.25
CrewAI - Multi-Agent AI Platform  (0) 2025.03.24

댓글