중국 AI 회사 DeepSeek이 개발한 DeepSeek V3는 다양한 텍스트 기반 작업에서 뛰어난 성능을 보여주며, 다운로드 가능한 '오픈' AI 모델 중 최고 수준으로 꼽힙니다. 이 모델은 14.8조 토큰 데이터셋을 사용하여 훈련되었으며, 6710억 개의 파라미터를 가지고 있습니다. DeepSeek V3는 Codeforces 코딩 대회에서 다른 모델들을 압도하며, Aider Polyglot 테스트에서도 우수한 성과를 보였습니다. 하지만 이 모델은 높은 하드웨어 요구 사항을 가지고 있으며, 정치적 견해가 편향되어 있습니다.
DeepSeek V3의 개발과 특징
중국의 한 연구소가 현재까지 가장 강력한 '오픈' AI 모델 중 하나인 DeepSeek V3를 개발했습니다.
AI 회사 DeepSeek이 개발한 이 모델은 수요일에 포괄적인 라이선스 하에 출시되었으며, 개발자들은 이를 다운로드하고 상업적 용도를 포함한 대부분의 응용 프로그램에 수정할 수 있습니다. DeepSeek V3는 코딩, 번역, 설명적 프롬프트에서의 에세이 및 이메일 작성과 같은 다양한 텍스트 기반 작업을 처리할 수 있습니다.
성능과 경쟁 우위
DeepSeek의 내부 벤치마크 테스트에 따르면, DeepSeek V3는 다운로드 가능한 '오픈' 모델과 API를 통해서만 접근할 수 있는 '폐쇄형' AI 모델 모두를 능가합니다. 프로그래밍 콘테스트 플랫폼인 Codeforces에서 개최한 코딩 대회의 일부에서 DeepSeek은 Meta의 Llama 3.1 405B, OpenAI의 GPT-4o, Alibaba의 Qwen 2.5 72B를 포함한 다른 모델들을 능가했습니다.
또한 모델이 기존 코드에 통합될 수 있는 새로운 코드를 성공적으로 작성할 수 있는지를 측정하는 Aider Polyglot 테스트에서 경쟁자를 압도했습니다.
막대한 데이터와 파라미터 수
DeepSeek은 DeepSeek V3를 14.8조 개의 토큰 데이터셋으로 훈련했다고 주장합니다.
데이터 과학에서 토큰은 원시 데이터를 나타내는 단위로, 1백만 개의 토큰은 약 75만 단어에 해당합니다. DeepSeek V3는 6710억 개의 파라미터를 가지고 있으며, AI 개발 플랫폼 Hugging Face에서는 6850억 개의 파라미터를 가지고 있습니다. 이는 4050억 개의 파라미터를 가진 Llama 3.1 405B의 약 1.6배 크기입니다. 파라미터 수는 종종 모델의 성능과 상관관계가 있지만, 더 큰 모델은 더 강력한 하드웨어가 필요합니다. 최적화되지 않은 DeepSeek V3는 높은 성능의 GPU 뱅크가 필요합니다.
모델 훈련과 비용 효율성
DeepSeek V3는 실용적인 모델은 아니지만, 일부 측면에서는 성과를 거두었습니다. DeepSeek은 Nvidia H800 GPU 데이터 센터를 사용하여 모델을 약 두 달 만에 훈련했습니다. 이 GPU는 최근 미 상무부에 의해 중국 기업들이 조달할 수 없도록 제한되었습니다. 회사는 또한 DeepSeek V3를 훈련하는 데 550만 달러만 사용했다고 주장하며, 이는 OpenAI의 GPT-4와 같은 모델의 개발 비용에 비해 현저히 적은 비용입니다.
하지만 모델의 정치적 견해는 다소 편향되어 있으며, 천안문 광장에 대해 질문하면 답변하지 않습니다.
DeepSeek의 배경과 목표
DeepSeek은 중국 회사로, 모델의 응답이 '핵심 사회주의 가치를 구현'하는지 확인하기 위해 중국 인터넷 규제 기관의 벤치마크에 따라야 합니다. 많은 중국 AI 시스템은 시진핑 정권에 대한 추측과 같은 주제에 응답을 거부합니다. 11월 말에 OpenAI의 o1 '추론' 모델에 대한 답변으로 DeepSeek-R1을 발표한 DeepSeek은 중국의 양적 헤지 펀드인 High-Flyer Capital Management의 지원을 받습니다. High-Flyer는 자체 서버 클러스터를 구축하여 모델을 훈련하며, 최근에는 1만 개의 Nvidia A100 GPU를 보유하고 1억 3800만 달러의 비용이 소요되었습니다.
컴퓨터 과학 졸업생인 량원펑에 의해 설립된 High-Flyer는 DeepSeek 조직을 통해 '초지능' AI를 달성하는 것을 목표로 하고 있습니다.
이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다
'세상살이 > IT' 카테고리의 다른 글
ChatGPT Search 취약성과 Google의 2025년 AI 전략: AI의 현재와 미래 (1) | 2024.12.29 |
---|---|
DeepSeek V3: ChatGPT와의 혼란, AI 모델의 자기 인식 문제 (3) | 2024.12.28 |
구글, 제미니 AI 개선을 위해 Anthropic의 Claude 활용: AI 기술의 향상과 논란 (2) | 2024.12.25 |
Anthropic의 AI 연구: 모델의 의견 변화 거부와 정렬 위조 현상 (1) | 2024.12.20 |
크리스마스 시즌을 맞아 ChatGPT를 산타클로스처럼 들리게 하는 방법 (2) | 2024.12.14 |