본문 바로가기

세상살이/IT

스탠포드와 워싱턴 대학, 저비용 AI 모델 개발 성공

반응형

스탠포드 대학과 워싱턴 대학의 연구원들이 50달러 이하의 비용으로 AI 추론 모델을 훈련시키는 데 성공했습니다. 이 모델은 OpenAI의 o1 모델과 유사한 성능을 보이며, GitHub에서 데이터와 코드가 공개되었습니다.

 

 

저비용 AI 모델 개발 성공

스탠포드 대학과 워싱턴 대학의 AI 연구원들이 50달러 이하의 클라우드 컴퓨팅 크레딧으로 AI 추론 모델을 훈련시키는 데 성공했다고 최근 발표된 연구 논문에서 밝혔습니다.

이 모델은 s1으로 알려져 있으며, 수학과 코딩 능력을 측정하는 테스트에서 OpenAI의 o1 및 DeepSeek의 R1과 유사한 성능을 보입니다. s1 모델은 GitHub에서 데이터와 코드가 함께 공개되어 있습니다.

 

저비용 고성능 모델의 배경

s1 모델을 개발한 팀은 기성 모델을 기반으로 시작해 증류라는 과정을 통해 세밀하게 조정했습니다.

증류는 다른 AI 모델의 답변을 학습하여 추론 기능을 추출하는 과정을 말합니다.

연구원들은 s1이 구글의 'Gemini 2.0 Flash Thinking Experimental' 모델에서 증류되었다고 밝혔습니다. 이 방법은 지난달 버클리 연구원들이 450달러의 비용으로 AI 추론 모델을 만든 데 사용한 방법과 유사합니다.

 

AI 모델의 상품화 논쟁

수백만 달러가 소요되는 모델을 소수의 연구원이 상대적으로 적은 비용으로 복제할 수 있다는 사실은 AI 모델의 상품화에 대한 의문을 제기합니다. 대형 AI 연구소들은 이러한 상황에 불만을 표하고 있습니다. OpenAI는 DeepSeek이 모델 증류를 위해 자사의 API 데이터를 부당하게 수집했다고 비난했습니다.

 

S1 모델의 훈련 과정

연구원들은 간단한 접근법을 통해 강력한 추론 성능과 테스트 시간 확장을 달성하고자 했습니다.

테스트 시간 확장은 AI 모델이 질문에 답하기 전에 더 많은 시간을 들여 생각할 수 있도록 하는 것입니다.

연구 논문은 비교적 작은 데이터셋과 감독된 세밀 조정(SFT)이라는 과정을 통해 AI 모델을 증류할 수 있음을 시사합니다. SFT는 대규모 강화 학습보다 비용이 저렴하다는 장점이 있습니다.

 

AI 인프라 투자와 미래 전망

2025년, 메타, 구글, 마이크로소프트는 AI 인프라에 수천억 달러를 투자할 계획입니다. 이는 차세대 AI 모델 훈련에 일부 사용될 것입니다. 증류는 기존 AI 모델의 기능을 저렴하게 복제하는 데 유용하지만, 현존하는 모델보다 훨씬 더 나은 새로운 AI 모델을 만드는 데는 한계가 있습니다.

 

 

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

반응형

<--! 네이버 애널리틱스 시작작--> <--! 네이버 애널리틱스 끝끝-->