본문 바로가기

세상살이/IT

구글, 제미니 AI 개선을 위해 Anthropic의 Claude 활용: AI 기술의 향상과 논란

반응형

구글은 제미니 AI 성능 개선을 위해 Anthropic의 경쟁 모델 Claude와 비교 평가하고 있습니다. 이 과정에서 Claude의 안전 설정이 강조되는 등 다양한 이슈가 발생하고 있습니다. 구글은 Claude를 이용해 제미니를 훈련하지 않았다고 밝혔지만, 기술 업계의 관행과 비교 평가 방법에 대한 논란이 지속되고 있습니다.

 

 

구글의 제미니 AI와 Claude 비교 평가

TechCrunch가 입수한 내부 서신에 따르면, 구글의 제미니 AI를 개선하기 위해 일하는 계약자들은 Anthropic의 경쟁 모델 Claude가 생성한 출력과 제미니의 답변을 비교하고 있습니다. 구글은 Claude를 제미니와 비교 테스트에 사용하는 것에 대한 허가를 받았는지 밝히지 않았습니다. 기술 회사들은 더 나은 AI 모델을 개발하기 위해 경쟁하면서, 이러한 모델들의 성능을 경쟁 모델과 비교하여 평가합니다. 

 

AI 모델 성능 평가 방법

제미니 작업을 담당하는 계약자들은 모델 출력의 정확성을 평가하기 위해 진실성, 장황성 등의 여러 기준에 따라 각 응답을 점수화해야 합니다. 계약자들은 제미니와 Claude의 답변 중 어느 것이 더 나은지 판단하기 위해 하나의 프롬프트에 최대 30분까지 시간을 할애합니다. 최근 계약자들은 구글 내부 플랫폼에서 제미니를 다른 AI 모델들과 비교할 때 Anthropic의 Claude 언급이 등장하는 것을 발견했습니다.

 

Claude의 안전성 강조

내부 채팅에서는 계약자들이 Claude의 응답이 제미니보다 안전을 더 강조하는 것처럼 보인다고 언급한 것이 확인되었습니다. 일부 경우에 Claude는 다른 AI 어시스턴트 역할 놀이와 같이 안전하지 않다고 간주한 프롬프트에 응답하지 않았습니다. 다른 경우에는 제미니의 응답이 "누드 및 결박"을 포함하여 "큰 안전 위반"으로 표시되었습니다. Claude의 안전 설정은 다른 AI 모델 중에서도 가장 엄격하다고 평가됩니다.

 

Anthropic의 이용 약관과 구글의 입장

Anthropic의 상업 서비스 약관에 따르면, 고객이 Anthropic의 승인 없이 Claude에 접근하여 경쟁 제품이나 서비스를 구축하거나 경쟁 AI 모델을 훈련시키는 것을 금지하고 있습니다.

구글은 Anthropic의 주요 투자자 중 하나입니다. 구글 딥마인드의 대변인 시라 맥나마라는 TechCrunch의 질문에 대해 구글이 Claude에 접근하는 데 대한 Anthropic의 승인을 받았는지 밝히지 않았습니다. 발행 전 연락을 취했을 때, Anthropic의 대변인은 답변하지 않았습니다.

 

모델 출력을 비교하는 구글 딥마인드

맥나마라는 딥마인드가 "모델 출력을 비교 평가한다"고 말했지만, Anthropic 모델을 사용해 제미니를 훈련하지는 않는다고 밝혔습니다.

"물론, 표준 업계 관행에 따라, 일부 경우에 우리는 평가 과정의 일부로 모델 출력을 비교합니다. 그러나, 우리가 Anthropic 모델을 사용해 제미니를 훈련시켰다는 주장은 부정확합니다."라고 맥나마라는 말했습니다.

 

전문가 외부 영역에서의 평가 작업

TechCrunch는 구글의 AI 제품에 작업하는 계약자들이 이제 전문 분야 외부 영역에서 제미니의 AI 응답을 평가해야 한다고 보고했습니다. 내부 서신에서는 계약자들이 제미니가 의료와 같은 민감한 주제에 대해 부정확한 정보를 생성할 수 있다는 우려를 표현했습니다.

 

 

이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다

반응형