IT Home은 11월 0일 IT Home이 국가 특허청의 중국 특허 발표 네트워크로부터 DeepSeek의 계열사인 Hangzhou DeepSeek Artificial Intelligence Basic Technology Research Co., Ltd.가 출원한 "광범위한 데이터 수집 방법 및 시스템"의 특허가 0/0에 발표되었다는 사실을 알게 되었다고 보고했습니다.
특허 초록은 다음을 보여줍니다.
본 발명의 유익한 효과는 다음과 같다: 가능한 한 많은 웹 링크를 발견하고 웹 사이트에 대한 트래픽 영향을 감소시키는 것; 다운로드한 콘텐츠를 분석하고, 다운로드되지 않은 링크의 품질을 추론하고, 저품질 웹 페이지 다운로드 및 중복 다운로드를 줄이고, 데이터 품질 및 다운로드 효율성을 개선하고, 데이터 수집 과정에서 네트워크 리소스 소비를 줄입니다. 웹 페이지 정보 기반 수정의 원자성과 안정성을 보장하기 위해 별도의 정보 리필 열이 사용됩니다.
배경 기술 내용 : 최근 몇 년 동안 인공 지능 기술의 발전으로 NLP 자연어 분야는 큰 발전을 이루었습니다. 많은 대규모 언어 모델(LLM)은 자연어로 인간과 컴퓨터 간의 효과적인 의사 소통을 위한 다양한 이론과 방법을 연구하기 위해 자연어 처리 분야에서 훈련을 받았습니다.
대규모 언어 모델을 훈련하려면 하나의 구성이 필요합니다.고품질의 다양한 대규모 언어 모델 데이터 세트이를 위해서는 대규모 언어 모델의 훈련을 위한 모델의 입력으로 웹 페이지 데이터에 의해 많은 양의 고품질 텍스트 정보를 수집하고 처리해야 합니다.
그러나 기존 데이터 수집 기술에는 다음과 같은 많은 문제가 있습니다.복잡한 웹 사이트를 수집할 때 전체 링크를 얻을 수 없습니다. 쉽게 오버다운로드 할 수 있습니다., 상대방의 웹 사이트가 충돌하는 원인; 다운로드 페이지로 이동콘텐츠 품질 분석 및 추론이 수행되지 않습니다.이로 인해 반복 다운로드 또는 낮은 품질의 다운로드가 발생하여 데이터 수집의 효율성에 영향을 미칩니다.
따라서 많은 양의 웹 페이지 데이터를 얻는 과정에서 인터넷 데이터를 빠르고 정확하며 안전하고 효율적으로 수집하는 방법이 매우 중요해집니다.