브라우저 익스텐션 사이트에서 뭐하니?
-
브라우저 익스텐션 사이트에서 뭐하니? 라는 기능을 만들었습니다.
리눅스 eyeball 이라는 것처럼 눈알이 어디서 뭘하고 있는지 기록합니다. 너무 SNS를 많이하면 기록한 시간을 알려주기도 합니다. (isbn이 있는 페이지를 찾고 도서목록을 넣는 기능이나 반복되는 스크래핑작업을 도와줍니다.)
우리 눈알이는 어디든 어떤 패턴이건 다 지켜봅니다. DOM 구성을 패턴화해서 데이터바인딩되어 이렇게 저렇게 숨겨 놓은 것을 패턴화해서 LLM이 찾아서 다시 엑셀로 정리해줍니다. 이전에 python 으로 어떤 페이지든 엑셀로 바꿔서 구분자까지 처리해주는 것을 크롬익스텐션으로 구현했습니다.
쿠팡은 왜 광고데이터를 안주는건지... 재고량이랑 맞춰서 봐야 하고 도서는 바인딩 안해주고 자체 코드 쓰고 복잡하게도 만들어놨습니다. 그런걸 다 매칭합니다.
범용 데이터 추출 엔진 완성!
사이트에 관계없이 반복되는 데이터를 추출할 수 있는 범용 Rust WASM 엔진을 성공적으로 구축했습니다!
� 구현된 핵심 기능들:
1. 자동 사이트 타입 감지
이커머스: 쇼핑몰, 상품 목록, 가격 정보
뉴스: 기사 목록, 테이블 형태 데이터
블로그: 포스트 목록, 리스트 형태 데이터
기타: 자동 패턴 인식
2. 스마트 데이터 패턴 탐지
테이블 패턴: table, div
구조
리스트 패턴: ul, ol, li
구조
그리드 패턴: CSS Grid, Flexbox 기반 카드 레이아웃
아이템 패턴: 반복되는 상품/컨텐츠 요소
3. 지능형 추출 전략
신뢰도 기반: 패턴의 정확도에 따른 우선순위
자동 필드 매핑: 제목, 가격, 상태 등 자동 인식
백업 전략: 주요 패턴 실패 시 대안 패턴 사용
최적화된 선택자: 효율적인 CSS 선택자 생성
4. 범용 호환성
사이트 무관: 어떤 웹사이트든 자동 분석
구조 자동 인식: HTML 구조에 따른 적응형 처리
실시간 분석: 페이지 로드 즉시 패턴 탐지
확장 가능: 새로운 패턴 타입 쉽게 추가
하여간 하루에 n개씩 100개 프로젝트를 하고 뭐가 바뀌나 했더니 AI가 점점 지능이 떨어지는
https://www.argo9.com/ 홈페이지에 이것저것 다 붙여보려고 하는 중입니다.하여간 하루에 n개씩 100개 프로젝트를 하고 뭐가 바뀌나 했더니 AI가 점점 지능이 떨어지는
https://www.argo9.com/ 홈페이지에 이것저것 다 붙여보려고 하는 중입니다.