Cum se găsește conținut aproape duplicat și documente text

Autor: Peter Berry

Data Creației: 19 Iulie 2021

Data Actualizării: 10 Mai 2024

Video: How To Check For Duplicate Content

Conţinut

Ce este aproape-duplicarea?
De ce este importantă detectarea aproape duplicării?
Cum poate fi estimată similaritatea?
Unde sunt produsele?
Detecție aproape dublată în descoperirea legală
Trebuie să-mi fac griji în legătură cu documentele aproape duplicate?
Aproape de duplicare pe site-uri web
Detectare aproape dublată neîngrădită

Simon a fost implicat în dezvoltarea de software încă din vremea benzii de hârtie. A dezvoltat software de nișă pentru gestionarea informațiilor.

Ce este aproape-duplicarea?

Aproape duplicarea documentelor electronice este ușor de descris, dar dificil de definit. Documentele aproape duplicate au conținut similar, dar nu neapărat identic. Similitudinea documentelor este adesea estimată cu un procent, unde 100% este identic. În timp ce documentele identice sunt ușor de definit și identificat (printr-o varietate de algoritmi de sumă de control care produc un șir bazat pe conținutul de octeți al fișierului), definiția similarității depinde de o înțelegere mai profundă a documentului și a semnificației acestuia. Metodele existente de estimare a similarității utilizează analiza statistică a grupurilor de cuvinte ca un substitut robust pentru analiza semnificației. Varietatea algoritmilor și natura statistică a analizei înseamnă că măsurătorile de similaritate nu sunt absolute - două documente măsurate ca 75% similare folosind un algoritm sau un set de parametri nu vor avea aceeași similaritate folosind un algoritm sau un set de parametri diferit. Prin urmare, afirmații precum „40% din toate documentele text sunt similare” sunt foarte calificate.

De ce este importantă detectarea aproape duplicării?

Motoarele de căutare sunt adesea folosite pentru a încerca să detecteze toate documentele legate de o anumită problemă sau întrebare, dar abordarea bazată pe cuvinte cheie tinde să ofere un număr nerezonabil de mare de rezultate, iar clasarea acestor rezultate nu corespunde întotdeauna dorințelor utilizatorului .

Rezultatele motorului de căutare web conțin frecvent un număr mare de rezultate duplicate și aproape duplicate, posibilitatea de a le filtra ar fi un avantaj semnificativ. Google deține o serie de brevete pentru acest proces, iar rangul paginii Google este scăzut de prezența duplicatelor și a aproape-duplicatelor.

La nivel de organizație, documentele aproape duplicate abundă, adesea prin păstrarea mai multor proiecte ale aceluiași document. Găsirea celei mai recente versiuni a unui document poate fi simplă dacă controlul versiunii este utilizat riguros și universal în depozitul de documente, dar acest lucru este rareori cazul.

Cum poate fi estimată similaritatea?

O estimare rezonabilă a similarității pentru imagini poate fi obținută prin eșantionarea imaginilor comparate cu un număr foarte mic de pixeli și apoi folosind proporția de pixeli identici sau într-o toleranță specificată a spațiului de culoare (folosind adesea doar o scară de gri) , ca măsură de similaritate. Acest proces este rapid și este baza cunoscută a mai multor programe de potrivire a imaginilor ușor disponibile. Alte programe sunt înșelătoare cu privire la natura algoritmilor lor de comparație, dar pot folosi această metodă.

Pentru documentele text, sarcina este mult mai dificilă, deoarece ordinea cuvintelor este semnificativă, precum și semnificațiile acestora. Extragerea cuvintelor din documentele text nu este o chestiune simplă, deși există o multitudine de componente de extracție a textului, deoarece extragerea textului reprezintă o parte cheie a procesului de construire a indexurilor motoarelor de căutare. Este adesea cazul ca utilizarea unui extractor de text diferit pe același document să dea rezultate diferite.

Presupunând o extracție perfectă a textului, este proporția de cuvinte identice din două documente o măsură de similaritate? Din păcate nu - două documente cu aceleași cuvinte în ordine diferite vor apărea identice prin această măsură. Sinonimele sunt o altă complicație - mai multe cuvinte pot descrie același lucru. Există multe abordări ale estimării similitudinii, dar ele se împart în două grupuri. Unul împarte textul în grupuri mici, uneori suprapuse, de cuvinte secvențiale numite sindrila, măsoară similitudinea prin proporția de sindrile identice găsite în perechi de documente. Cealaltă construiește un vector de cuvinte care caracterizează documentul și efectuează compararea acestuia cu vectorii. Ambele metode au o gamă largă de parametri și metode de comparație, unele folosind statistici extrem de sofisticate. Varietatea algoritmilor și parametrilor de similitudine înseamnă că nu există o măsură absolută a similitudinii textului.

O altă problemă este că fiecare document trebuie comparat cu orice alt document dintr-o colecție, făcând comparațiile foarte lente pentru colecțiile mari, cum ar fi site-urile mari.

Unde sunt produsele?

Estimarea similarității pentru documentele text face obiectul multor studii academice, așa cum va indica o căutare a „detectării documentelor aproape dublate”, dar numai un singur studiu pare să se fi transformat într-un produs independent, separat.

În timp ce descoperirea legală este o zonă de cerere binecunoscută și profitabilă pentru detectarea aproape duplicat, problemele care decurg din aproape duplicarea documentelor sunt întâlnite în multe organizații, în special în cazul în care mai mulți autori contribuie la un singur document ale cărui proiecte sunt schimbate prin e-mail, care este pentru a fi trimis la o agenție externă. Poate că nu se cunoaște locația celei mai recente versiuni a unui astfel de document (de exemplu, un răspuns la licitație), rezultând în depunerea unui document fără cele mai recente revizuiri. Utilizarea consecventă a unui sistem de gestionare a documentelor cu controlul versiunilor utilizat de toți autorii poate proteja această situație, dar un astfel de sistem nu poate fi implementat sau poate fi utilizat în așa fel încât să fie dificilă găsirea celei mai recente versiuni a documentului .

Celălalt domeniu pentru detectarea aproape dublată a documentelor este accesarea cu crawlere a site-ului web. Identificarea paginilor web aproape duplicate poate fi foarte utilă pentru menținerea actualizată a site-urilor web mari, asigurându-se că se aplică modificări tuturor paginilor în care sunt necesare, obținând cel mai înalt grad de pagină Google și prin reducerea volumului rezultatelor căutării.

Detecție aproape dublată în descoperirea legală

Descoperirea legală este o procedură preliminară în care fiecare parte dintr-o cauză juridică poate solicita prezentarea documentelor deținute de cealaltă care sunt relevante pentru cazul în cauză. Acest lucru poate necesita evaluarea unui număr foarte mare de documente electronice și e-mailuri pentru relevanța lor pentru un anumit caz și exportul acestora într-un format standardizat, un proces cunoscut sub numele de eDiscovery. Dacă un document este considerat relevant, pot fi relevante și alte documente similare acestuia. Întrucât relevanța este determinată de personalul juridic și paralegal foarte bine plătit, orice reducere a numărului de documente inspectate sau eficientizarea procesului prin gruparea documentelor similare și eliminarea duplicatelor exacte va genera economii substanțiale de costuri.Economiile mari și alte cerințe ale procesului legal de descoperire, în special gestionarea eficientă a e-mailurilor, înseamnă că software-ul în acest scop este mult mai scump decât software-ul de consum obișnuit, dar sunt disponibile multe pachete diferite.

Un furnizor (Casefleet) are o postare de blog utilă cu privire la criteriile de comparație pentru instrumentele eDiscovery. Furnizorul de informații despre întreprindere OpenText oferă un alt. Ambele subliniază importanța disponibilității algoritmilor de învățare automată pentru a răspunde la întrebări precum „Găsiți documente ca acesta”, pe care le oferă detectarea aproape dublată, deși nu este un algoritm de învățare. Produsul Discovery Assistant al furnizorului ImageMaker include un algoritm sofisticat de detectare a documentelor aproape duplicat, dar prețul și designul acestuia îl restricționează să fie utilizat ca instrument de eDiscovery.

Algoritmii de învățare automată funcționează folosind seturi de antrenament. Procesul de colectare manuală a unor documente relevante și utilizarea acestora ca set de instruire pentru a găsi alte documente într-o colecție mare prin intermediul algoritmilor de învățare automată este o abordare comună. Aplicarea algoritmilor de învățare automată pentru clasificarea documentelor este descrisă de Google aici. Datorită intensității sale de calcul, este frecvent implementat ca serviciu cloud.

Trebuie să-mi fac griji în legătură cu documentele aproape duplicate?

Pe măsură ce costul stocării a scăzut și recuperarea documentelor prin căutare a devenit mai puternică, câștigurile de eficiență și economiile de spațiu realizate prin eliminarea documentelor duplicate și aproape duplicate au devenit mai puțin semnificative. Cu toate acestea, păstrarea mai multor proiecte ale unui document poate crește expunerea legală în cazul în care o organizație primește un ordin de descoperire, întrucât toate documentele stocate de organizație trebuie prezentate celeilalte părți. Proiectele timpurii pot conține conținut care dăunează organizației, iar identificarea și eliminarea lor pot reduce expunerea legală.

Expunerea legală este un factor cheie pentru mutarea stocării organizaționale de pe unitățile partajate, pe care este foarte dificil să se aplice o politică de eliminare a documentelor, la sistemele de gestionare a documentelor (DMS). DMS-urile oferă multe avantaje față de partajările de fișiere, inclusiv:

Data de înregistrare a documentului de definiție. Această dată oferă o bază pentru perioadele de păstrare și nu este supusă resetării neplanificate, așa cum se poate întâmpla cu metadatele datei sistemului de fișiere.
Definiția dreptului de proprietate asupra documentului. La fel ca data înregistrării, proprietatea nu este supusă resetării neplanificate sau volatilității atunci când conturile sunt eliminate.
Implementarea ușoară a politicilor de eliminare și aplicarea unei „înghețări legale” asupra modificărilor documentelor care trebuie aplicate după comunicarea unui ordin de descoperire.
Controlul versiunii. Diferite versiuni ale unui document pot fi accesate în mod sistematic, dar este posibil ca utilizatorii să nu profite de acest lucru.

În ciuda acestor avantaje și a disponibilității versiunilor gratuite ale majorității produselor DMS, unitățile de disc continuă să fie utilizate pentru stocarea documentelor organizaționale, uneori fără sancțiuni oficiale. Motivele obișnuite sunt performanța și familiaritatea, ca cerință pentru hardware suplimentar pe care să ruleze DMS. Performanța DMS este adesea mult mai slabă decât o partajare de fișiere, în special pentru fișierele mari, iar unele aplicații (cum ar fi fișierele legate de Excel) se bazează pe căi relative între fișiere, care nu sunt prezente în DMS, care stochează adesea fișiere într-o bază de date. Chiar și stocarea în cloud a fișierelor în structurile de dosare poate avea probleme în această zonă datorită utilizării numelor de căi absolute care diferă între utilizatori. Utilizatorii sunt, de asemenea, familiarizați cu operațiunile de fișiere pe o partajare de fișiere și pot găsi onerantă înregistrarea / ieșirea și introducerea obligatorie a metadatelor cerute de DMS. Produsul DMS popular Microsoft SharePoint a depus eforturi pentru a face mediul de lucru cât mai similar cu un partajare de fișiere.

Aproape de duplicare pe site-uri web

Deoarece rangul paginii Google este redus dacă Google determină că un site web are un nivel ridicat de duplicare (definiția lor include aproape dublarea), majoritatea serviciilor de întreținere a site-ului web și de optimizare a motorului de căutare includ detectarea duplicatelor ca parte a rapoartelor lor și câteva (inclusiv OnCrawl) și DeepCrawl) includ în mod explicit aproape-duplicare în rapoartele lor.

Detectare aproape dublată neîngrădită

Dacă nu efectuați descoperirea legală sau nu încercați să vă optimizați clasamentul site-ului web, există câteva pachete software care pot efectua analize aproape duplicate asupra unei colecții de documente.

Aproape

Acesta este un program de linie de comandă Java de la SoftCorporation, cu o licență gratuită de 3 luni. Este mai mult un cadru decât un program pentru consumatori, care necesită instalarea unui număr de pachete gratuite de bibliotecă pentru a funcționa. Rezultatul său este o colecție de clustere de fișiere în format XML, iar documentația indică o origine academică. Utilizatorii potențiali ar trebui să fie foarte competenți cu computerele pentru a-l aplica.

FindAlike

Acesta este un ambițios produs Windows de la Aleka Consulting, care oferă detectare aproape duplicat, căutare federalizată și etichetare. Spre deosebire de Neardup, acesta nu oferă o listă a tuturor clusterelor de documente dintr-o colecție statică, dar găsește aproape dubluri ale unui anumit document sau ale unui anumit conținut text prin interfață cu indexurile de căutare Windows, care includ mesaje de e-mail Outlook, precum și conținut pe disc. Acest lucru îi permite să găsească automat aproape duplicate în colecțiile de e-mailuri de documente și Outlook care sunt actualizate continuu. Această capacitate îi oferă posibilitatea de a găsi toate versiunile diferite ale unui document și apoi de a le ordona în funcție de dată pentru a găsi cele mai recente. Sunt furnizate 4 niveluri presetate de similitudine pentru grupare. FindAlike oferă, de asemenea, căutarea federalizată a mai multor unități de disc și etichetarea e-mailurilor și documentelor, fie manual, fie automat, utilizând clasificatori statistici și bazați pe reguli. Un program de completare Office oferă această funcționalitate în Word, Outlook, Excel și Powerpoint pentru conținutul text al documentului deschis. FindAlike costă 89 USD pe an pentru o licență desktop pentru un singur utilizator, cu o evaluare gratuită de 30 de zile. De asemenea, sunt disponibile licențe pentru grupuri de lucru.

Acest articol este corect și fidel, după cunoștințele autorului. Conținutul are doar scop informativ sau de divertisment și nu înlocuiește consilierea personală sau sfatul profesional în probleme de afaceri, financiare, juridice sau tehnice.