2.0 Drops

Floating in the 2.0 world ~ connected by the web

Information retrieval: onderzoek zoekfuncties Office 365 en Google Docs

Een reactie plaatsen

Tijdens mijn laatste vak aan de UvA heb ik samen met Peter Becker en Jacqueline Schaap gewerkt aan een verplicht onderdeel: een onderzoek gericht op zoeksoftware. We hebben gekozen om dit onderzoek uit te voeren naar twee bestaande zoeksystemen: de zoekfunctie van Office 365 van Microsoft en die van Google Docs.

De achterliggende gedachte bij deze keuze is het feit dat veel organisaties er voor kiezen om één van beide omgevingen te gebruiken ten behoeve van het eigen documentbeheer (een deel van de enterprise content). In beide omgevingen bestaan mogelijkheden om documenten te ordenen via een mappenstructuur, maar beide leveranciers claimen ook dat de kwaliteit van de zoekmachine een dergelijke werkwijze overbodig maakt. Wij waren dan ook geïnteresseerd in de scores van de beide zoekmachines ten aanzien van recall, precision en relevance ranking.

Als leidraad voor dit onderzoek hebben we gebruik gemaakt van een handzaam artikel van Tague-Sutcliffe uit 1992 waarin 10 stappen worden beschreven voor het opzetten van een information retrieval test. We hebben in beide systemen gewerkt met een testcollectie van 300 identieke documenten en 30 queries (20 known item queries en 10 subject search queries). Volgende metingen zijn uitgevoerd:

  • Bij een known-item query is er sprake van één relevant document als goede treffer. De criteria ten aanzien van het zoekresultaat waren dan ook: staat het document bij de eerste 10 resultaten en zo ja, op welke plaats?
    • Daartoe is de Mean Reciprocal Rank (MRR) gehanteerd. (Croft, 2010, p.323): als het document op rank 1 stond kreeg het de waarde 1/1= 1. Stond het op 2, dan de waarde ½=0,5 enzovoort. Per zoekmachine zijn 20 queries uitgevoerd, waarna de gemiddelde score is bepaald.
  • Bij de subject queries was vooraf bepaald welke documenten als relevante treffers (altijd meer dan 1) moesten worden teruggegeven door het systeem. Om te bepalen in hoeverre dat het geval was (recall) en op welke plaats in de ranking (precision) zijn de volgende meetmethoden gehanteerd:
    • Mean Average Precision (MAP) (Croft, 2010, p.317): kort gezegd geeft deze methode antwoord op de vraag: hoeveel relevants vind je in de top 10 en hoe hoog staan ze dan? De nadruk ligt hierbij op de precisie.
    • Zelf geformuleerde Raw score, geïnspireerd op Stenmark (2004): hoeveel van de relevante documenten vind je in de top 10? Hierbij ligt de nadruk op de recall.
    • 1/r weight en 1/SQRT(r) weight (Stenmark, 2004). Ook hierbij ligt de nadruk op de recall: relevante documenten die buiten de top 10 vallen, beïnvloeden de score negatief.
    • Om het onderscheid tussen de twee omgevingen te verfijnen, hebben we de Document Cut-off Value (DCV) toegepast. Ook deze methode is afkomstig uit Stenmark (2004) en wordt uitgebreider aangehaald door Hull (1993). De nadruk ligt op de precisie. We hebben metingen gedaan bij  6, 7,  8, 9 en 10 documenten. Bij de methode Stenmark/Hull wordt de cut-off value toegepast op de raw precision. Dat hebben wij ook gedaan, daarnaast hebben we de DCV toegepast op de MAP metingen.

Bij de subject search queries hebben we gekozen om ook de Raw score, de 1/r weight, de 1/SQRT weight toe te passen omdat bij deze metingen de nadruk ligt op de recall en ze daardoor een goede aanvulling zijn op de MAP. De DCV geeft daarnaast ook nog een verfijning op de MAP, beide leggen namelijk de nadruk op de precisie.

Geen echte winnaar maar Office 365 scoort beter bij known items

Office 365 soort bij de Mean Reciprocal Rank beduidend beter (MRR: 0,86) dan Google Docs (MRR: 0,62). Dat is in eerste instantie af te lezen aan de MRR in totaal, maar vermeld moet ook worden dat deze score niet wordt veroorzaakt door één of twee uitschieters: bij zes van de twintig queries scoorde Office lager dan Google, in de overige gevallen scoorde Office hoger of gelijk.

Bij de Mean Average Precision scoort Google beter (MAP: 0,71) dan Office (MAP: 0,69), hoewel het verschil gering te noemen is. Dat komt ook terug in de verdeling van de scores: in de helft van de tien queries scoorde Google hoger, in de andere helft Office.

De raw score (volgens eigen methode) gaf het volgende beeld:

Ook hier, waar de nadruk ligt op de recall, is Google Docs de winnaar. Vijfmaal scoort Google Docs hoger dan Office, driemaal scoren ze gelijk en tweemaal is de hogere score voor Office.

Hoewel de curve bij de 1/SQRT(r) weight vlakker is, komt bij zowel de 1/r weight als de 1/SQRT(r) weight precies hetzelfde beeld naar voren: Google Docs wint met een verwaarloosbaar verschil:

Opvallend is wel dat de verschillen bij sommige queries vrij groot zijn: de ene keer scoort Google veel beter, de andere keer Office. Een duidelijke lijn valt daar niet in te ontdekken.

De laatste meting was die waarbij we cut-off values (DCV) hebben bepaald op 6, 7, 8, 9 en 10 treffers.

Conclusie: Bovenin de ranking (cut-off 6 en 7) wint Office, naarmate de de cut-off hoger ligt (8,  9 en 10), scoort Google gemiddeld  beter. De verschillen zijn echter klein.

Het is interessant deze waarden te vergelijken met de MAP: scoort één van beide zoekmachines beduidend hoger als de DCV lager ligt dan 10? Bij deze berekening scoort Office .365 op alle niveaus beter dan Google Docs.

Dat is dus een verschil ten aanzien van de DCV bij de raw-score.

Op basis van ons onderzoek kan in ieder geval worden vastgesteld dat geen van beide zoekmachines als echte winnaar kan worden aangewezen omdat die beduidend beter scoort dan zijn tegenhanger. Ook in absolute zin zijn de scores niet indrukwekkend: een organisatie die grote hoeveelheden content wil opslaan in Google Docs of Office 365 doet er dan ook verstandig aan om niet uitsluitend te vertrouwen op de aangeboden zoekmachines.

Als we een winnaar zouden moeten aanwijzen, dan zou dat Office 365 zijn omdat die bij de known items duidelijk als beste scoort, niet alleen bij de totalen, maar in de meeste gevallen ook per query. In een enterprise omgeving doen known-item searches er vaak toe: men is op zoek naar een bepaald document en wil het snel hebben. Daarnaast scoort Office 365 beter bij een lage cut-off value.

Bekijk het volledige rapport voor alle volledige tabellen, een uitgebreide toelichting van de meetmethoden, een overzicht van de queries die we hebben gebruikt en onze kritische opmerkingen / lessons learned ten aanzien van het onderzoek.

Auteur: LeenLief

De Haagse Hogeschool Bibliotheek & IDM | MA Culturele Informatiewetenschap | InformatieProfessional | Informatiemanagement, tools & vaardigheden | Film & Muziek

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s