Wkuno

Hvordan å designe en søkemotor for å faktisk søke

Det er flere enkle teknikker for å utvikle en søke-motor som faktisk finner informasjon, snarere enn bare millioner av matchende sider. Søker skal ha som standard ser innenfor avsnitt / seksjoner, ikke på tvers av hele sider. Dagens populære søk-motorer er stort sett primitive ord-skannere, vanligvis ikke søker etter deler av informasjonen, og heller jakte nøyaktig navn blir bedt om.

Trinn

Hvordan å designe en søkemotor for å faktisk søke. Glem søkemotorer i dag.
Hvordan å designe en søkemotor for å faktisk søke. Glem søkemotorer i dag.
  1. 1
    Paradigmeskifte. Søke etter faktiske opplysninger krever: en ny måte å tenke om søking tekst, og nye måter å gruppere tekst på en side: det er for primitive til å forsøke jakt informasjon ved å se på all tekst på en side, avanserte teknikker for å dele en side i beslektede deler. Akkurat som gruppering bokstaver i ord er et stort skritt over søker etter strenger av tegn / bokstaver, gruppere ord i seksjoner eller avsnitt er den neste store gjennombrudd i søke-motor-teknologi (så trivielt som det kan virke). Dette er en del av paradigmeskifte: i stedet for å se på en side som en strøm av tegn / bokstaver, blir det sett på som ord, da, i stedet for å se på en side som en strøm av ord, bør det søkes i som seksjoner / avsnitt av ord.
  2. 2
    Glem søkemotorer i dag. Glem veien populære søk-motorer arbeid i dag (2006): De er primitive i forhold til teknikker utviklet for 25 år siden ved NASA: nesten ingen søk-motorer i dag kan finne informasjon på den enkle måten, men heller plage på matchende millioner av relaterte sider: det ser ut til å være "søkemotorvennlige misunnelse": ". mine resultater er større enn din" med Bedømme søk ytelse bør ikke være basert på "hvor mange millioner av sider som ble matchet", men heller: Ble opplysningene fant frem? Hvor raskt ble spørsmålene besvart? I alle teknologiske alder, kan dagens teknikker bli sett på som "primitive" i forhold til bedre ideer i fremtiden, men å vurdere dagens søke-motorer som "stein-alder dinosaurene" er begynnelsen til visdom. Mange søke-motorer vise annonser på hver side: det er i interesse av disse annonsene for å utvide og forlenge et søk for å vise mange sider med annonser, i stedet for å finne informasjon.
  3. 3
    Søke i seksjoner / avsnitt. Planlegg søkemotorvennlige å se i avsnitt eller deler av teksten, snarere enn å søke hele sider for samsvarende ord. Ofte relatert ord at finne et emne, vanligvis skje innen én setning av hverandre. Hvis avsnitt er for vanskelig å fastslå, tillate et søk-brakett av n-ord (for eksempel 30 ord) å begrense søket til logisk relatert tekst. I praksis søker på tvers av hele sider for å finne såkalte "relaterte" ord er en av de mest uvitende teknikker noensinne tenkt på på et innfall: det kan være trivielt å søke hele sider, men er mer avanserte teknikker som trengs utover dagens primitive, low-tech søke-motorer med tankeløse søk-all mentalitet. (Problemet er frodig: enda noen bok-søk jakten ord på tvers av hele sider og finner ikke ord i løpet av bare et avsnitt / setning.) Å være trivielle er ingen unnskyldning for å fortsette å bruke uvitende søke-teknikker. De avanserte teknikkene er ikke så mye mer vanskelig å gjennomføre.
  4. 4
    Søk bokstavelige ord. Når informasjonen amasses, er det avgjørende å skille mellom "a / en / på" å finne informasjon. Forutsatt å ignorere noen ord utdanner bare en skjevhet som fornærmer etterretning av potensielle brukere: kanskje har en sjelden mulighet til å ignorere en liste over ord som inneholder "a / en / den / av / på", men som standard, søke etter hvert ord spesifisert. La brukerne lære å utelate restriktive ord; implisitt utelatelsen av noen ord er så begrensende som implisitt deklarasjon av feilstavede variabel-navnene i dataprogrammer: ikke gjør det. (Hvis noen feilstaver "off" som "av" hva skjer da? Se? Forstå faren for implisitt ignorerer ord.)
  5. 5
    Søk litterale tegn. Hvis stand teknisk, forvente å søke etter bokstavstrenger som "Project XRAY-10/NOVA" der tankestrek ('-') og slash ('/') er kritiske til søk: i praksis, kan det søkte teksten har de tegn konvertert til mellomrom når de ikke er i søk-setning forespurt av en bruker, men hvis pre-lagring av søkte ord, da begge former kan indekseres / lagret (både "XRAY 10 NOVA" og bokstavelig navnet "XRAY-10 / NOVA "kan indekseres).
  6. 6
    Forvent intelligens. Ikke være grusom eller kritisk til dagens primitive søke-motorer og Bestill-søk programmer, mange mennesker er intelligente nok til å gå videre utover low-tech søk-ideer i dag, både som utviklere og brukere av den nye bølgen av avansert søk -teknikker. Datateknologi, som et stort utvalg av ideer, er komplisert nok slik at nesten hvem som helst kan overse åpenbare framskritt og bli sittende fast i igår år teknologi, selv tusenvis av datamaskinen fagfolk. Feltet er en blanding av smart + tett: sider kan lagres i komplekse og sofistikerte databaser, men kan ikke søkes av ledd, bare av low-tech side-wide skanninger.
  7. 7
    Enkel prototyp. For å teste de ovennevnte nye ideer, kan en enkel prototyp søk-programmet skal utvikles for å søke etter setninger ved å konvertere en tekstlinje inn søkeord adskilt med mellomrom, med en ekstra etterfølgende-plass etter det siste ordet på linjen, deretter hvert ord i søkefeltet-setning er polstret med en etterfølgende-plass til å skanne mot blank-terminerte ord i tekststreng. Hver tekst-streng i filen eller nettsiden vil bli søkte på lignende måte. Hold en teller til alle søke-ord regnes som samsvarende.
  8. 8
    Piggyback søk. Siden mange av dagens søke-motorer passer for mange sider, kan programvaren være skrevet for å skanne de matchet sider for å finne informasjon. Et program kan hente hver matchet side, og søke i avsnitt mens du sjekker for streker / skråstreker, kunne det programmet finne informasjonen i hundrevis av nettsider som samsvarer med low-tech søk. Et slikt program kan også jakte på en / en / det innenfor hver matchende web side, og finne resultatene uten at brukeren vasset gjennom mange sider med annonser.
  9. 9
    Utprøvde teknikker. Ikke si: "Det er for avansert, de vil aldri forstå lete etter paragrafer og bokstavelige navn." Folk har en utrolig evne til å gå utover begrense ideer om gamle søke-teknikker. Mange av de ovennevnte teknikkene ble påvist, i faktiske sluttbrukerprogrammer, 25 år siden ved NASA. Det var en hel generasjon siden. Det er bare enda et tilfelle av "tilbake til fremtiden" i teknologi. Renessansen overvant den mørke middelalderen, så bedre søk-teknologi kan, faktisk, oppnås igjen.

Tips

  • Søkeord nær. Noen søk-motorer kan allerede begrense søkene til delvise avsnitt / seksjoner ved hjelp av søkeordet "NEAR" i søket. Eksperimenter med den NEAR søkeord kan bidra til å vise fordelene ved å begrense søkene til avsnitt eller seksjoner, snarere enn å søke på tvers av hele sider.

Advarsler

  • Spam drepe søkemotorer. Dårer, low-tech tilnærming med matchende ord over hele siden, i stedet for matchende innenfor avsnitt / seksjoner har bidratt til å fremme spam-sider som inneholder 10.000 urelaterte ord i håp om å spam-kamp i søke-resultatene. Så, er dagens søke-motorer blir oversvømmet med spam-sider og kan bli nesten ubrukelig med mindre de avskrekke ytterligere spam-sider. Når du skriver et program for å skanne i en bestemt søkemotor-resultater, være forberedt på å bytte til enda en søke-motor som ikke blir drept av spam så fort.