Wildcard search + case insensitive

classic Classic list List threaded Threaded
4 messages Options
Reply | Threaded
Open this post in threaded view
|

Wildcard search + case insensitive

Tim Mahy
Hi all,

I use this type definition in my schema.xml :

    <fieldtype name="exactText" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldtype>

When I have a document with the term "demo" in it and I search for dem* , I receive the document back from Solr, but when I search on Dem* I don't get the document.

Is the LowerCaseFilterFactory not executed when a wildcard search is being performed ?

Greetings,
Tim




Info Support - http://www.infosupport.com

Alle informatie in dit e-mailbericht is onder voorbehoud. Info Support is op geen enkele wijze aansprakelijk voor vergissingen of onjuistheden in dit bericht en staat niet in voor de juiste en volledige overbrenging van de inhoud hiervan. Op al de werkzaamheden door Info Support uitgevoerd en op al de aan ons gegeven opdrachten zijn - tenzij expliciet anders overeengekomen - onze Algemene Voorwaarden van toepassing, gedeponeerd bij de Kamer van Koophandel te Utrecht onder nr. 30135370. Een exemplaar zenden wij u op uw verzoek per omgaande kosteloos toe.

De informatie in dit e-mailbericht is uitsluitend bestemd voor de geadresseerde. Gebruik van deze informatie door anderen is verboden. Openbaarmaking, vermenigvuldiging, verspreiding en/of verstrekking van deze informatie aan derden is niet toegestaan.

Dit e-mailbericht kan vertrouwelijke informatie bevatten. Indien u dit bericht dus per ongeluk ontvangt, stelt Info Support het op prijs als u de zender door een antwoord op deze e-mail hiervan op de hoogte brengt en deze e-mail vervolgens vernietigt.
Reply | Threaded
Open this post in threaded view
|

RE: Wildcard search + case insensitive

Tim Mahy
Hi all,

I already found the answer to my question on the following blog : http://michaelkimsal.com/blog/2007/04/solr-case-sensitivty/

greetings,
Tim


-----Oorspronkelijk bericht-----
Van: Tim Mahy [mailto:[hidden email]]
Verzonden: wo 2-4-2008 13:19
Aan: [hidden email]
Onderwerp: Wildcard search + case insensitive
 
Hi all,

I use this type definition in my schema.xml :

    <fieldtype name="exactText" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
      <analyzer type="query">
        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
        <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/>
        <filter class="solr.LowerCaseFilterFactory"/>
        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
      </analyzer>
    </fieldtype>

When I have a document with the term "demo" in it and I search for dem* , I receive the document back from Solr, but when I search on Dem* I don't get the document.

Is the LowerCaseFilterFactory not executed when a wildcard search is being performed ?

Greetings,
Tim




Info Support - http://www.infosupport.com 

Alle informatie in dit e-mailbericht is onder voorbehoud. Info Support is op geen enkele wijze aansprakelijk voor vergissingen of onjuistheden in dit bericht en staat niet in voor de juiste en volledige overbrenging van de inhoud hiervan. Op al de werkzaamheden door Info Support uitgevoerd en op al de aan ons gegeven opdrachten zijn - tenzij expliciet anders overeengekomen - onze Algemene Voorwaarden van toepassing, gedeponeerd bij de Kamer van Koophandel te Utrecht onder nr. 30135370. Een exemplaar zenden wij u op uw verzoek per omgaande kosteloos toe.

De informatie in dit e-mailbericht is uitsluitend bestemd voor de geadresseerde. Gebruik van deze informatie door anderen is verboden. Openbaarmaking, vermenigvuldiging, verspreiding en/of verstrekking van deze informatie aan derden is niet toegestaan.

Dit e-mailbericht kan vertrouwelijke informatie bevatten. Indien u dit bericht dus per ongeluk ontvangt, stelt Info Support het op prijs als u de zender door een antwoord op deze e-mail hiervan op de hoogte brengt en deze e-mail vervolgens vernietigt.


Reply | Threaded
Open this post in threaded view
|

Re: Wildcard search + case insensitive

Matthew Runo
Hmm. I'd like the ability to turn on or off in the config case  
sensitivity... I'm looking forward to this patch.

Thanks!

Matthew Runo
Software Developer
Zappos.com
702.943.7833

On Apr 2, 2008, at 5:48 AM, Tim Mahy wrote:

> Hi all,
>
> I already found the answer to my question on the following blog : http://michaelkimsal.com/blog/2007/04/solr-case-sensitivty/
>
> greetings,
> Tim
>
>
> -----Oorspronkelijk bericht-----
> Van: Tim Mahy [mailto:[hidden email]]
> Verzonden: wo 2-4-2008 13:19
> Aan: [hidden email]
> Onderwerp: Wildcard search + case insensitive
>
> Hi all,
>
> I use this type definition in my schema.xml :
>
>    <fieldtype name="exactText" class="solr.TextField"  
> positionIncrementGap="100">
>      <analyzer type="index">
>        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
>        <filter class="solr.StopFilterFactory" ignoreCase="true"  
> words="stopwords.txt"/>
>        <filter class="solr.LowerCaseFilterFactory"/>
>        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
>      </analyzer>
>      <analyzer type="query">
>        <tokenizer class="solr.WhitespaceTokenizerFactory"/>
>        <filter class="solr.StopFilterFactory" ignoreCase="true"  
> words="stopwords.txt"/>
>        <filter class="solr.LowerCaseFilterFactory"/>
>        <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
>      </analyzer>
>    </fieldtype>
>
> When I have a document with the term "demo" in it and I search for  
> dem* , I receive the document back from Solr, but when I search on  
> Dem* I don't get the document.
>
> Is the LowerCaseFilterFactory not executed when a wildcard search is  
> being performed ?
>
> Greetings,
> Tim
>
>
>
>
> Info Support - http://www.infosupport.com
>
> Alle informatie in dit e-mailbericht is onder voorbehoud. Info  
> Support is op geen enkele wijze aansprakelijk voor vergissingen of  
> onjuistheden in dit bericht en staat niet in voor de juiste en  
> volledige overbrenging van de inhoud hiervan. Op al de werkzaamheden  
> door Info Support uitgevoerd en op al de aan ons gegeven opdrachten  
> zijn - tenzij expliciet anders overeengekomen - onze Algemene  
> Voorwaarden van toepassing, gedeponeerd bij de Kamer van Koophandel  
> te Utrecht onder nr. 30135370. Een exemplaar zenden wij u op uw  
> verzoek per omgaande kosteloos toe.
>
> De informatie in dit e-mailbericht is uitsluitend bestemd voor de  
> geadresseerde. Gebruik van deze informatie door anderen is verboden.  
> Openbaarmaking, vermenigvuldiging, verspreiding en/of verstrekking  
> van deze informatie aan derden is niet toegestaan.
>
> Dit e-mailbericht kan vertrouwelijke informatie bevatten. Indien u  
> dit bericht dus per ongeluk ontvangt, stelt Info Support het op  
> prijs als u de zender door een antwoord op deze e-mail hiervan op de  
> hoogte brengt en deze e-mail vervolgens vernietigt.
>
>

Reply | Threaded
Open this post in threaded view
|

Re: Wildcard search + case insensitive

hossman

: Hmm. I'd like the ability to turn on or off in the config case sensitivity...
: I'm looking forward to this patch.

FYI: here's the relevant issue...

        http://issues.apache.org/jira/browse/SOLR-218

NOTE: no one has ever contributed any patches to address this problem.
(although yonik did felsh out a POC patch for an alternate "DWIM" approach
in SOLR-219)



-Hoss