Planet

navi

home

PPS

about

screenshots

download

development

forum

Context Navigation

source: downloads/tcl8.5.2/generic/regc_lex.c @ 63

Last change on this file since 63 was 25, checked in by landauf, 17 years ago
added tcl to libs
File size: 25.1 KB

Line
1	/*
2	* lexical analyzer
3	* This file is #included by regcomp.c.
4	*
5	* Copyright (c) 1998, 1999 Henry Spencer. All rights reserved.
6	*
7	* Development of this software was funded, in part, by Cray Research Inc.,
8	* UUNET Communications Services Inc., Sun Microsystems Inc., and Scriptics
9	* Corporation, none of whom are responsible for the results. The author
10	* thanks all of them.
11	*
12	* Redistribution and use in source and binary forms -- with or without
13	* modification -- are permitted for any purpose, provided that
14	* redistributions in source form retain this entire copyright notice and
15	* indicate the origin and nature of any modifications.
16	*
17	* I'd appreciate being given credit for this package in the documentation of
18	* software which uses it, but that is not a requirement.
19	*
20	* THIS SOFTWARE IS PROVIDED ``AS IS'' AND ANY EXPRESS OR IMPLIED WARRANTIES,
21	* INCLUDING, BUT NOT LIMITED TO, THE IMPLIED WARRANTIES OF MERCHANTABILITY
22	* AND FITNESS FOR A PARTICULAR PURPOSE ARE DISCLAIMED. IN NO EVENT SHALL
23	* HENRY SPENCER BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL,
24	* EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT NOT LIMITED TO,
25	* PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES; LOSS OF USE, DATA, OR PROFITS;
26	* OR BUSINESS INTERRUPTION) HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY,
27	* WHETHER IN CONTRACT, STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR
28	* OTHERWISE) ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF
29	* ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
30	*/
31
32	/* scanning macros (know about v) */
33	#define ATEOS() (v->now >= v->stop)
34	#define HAVE(n) (v->stop - v->now >= (n))
35	#define NEXT1(c) (!ATEOS() && *v->now == CHR(c))
36	#define NEXT2(a,b) (HAVE(2) && v->now == CHR(a) && (v->now+1) == CHR(b))
37	#define NEXT3(a,b,c) \
38	(HAVE(3) && *v->now == CHR(a) && \
39	*(v->now+1) == CHR(b) && \
40	*(v->now+2) == CHR(c))
41	#define SET(c) (v->nexttype = (c))
42	#define SETV(c, n) (v->nexttype = (c), v->nextvalue = (n))
43	#define RET(c) return (SET(c), 1)
44	#define RETV(c, n) return (SETV(c, n), 1)
45	#define FAILW(e) return (ERR(e), 0) /* ERR does SET(EOS) */
46	#define LASTTYPE(t) (v->lasttype == (t))
47
48	/* lexical contexts */
49	#define L_ERE 1 /* mainline ERE/ARE */
50	#define L_BRE 2 /* mainline BRE */
51	#define L_Q 3 /* REG_QUOTE */
52	#define L_EBND 4 /* ERE/ARE bound */
53	#define L_BBND 5 /* BRE bound */
54	#define L_BRACK 6 /* brackets */
55	#define L_CEL 7 /* collating element */
56	#define L_ECL 8 /* equivalence class */
57	#define L_CCL 9 /* character class */
58	#define INTOCON(c) (v->lexcon = (c))
59	#define INCON(con) (v->lexcon == (con))
60
61	/* construct pointer past end of chr array */
62	#define ENDOF(array) ((array) + sizeof(array)/sizeof(chr))
63
64	/*
65	- lexstart - set up lexical stuff, scan leading options
66	^ static VOID lexstart(struct vars *);
67	*/
68	static void
69	lexstart(
70	struct vars *v)
71	{
72	prefixes(v); /* may turn on new type bits etc. */
73	NOERR();
74
75	if (v->cflags&REG_QUOTE) {
76	assert(!(v->cflags&(REG_ADVANCED\|REG_EXPANDED\|REG_NEWLINE)));
77	INTOCON(L_Q);
78	} else if (v->cflags&REG_EXTENDED) {
79	assert(!(v->cflags&REG_QUOTE));
80	INTOCON(L_ERE);
81	} else {
82	assert(!(v->cflags&(REG_QUOTE\|REG_ADVF)));
83	INTOCON(L_BRE);
84	}
85
86	v->nexttype = EMPTY; /* remember we were at the start */
87	next(v); /* set up the first token */
88	}
89
90	/*
91	- prefixes - implement various special prefixes
92	^ static VOID prefixes(struct vars *);
93	*/
94	static void
95	prefixes(
96	struct vars *v)
97	{
98	/*
99	* Literal string doesn't get any of this stuff.
100	*/
101
102	if (v->cflags&REG_QUOTE) {
103	return;
104	}
105
106	/*
107	* Initial "***" gets special things.
108	*/
109
110	if (HAVE(4) && NEXT3('', '', '*')) {
111	switch (*(v->now + 3)) {
112	case CHR('?'): /* "**?" error, msg shows version /
113	ERR(REG_BADPAT);
114	return; /* proceed no further */
115	break;
116	case CHR('='): /* "**=" shifts to literal string /
117	NOTE(REG_UNONPOSIX);
118	v->cflags \|= REG_QUOTE;
119	v->cflags &= ~(REG_ADVANCED\|REG_EXPANDED\|REG_NEWLINE);
120	v->now += 4;
121	return; /* and there can be no more prefixes */
122	break;
123	case CHR(':'): /* "**:" shifts to AREs /
124	NOTE(REG_UNONPOSIX);
125	v->cflags \|= REG_ADVANCED;
126	v->now += 4;
127	break;
128	default: /* otherwise *** is just an error */
129	ERR(REG_BADRPT);
130	return;
131	break;
132	}
133	}
134
135	/*
136	* BREs and EREs don't get embedded options.
137	*/
138
139	if ((v->cflags&REG_ADVANCED) != REG_ADVANCED) {
140	return;
141	}
142
143	/*
144	* Embedded options (AREs only).
145	*/
146
147	if (HAVE(3) && NEXT2('(', '?') && iscalpha(*(v->now + 2))) {
148	NOTE(REG_UNONPOSIX);
149	v->now += 2;
150	for (; !ATEOS() && iscalpha(*v->now); v->now++) {
151	switch (*v->now) {
152	case CHR('b'): /* BREs (but why???) */
153	v->cflags &= ~(REG_ADVANCED\|REG_QUOTE);
154	break;
155	case CHR('c'): /* case sensitive */
156	v->cflags &= ~REG_ICASE;
157	break;
158	case CHR('e'): /* plain EREs */
159	v->cflags \|= REG_EXTENDED;
160	v->cflags &= ~(REG_ADVF\|REG_QUOTE);
161	break;
162	case CHR('i'): /* case insensitive */
163	v->cflags \|= REG_ICASE;
164	break;
165	case CHR('m'): /* Perloid synonym for n */
166	case CHR('n'): /* \n affects ^ $ . [^ */
167	v->cflags \|= REG_NEWLINE;
168	break;
169	case CHR('p'): /* ~Perl, \n affects . [^ */
170	v->cflags \|= REG_NLSTOP;
171	v->cflags &= ~REG_NLANCH;
172	break;
173	case CHR('q'): /* literal string */
174	v->cflags \|= REG_QUOTE;
175	v->cflags &= ~REG_ADVANCED;
176	break;
177	case CHR('s'): /* single line, \n ordinary */
178	v->cflags &= ~REG_NEWLINE;
179	break;
180	case CHR('t'): /* tight syntax */
181	v->cflags &= ~REG_EXPANDED;
182	break;
183	case CHR('w'): /* weird, \n affects ^ $ only */
184	v->cflags &= ~REG_NLSTOP;
185	v->cflags \|= REG_NLANCH;
186	break;
187	case CHR('x'): /* expanded syntax */
188	v->cflags \|= REG_EXPANDED;
189	break;
190	default:
191	ERR(REG_BADOPT);
192	return;
193	}
194	}
195	if (!NEXT1(')')) {
196	ERR(REG_BADOPT);
197	return;
198	}
199	v->now++;
200	if (v->cflags&REG_QUOTE) {
201	v->cflags &= ~(REG_EXPANDED\|REG_NEWLINE);
202	}
203	}
204	}
205
206	/*
207	- lexnest - "call a subroutine", interpolating string at the lexical level
208	* Note, this is not a very general facility. There are a number of
209	* implicit assumptions about what sorts of strings can be subroutines.
210	^ static VOID lexnest(struct vars , const chr , const chr *);
211	*/
212	static void
213	lexnest(
214	struct vars *v,
215	const chr beginp, / start of interpolation */
216	const chr endp) / one past end of interpolation */
217	{
218	assert(v->savenow == NULL); /* only one level of nesting */
219	v->savenow = v->now;
220	v->savestop = v->stop;
221	v->now = beginp;
222	v->stop = endp;
223	}
224
225	/*
226	* string constants to interpolate as expansions of things like \d
227	*/
228
229	static const chr backd[] = { /* \d */
230	CHR('['), CHR('['), CHR(':'),
231	CHR('d'), CHR('i'), CHR('g'), CHR('i'), CHR('t'),
232	CHR(':'), CHR(']'), CHR(']')
233	};
234	static const chr backD[] = { /* \D */
235	CHR('['), CHR('^'), CHR('['), CHR(':'),
236	CHR('d'), CHR('i'), CHR('g'), CHR('i'), CHR('t'),
237	CHR(':'), CHR(']'), CHR(']')
238	};
239	static const chr brbackd[] = { /* \d within brackets */
240	CHR('['), CHR(':'),
241	CHR('d'), CHR('i'), CHR('g'), CHR('i'), CHR('t'),
242	CHR(':'), CHR(']')
243	};
244	static const chr backs[] = { /* \s */
245	CHR('['), CHR('['), CHR(':'),
246	CHR('s'), CHR('p'), CHR('a'), CHR('c'), CHR('e'),
247	CHR(':'), CHR(']'), CHR(']')
248	};
249	static const chr backS[] = { /* \S */
250	CHR('['), CHR('^'), CHR('['), CHR(':'),
251	CHR('s'), CHR('p'), CHR('a'), CHR('c'), CHR('e'),
252	CHR(':'), CHR(']'), CHR(']')
253	};
254	static const chr brbacks[] = { /* \s within brackets */
255	CHR('['), CHR(':'),
256	CHR('s'), CHR('p'), CHR('a'), CHR('c'), CHR('e'),
257	CHR(':'), CHR(']')
258	};
259	static const chr backw[] = { /* \w */
260	CHR('['), CHR('['), CHR(':'),
261	CHR('a'), CHR('l'), CHR('n'), CHR('u'), CHR('m'),
262	CHR(':'), CHR(']'), CHR('_'), CHR(']')
263	};
264	static const chr backW[] = { /* \W */
265	CHR('['), CHR('^'), CHR('['), CHR(':'),
266	CHR('a'), CHR('l'), CHR('n'), CHR('u'), CHR('m'),
267	CHR(':'), CHR(']'), CHR('_'), CHR(']')
268	};
269	static const chr brbackw[] = { /* \w within brackets */
270	CHR('['), CHR(':'),
271	CHR('a'), CHR('l'), CHR('n'), CHR('u'), CHR('m'),
272	CHR(':'), CHR(']'), CHR('_')
273	};
274
275	/*
276	- lexword - interpolate a bracket expression for word characters
277	* Possibly ought to inquire whether there is a "word" character class.
278	^ static VOID lexword(struct vars *);
279	*/
280	static void
281	lexword(
282	struct vars *v)
283	{
284	lexnest(v, backw, ENDOF(backw));
285	}
286
287	/*
288	- next - get next token
289	^ static int next(struct vars *);
290	*/
291	static int /* 1 normal, 0 failure */
292	next(
293	struct vars *v)
294	{
295	chr c;
296
297	/*
298	* Errors yield an infinite sequence of failures.
299	*/
300
301	if (ISERR()) {
302	return 0; /* the error has set nexttype to EOS */
303	}
304
305	/*
306	* Remember flavor of last token.
307	*/
308
309	v->lasttype = v->nexttype;
310
311	/*
312	* REG_BOSONLY
313	*/
314
315	if (v->nexttype == EMPTY && (v->cflags&REG_BOSONLY)) {
316	/* at start of a REG_BOSONLY RE */
317	RETV(SBEGIN, 0); /* same as \A */
318	}
319
320	/*
321	* If we're nested and we've hit end, return to outer level.
322	*/
323
324	if (v->savenow != NULL && ATEOS()) {
325	v->now = v->savenow;
326	v->stop = v->savestop;
327	v->savenow = v->savestop = NULL;
328	}
329
330	/*
331	* Skip white space etc. if appropriate (not in literal or [])
332	*/
333
334	if (v->cflags&REG_EXPANDED) {
335	switch (v->lexcon) {
336	case L_ERE:
337	case L_BRE:
338	case L_EBND:
339	case L_BBND:
340	skip(v);
341	break;
342	}
343	}
344
345	/*
346	* Handle EOS, depending on context.
347	*/
348
349	if (ATEOS()) {
350	switch (v->lexcon) {
351	case L_ERE:
352	case L_BRE:
353	case L_Q:
354	RET(EOS);
355	break;
356	case L_EBND:
357	case L_BBND:
358	FAILW(REG_EBRACE);
359	break;
360	case L_BRACK:
361	case L_CEL:
362	case L_ECL:
363	case L_CCL:
364	FAILW(REG_EBRACK);
365	break;
366	}
367	assert(NOTREACHED);
368	}
369
370	/*
371	* Okay, time to actually get a character.
372	*/
373
374	c = *v->now++;
375
376	/*
377	* Deal with the easy contexts, punt EREs to code below.
378	*/
379
380	switch (v->lexcon) {
381	case L_BRE: /* punt BREs to separate function */
382	return brenext(v, c);
383	break;
384	case L_ERE: /* see below */
385	break;
386	case L_Q: /* literal strings are easy */
387	RETV(PLAIN, c);
388	break;
389	case L_BBND: /* bounds are fairly simple */
390	case L_EBND:
391	switch (c) {
392	case CHR('0'): case CHR('1'): case CHR('2'): case CHR('3'):
393	case CHR('4'): case CHR('5'): case CHR('6'): case CHR('7'):
394	case CHR('8'): case CHR('9'):
395	RETV(DIGIT, (chr)DIGITVAL(c));
396	break;
397	case CHR(','):
398	RET(',');
399	break;
400	case CHR('}'): /* ERE bound ends with } */
401	if (INCON(L_EBND)) {
402	INTOCON(L_ERE);
403	if ((v->cflags&REG_ADVF) && NEXT1('?')) {
404	v->now++;
405	NOTE(REG_UNONPOSIX);
406	RETV('}', 0);
407	}
408	RETV('}', 1);
409	} else {
410	FAILW(REG_BADBR);
411	}
412	break;
413	case CHR('\\'): /* BRE bound ends with \} */
414	if (INCON(L_BBND) && NEXT1('}')) {
415	v->now++;
416	INTOCON(L_BRE);
417	RET('}');
418	} else {
419	FAILW(REG_BADBR);
420	}
421	break;
422	default:
423	FAILW(REG_BADBR);
424	break;
425	}
426	assert(NOTREACHED);
427	break;
428	case L_BRACK: /* brackets are not too hard */
429	switch (c) {
430	case CHR(']'):
431	if (LASTTYPE('[')) {
432	RETV(PLAIN, c);
433	} else {
434	INTOCON((v->cflags&REG_EXTENDED) ? L_ERE : L_BRE);
435	RET(']');
436	}
437	break;
438	case CHR('\\'):
439	NOTE(REG_UBBS);
440	if (!(v->cflags&REG_ADVF)) {
441	RETV(PLAIN, c);
442	}
443	NOTE(REG_UNONPOSIX);
444	if (ATEOS()) {
445	FAILW(REG_EESCAPE);
446	}
447	(DISCARD)lexescape(v);
448	switch (v->nexttype) { /* not all escapes okay here */
449	case PLAIN:
450	return 1;
451	break;
452	case CCLASS:
453	switch (v->nextvalue) {
454	case 'd':
455	lexnest(v, brbackd, ENDOF(brbackd));
456	break;
457	case 's':
458	lexnest(v, brbacks, ENDOF(brbacks));
459	break;
460	case 'w':
461	lexnest(v, brbackw, ENDOF(brbackw));
462	break;
463	default:
464	FAILW(REG_EESCAPE);
465	break;
466	}
467
468	/*
469	* lexnest() done, back up and try again.
470	*/
471
472	v->nexttype = v->lasttype;
473	return next(v);
474	break;
475	}
476
477	/*
478	* Not one of the acceptable escapes.
479	*/
480
481	FAILW(REG_EESCAPE);
482	break;
483	case CHR('-'):
484	if (LASTTYPE('[') \|\| NEXT1(']')) {
485	RETV(PLAIN, c);
486	} else {
487	RETV(RANGE, c);
488	}
489	break;
490	case CHR('['):
491	if (ATEOS()) {
492	FAILW(REG_EBRACK);
493	}
494	switch (*v->now++) {
495	case CHR('.'):
496	INTOCON(L_CEL);
497
498	/*
499	* Might or might not be locale-specific.
500	*/
501
502	RET(COLLEL);
503	break;
504	case CHR('='):
505	INTOCON(L_ECL);
506	NOTE(REG_ULOCALE);
507	RET(ECLASS);
508	break;
509	case CHR(':'):
510	INTOCON(L_CCL);
511	NOTE(REG_ULOCALE);
512	RET(CCLASS);
513	break;
514	default: /* oops */
515	v->now--;
516	RETV(PLAIN, c);
517	break;
518	}
519	assert(NOTREACHED);
520	break;
521	default:
522	RETV(PLAIN, c);
523	break;
524	}
525	assert(NOTREACHED);
526	break;
527	case L_CEL: /* collating elements are easy */
528	if (c == CHR('.') && NEXT1(']')) {
529	v->now++;
530	INTOCON(L_BRACK);
531	RETV(END, '.');
532	} else {
533	RETV(PLAIN, c);
534	}
535	break;
536	case L_ECL: /* ditto equivalence classes */
537	if (c == CHR('=') && NEXT1(']')) {
538	v->now++;
539	INTOCON(L_BRACK);
540	RETV(END, '=');
541	} else {
542	RETV(PLAIN, c);
543	}
544	break;
545	case L_CCL: /* ditto character classes */
546	if (c == CHR(':') && NEXT1(']')) {
547	v->now++;
548	INTOCON(L_BRACK);
549	RETV(END, ':');
550	} else {
551	RETV(PLAIN, c);
552	}
553	break;
554	default:
555	assert(NOTREACHED);
556	break;
557	}
558
559	/*
560	* That got rid of everything except EREs and AREs.
561	*/
562
563	assert(INCON(L_ERE));
564
565	/*
566	* Deal with EREs and AREs, except for backslashes.
567	*/
568
569	switch (c) {
570	case CHR('\|'):
571	RET('\|');
572	break;
573	case CHR('*'):
574	if ((v->cflags&REG_ADVF) && NEXT1('?')) {
575	v->now++;
576	NOTE(REG_UNONPOSIX);
577	RETV('*', 0);
578	}
579	RETV('*', 1);
580	break;
581	case CHR('+'):
582	if ((v->cflags&REG_ADVF) && NEXT1('?')) {
583	v->now++;
584	NOTE(REG_UNONPOSIX);
585	RETV('+', 0);
586	}
587	RETV('+', 1);
588	break;
589	case CHR('?'):
590	if ((v->cflags&REG_ADVF) && NEXT1('?')) {
591	v->now++;
592	NOTE(REG_UNONPOSIX);
593	RETV('?', 0);
594	}
595	RETV('?', 1);
596	break;
597	case CHR('{'): /* bounds start or plain character */
598	if (v->cflags&REG_EXPANDED) {
599	skip(v);
600	}
601	if (ATEOS() \|\| !iscdigit(*v->now)) {
602	NOTE(REG_UBRACES);
603	NOTE(REG_UUNSPEC);
604	RETV(PLAIN, c);
605	} else {
606	NOTE(REG_UBOUNDS);
607	INTOCON(L_EBND);
608	RET('{');
609	}
610	assert(NOTREACHED);
611	break;
612	case CHR('('): /* parenthesis, or advanced extension */
613	if ((v->cflags&REG_ADVF) && NEXT1('?')) {
614	NOTE(REG_UNONPOSIX);
615	v->now++;
616	switch (*v->now++) {
617	case CHR(':'): /* non-capturing paren */
618	RETV('(', 0);
619	break;
620	case CHR('#'): /* comment */
621	while (!ATEOS() && *v->now != CHR(')')) {
622	v->now++;
623	}
624	if (!ATEOS()) {
625	v->now++;
626	}
627	assert(v->nexttype == v->lasttype);
628	return next(v);
629	break;
630	case CHR('='): /* positive lookahead */
631	NOTE(REG_ULOOKAHEAD);
632	RETV(LACON, 1);
633	break;
634	case CHR('!'): /* negative lookahead */
635	NOTE(REG_ULOOKAHEAD);
636	RETV(LACON, 0);
637	break;
638	default:
639	FAILW(REG_BADRPT);
640	break;
641	}
642	assert(NOTREACHED);
643	}
644	if (v->cflags&REG_NOSUB) {
645	RETV('(', 0); /* all parens non-capturing */
646	} else {
647	RETV('(', 1);
648	}
649	break;
650	case CHR(')'):
651	if (LASTTYPE('(')) {
652	NOTE(REG_UUNSPEC);
653	}
654	RETV(')', c);
655	break;
656	case CHR('['): /* easy except for [[:<:]] and [[:>:]] */
657	if (HAVE(6) && *(v->now+0) == CHR('[') &&
658	*(v->now+1) == CHR(':') &&
659	((v->now+2) == CHR('<') \|\| (v->now+2) == CHR('>')) &&
660	*(v->now+3) == CHR(':') &&
661	*(v->now+4) == CHR(']') &&
662	*(v->now+5) == CHR(']')) {
663	c = *(v->now+2);
664	v->now += 6;
665	NOTE(REG_UNONPOSIX);
666	RET((c == CHR('<')) ? '<' : '>');
667	}
668	INTOCON(L_BRACK);
669	if (NEXT1('^')) {
670	v->now++;
671	RETV('[', 0);
672	}
673	RETV('[', 1);
674	break;
675	case CHR('.'):
676	RET('.');
677	break;
678	case CHR('^'):
679	RET('^');
680	break;
681	case CHR('$'):
682	RET('$');
683	break;
684	case CHR('\\'): /* mostly punt backslashes to code below */
685	if (ATEOS()) {
686	FAILW(REG_EESCAPE);
687	}
688	break;
689	default: /* ordinary character */
690	RETV(PLAIN, c);
691	break;
692	}
693
694	/*
695	* ERE/ARE backslash handling; backslash already eaten.
696	*/
697
698	assert(!ATEOS());
699	if (!(v->cflags&REG_ADVF)) {/* only AREs have non-trivial escapes */
700	if (iscalnum(*v->now)) {
701	NOTE(REG_UBSALNUM);
702	NOTE(REG_UUNSPEC);
703	}
704	RETV(PLAIN, *v->now++);
705	}
706	(DISCARD)lexescape(v);
707	if (ISERR()) {
708	FAILW(REG_EESCAPE);
709	}
710	if (v->nexttype == CCLASS) {/* fudge at lexical level */
711	switch (v->nextvalue) {
712	case 'd': lexnest(v, backd, ENDOF(backd)); break;
713	case 'D': lexnest(v, backD, ENDOF(backD)); break;
714	case 's': lexnest(v, backs, ENDOF(backs)); break;
715	case 'S': lexnest(v, backS, ENDOF(backS)); break;
716	case 'w': lexnest(v, backw, ENDOF(backw)); break;
717	case 'W': lexnest(v, backW, ENDOF(backW)); break;
718	default:
719	assert(NOTREACHED);
720	FAILW(REG_ASSERT);
721	break;
722	}
723	/* lexnest done, back up and try again */
724	v->nexttype = v->lasttype;
725	return next(v);
726	}
727
728	/*
729	* Otherwise, lexescape has already done the work.
730	*/
731
732	return !ISERR();
733	}
734
735	/*
736	- lexescape - parse an ARE backslash escape (backslash already eaten)
737	* Note slightly nonstandard use of the CCLASS type code.
738	^ static int lexescape(struct vars *);
739	*/
740	static int /* not actually used, but convenient for RETV */
741	lexescape(
742	struct vars *v)
743	{
744	chr c;
745	static chr alert[] = {
746	CHR('a'), CHR('l'), CHR('e'), CHR('r'), CHR('t')
747	};
748	static chr esc[] = {
749	CHR('E'), CHR('S'), CHR('C')
750	};
751	const chr *save;
752
753	assert(v->cflags&REG_ADVF);
754
755	assert(!ATEOS());
756	c = *v->now++;
757	if (!iscalnum(c)) {
758	RETV(PLAIN, c);
759	}
760
761	NOTE(REG_UNONPOSIX);
762	switch (c) {
763	case CHR('a'):
764	RETV(PLAIN, chrnamed(v, alert, ENDOF(alert), CHR('\007')));
765	break;
766	case CHR('A'):
767	RETV(SBEGIN, 0);
768	break;
769	case CHR('b'):
770	RETV(PLAIN, CHR('\b'));
771	break;
772	case CHR('B'):
773	RETV(PLAIN, CHR('\\'));
774	break;
775	case CHR('c'):
776	NOTE(REG_UUNPORT);
777	if (ATEOS()) {
778	FAILW(REG_EESCAPE);
779	}
780	RETV(PLAIN, (chr)(*v->now++ & 037));
781	break;
782	case CHR('d'):
783	NOTE(REG_ULOCALE);
784	RETV(CCLASS, 'd');
785	break;
786	case CHR('D'):
787	NOTE(REG_ULOCALE);
788	RETV(CCLASS, 'D');
789	break;
790	case CHR('e'):
791	NOTE(REG_UUNPORT);
792	RETV(PLAIN, chrnamed(v, esc, ENDOF(esc), CHR('\033')));
793	break;
794	case CHR('f'):
795	RETV(PLAIN, CHR('\f'));
796	break;
797	case CHR('m'):
798	RET('<');
799	break;
800	case CHR('M'):
801	RET('>');
802	break;
803	case CHR('n'):
804	RETV(PLAIN, CHR('\n'));
805	break;
806	case CHR('r'):
807	RETV(PLAIN, CHR('\r'));
808	break;
809	case CHR('s'):
810	NOTE(REG_ULOCALE);
811	RETV(CCLASS, 's');
812	break;
813	case CHR('S'):
814	NOTE(REG_ULOCALE);
815	RETV(CCLASS, 'S');
816	break;
817	case CHR('t'):
818	RETV(PLAIN, CHR('\t'));
819	break;
820	case CHR('u'):
821	c = lexdigits(v, 16, 4, 4);
822	if (ISERR()) {
823	FAILW(REG_EESCAPE);
824	}
825	RETV(PLAIN, c);
826	break;
827	case CHR('U'):
828	c = lexdigits(v, 16, 8, 8);
829	if (ISERR()) {
830	FAILW(REG_EESCAPE);
831	}
832	RETV(PLAIN, c);
833	break;
834	case CHR('v'):
835	RETV(PLAIN, CHR('\v'));
836	break;
837	case CHR('w'):
838	NOTE(REG_ULOCALE);
839	RETV(CCLASS, 'w');
840	break;
841	case CHR('W'):
842	NOTE(REG_ULOCALE);
843	RETV(CCLASS, 'W');
844	break;
845	case CHR('x'):
846	NOTE(REG_UUNPORT);
847	c = lexdigits(v, 16, 1, 255); /* REs >255 long outside spec */
848	if (ISERR()) {
849	FAILW(REG_EESCAPE);
850	}
851	RETV(PLAIN, c);
852	break;
853	case CHR('y'):
854	NOTE(REG_ULOCALE);
855	RETV(WBDRY, 0);
856	break;
857	case CHR('Y'):
858	NOTE(REG_ULOCALE);
859	RETV(NWBDRY, 0);
860	break;
861	case CHR('Z'):
862	RETV(SEND, 0);
863	break;
864	case CHR('1'): case CHR('2'): case CHR('3'): case CHR('4'):
865	case CHR('5'): case CHR('6'): case CHR('7'): case CHR('8'):
866	case CHR('9'):
867	save = v->now;
868	v->now--; /* put first digit back */
869	c = lexdigits(v, 10, 1, 255); /* REs >255 long outside spec */
870	if (ISERR()) {
871	FAILW(REG_EESCAPE);
872	}
873
874	/*
875	* Ugly heuristic (first test is "exactly 1 digit?")
876	*/
877
878	if (v->now - save == 0 \|\| ((int) c > 0 && (int)c <= v->nsubexp)) {
879	NOTE(REG_UBACKREF);
880	RETV(BACKREF, (chr)c);
881	}
882
883	/*
884	* Oops, doesn't look like it's a backref after all...
885	*/
886
887	v->now = save;
888
889	/*
890	* And fall through into octal number.
891	*/
892
893	case CHR('0'):
894	NOTE(REG_UUNPORT);
895	v->now--; /* put first digit back */
896	c = lexdigits(v, 8, 1, 3);
897	if (ISERR()) {
898	FAILW(REG_EESCAPE);
899	}
900	RETV(PLAIN, c);
901	break;
902	default:
903	assert(iscalpha(c));
904	FAILW(REG_EESCAPE); /* unknown alphabetic escape */
905	break;
906	}
907	assert(NOTREACHED);
908	}
909
910	/*
911	- lexdigits - slurp up digits and return chr value
912	^ static chr lexdigits(struct vars *, int, int, int);
913	*/
914	static chr /* chr value; errors signalled via ERR */
915	lexdigits(
916	struct vars *v,
917	int base,
918	int minlen,
919	int maxlen)
920	{
921	uchr n; /* unsigned to avoid overflow misbehavior */
922	int len;
923	chr c;
924	int d;
925	CONST uchr ub = (uchr) base;
926
927	n = 0;
928	for (len = 0; len < maxlen && !ATEOS(); len++) {
929	c = *v->now++;
930	switch (c) {
931	case CHR('0'): case CHR('1'): case CHR('2'): case CHR('3'):
932	case CHR('4'): case CHR('5'): case CHR('6'): case CHR('7'):
933	case CHR('8'): case CHR('9'):
934	d = DIGITVAL(c);
935	break;
936	case CHR('a'): case CHR('A'): d = 10; break;
937	case CHR('b'): case CHR('B'): d = 11; break;
938	case CHR('c'): case CHR('C'): d = 12; break;
939	case CHR('d'): case CHR('D'): d = 13; break;
940	case CHR('e'): case CHR('E'): d = 14; break;
941	case CHR('f'): case CHR('F'): d = 15; break;
942	default:
943	v->now--; /* oops, not a digit at all */
944	d = -1;
945	break;
946	}
947
948	if (d >= base) { /* not a plausible digit */
949	v->now--;
950	d = -1;
951	}
952	if (d < 0) {
953	break; /* NOTE BREAK OUT */
954	}
955	n = n*ub + (uchr)d;
956	}
957	if (len < minlen) {
958	ERR(REG_EESCAPE);
959	}
960
961	return (chr)n;
962	}
963
964	/*
965	- brenext - get next BRE token
966	* This is much like EREs except for all the stupid backslashes and the
967	* context-dependency of some things.
968	^ static int brenext(struct vars *, pchr);
969	*/
970	static int /* 1 normal, 0 failure */
971	brenext(
972	struct vars *v,
973	pchr pc)
974	{
975	chr c = (chr)pc;
976
977	switch (c) {
978	case CHR('*'):
979	if (LASTTYPE(EMPTY) \|\| LASTTYPE('(') \|\| LASTTYPE('^')) {
980	RETV(PLAIN, c);
981	}
982	RET('*');
983	break;
984	case CHR('['):
985	if (HAVE(6) && *(v->now+0) == CHR('[') &&
986	*(v->now+1) == CHR(':') &&
987	((v->now+2) == CHR('<') \|\| (v->now+2) == CHR('>')) &&
988	*(v->now+3) == CHR(':') &&
989	*(v->now+4) == CHR(']') &&
990	*(v->now+5) == CHR(']')) {
991	c = *(v->now+2);
992	v->now += 6;
993	NOTE(REG_UNONPOSIX);
994	RET((c == CHR('<')) ? '<' : '>');
995	}
996	INTOCON(L_BRACK);
997	if (NEXT1('^')) {
998	v->now++;
999	RETV('[', 0);
1000	}
1001	RETV('[', 1);
1002	break;
1003	case CHR('.'):
1004	RET('.');
1005	break;
1006	case CHR('^'):
1007	if (LASTTYPE(EMPTY)) {
1008	RET('^');
1009	}
1010	if (LASTTYPE('(')) {
1011	NOTE(REG_UUNSPEC);
1012	RET('^');
1013	}
1014	RETV(PLAIN, c);
1015	break;
1016	case CHR('$'):
1017	if (v->cflags&REG_EXPANDED) {
1018	skip(v);
1019	}
1020	if (ATEOS()) {
1021	RET('$');
1022	}
1023	if (NEXT2('\\', ')')) {
1024	NOTE(REG_UUNSPEC);
1025	RET('$');
1026	}
1027	RETV(PLAIN, c);
1028	break;
1029	case CHR('\\'):
1030	break; /* see below */
1031	default:
1032	RETV(PLAIN, c);
1033	break;
1034	}
1035
1036	assert(c == CHR('\\'));
1037
1038	if (ATEOS()) {
1039	FAILW(REG_EESCAPE);
1040	}
1041
1042	c = *v->now++;
1043	switch (c) {
1044	case CHR('{'):
1045	INTOCON(L_BBND);
1046	NOTE(REG_UBOUNDS);
1047	RET('{');
1048	break;
1049	case CHR('('):
1050	RETV('(', 1);
1051	break;
1052	case CHR(')'):
1053	RETV(')', c);
1054	break;
1055	case CHR('<'):
1056	NOTE(REG_UNONPOSIX);
1057	RET('<');
1058	break;
1059	case CHR('>'):
1060	NOTE(REG_UNONPOSIX);
1061	RET('>');
1062	break;
1063	case CHR('1'): case CHR('2'): case CHR('3'): case CHR('4'):
1064	case CHR('5'): case CHR('6'): case CHR('7'): case CHR('8'):
1065	case CHR('9'):
1066	NOTE(REG_UBACKREF);
1067	RETV(BACKREF, (chr)DIGITVAL(c));
1068	break;
1069	default:
1070	if (iscalnum(c)) {
1071	NOTE(REG_UBSALNUM);
1072	NOTE(REG_UUNSPEC);
1073	}
1074	RETV(PLAIN, c);
1075	break;
1076	}
1077
1078	assert(NOTREACHED);
1079	}
1080
1081	/*
1082	- skip - skip white space and comments in expanded form
1083	^ static VOID skip(struct vars *);
1084	*/
1085	static void
1086	skip(
1087	struct vars *v)
1088	{
1089	const chr *start = v->now;
1090
1091	assert(v->cflags&REG_EXPANDED);
1092
1093	for (;;) {
1094	while (!ATEOS() && iscspace(*v->now)) {
1095	v->now++;
1096	}
1097	if (ATEOS() \|\| *v->now != CHR('#')) {
1098	break; /* NOTE BREAK OUT */
1099	}
1100	assert(NEXT1('#'));
1101	while (!ATEOS() && *v->now != CHR('\n')) {
1102	v->now++;
1103	}
1104
1105	/*
1106	* Leave the newline to be picked up by the iscspace loop.
1107	*/
1108	}
1109
1110	if (v->now != start) {
1111	NOTE(REG_UNONPOSIX);
1112	}
1113	}
1114
1115	/*
1116	- newline - return the chr for a newline
1117	* This helps confine use of CHR to this source file.
1118	^ static chr newline(NOPARMS);
1119	*/
1120	static chr
1121	newline(void)
1122	{
1123	return CHR('\n');
1124	}
1125
1126	/*
1127	- ch - return the chr sequence for regc_locale.c's fake collating element ch
1128	* This helps confine use of CHR to this source file. Beware that the caller
1129	* knows how long the sequence is.
1130	^ #ifdef REG_DEBUG
1131	^ static const chr *ch(NOPARMS);
1132	^ #endif
1133	*/
1134	#ifdef REG_DEBUG
1135	static const chr *
1136	ch(void)
1137	{
1138	static chr chstr[] = { CHR('c'), CHR('h'), CHR('\0') };
1139
1140	return chstr;
1141	}
1142	#endif
1143
1144	/*
1145	- chrnamed - return the chr known by a given (chr string) name
1146	* The code is a bit clumsy, but this routine gets only such specialized
1147	* use that it hardly matters.
1148	^ static chr chrnamed(struct vars , const chr , const chr *, pchr);
1149	*/
1150	static chr
1151	chrnamed(
1152	struct vars *v,
1153	const chr startp, / start of name */
1154	const chr endp, / just past end of name */
1155	pchr lastresort) /* what to return if name lookup fails */
1156	{
1157	celt c;
1158	int errsave;
1159	int e;
1160	struct cvec *cv;
1161
1162	errsave = v->err;
1163	v->err = 0;
1164	c = element(v, startp, endp);
1165	e = v->err;
1166	v->err = errsave;
1167
1168	if (e != 0) {
1169	return (chr)lastresort;
1170	}
1171
1172	cv = range(v, c, c, 0);
1173	if (cv->nchrs == 0) {
1174	return (chr)lastresort;
1175	}
1176	return cv->chrs[0];
1177	}
1178
1179	/*
1180	* Local Variables:
1181	* mode: c
1182	* c-basic-offset: 4
1183	* fill-column: 78
1184	* End:
1185	*/

Note: See TracBrowser for help on using the repository browser.

Download in other formats: